Top Insights(Snowflake ML 関数)¶
Top Insightsは、主要な要因分析のための ML 関数 であり、時間の経過に伴うメトリックの変化の要因を特定したり、さまざまな業種間でのメトリックの違いを説明したりするのに役立ちます。Top Insightsでは、分析するメトリックに関連して異なる動作を持つセグメントにデータセットを分割する決定木モデルを活用しています。数行の SQL で、Top Insightsを BI ワークフローに統合し、あらゆるメトリックの変化の原因となるセグメントを自動的に監視できます。
Top Insightsのユースケースには以下のようなものがあります。
時系列分析: 時間の経過に伴うメトリックの変化の要因を特定します。たとえば、最近の収益不足の原因となっている場所、営業担当者、顧客、業種、その他の要因を自動的に特定します。
業種分析: さまざまな業種間でメトリックが異なる要因について特定します。たとえば、米国と EMEA の国における新規ユーザー数の増加の違いの原因となっているユーザーセグメントを把握し、ターゲットを絞ったマーケティングキャンペーンの策定に役立てることができます。
Top Insightsについて¶
Top Insightsは、分析するメトリックに関連して異なる動作を持つセグメントにデータセットを分割する決定木モデルを使用します。アルゴリズムにより、コントロールグループとテストグループのメトリックにおけるセグメント間の違いが分析されます。
コントロールグループは、モデルがベースラインとして使用するデータポイントで構成されます。
テストグループは、分析対象のポイントから構成されます。
次に、Top Insightsでは、コントリビューターの組み合わせをいくつか生成し、その重要性と独自性に基づいてフィルタリングします。Top Insightsでは冗長なセグメントは返されません。
Top Insightsによる分析に適した候補データセットには通常、データをセグメント化するために使用される列やディメンションが多数含まれており、どのセグメントがメトリックに影響を与えるかを直感的に特定することは困難です。ディメンションは、カテゴリ(場所、市場セグメントなど)または連続(つまり、温度や出席者数などの定量的)にすることができます。
Top Insightsモデルはスキーマレベルのオブジェクトです。インスタンスは状態を保持しないため、必要なインスタンスは1つだけです。
Tip
ディメンションは、そのタイプに基づいてカテゴリまたは連続として推測されます。数値は連続ディメンションとして扱われ、文字列値とブール値はカテゴリとして扱われます。数値をカテゴリディメンションとして使用するには、それを文字列に変換します。
必要な権限¶
TOP_INSIGHTS インスタンスはスキーマレベルのオブジェクトです。そのため、インスタンスの作成に使用するロールには、インスタンスが作成されるスキーマに対する CREATE SNOWFLAKE.ML.TOP_INSIGHTS 権限が必要です。この権限は CREATE TABLE や CREATE VIEW のような他のスキーマ権限と類似しています。
インスタンスの所有者でない場合は、その GET_DRIVERS メソッドを呼び出すには、そのインスタンスに対する USAGE 権限を持っている必要があります。
Top Insightsの活用¶
クエリとパイプラインでTop Insightsを使用するには、まず TOP_INSIGHTS (SNOWFLAKE.ML) クラスのインスタンスを作成します。以下の SQL ステートメントは、 my_insights という名前のインスタンスを作成します。インスタンスの作成には引数は必要ありません。
インスタンスを作成したら、 GET_DRIVERS メソッドを使用して、キードライバー分析を実行するデータセットからキードライバーを抽出できます。入力データをすべて1つの部分(単一のテーブル、ビュー、またはクエリへの 参照)として渡し、入力データ内のメトリックとラベル列の名前を追加の引数として指定します。カテゴリディメンションと連続ディメンションはタイプによって推測されるため、明示的に指定する必要はありません。
Top Insights用のデータの準備¶
Top Insightsを使用するには、コントロールグループの一部である行(ラベルは FALSE)とテストグループ内の行(ラベルは TRUE)を区別するブール値のラベル列があることを確認します。この列は通常、タイムスタンプや業種名など、データセット内の他の値から派生するため、これを行うにはビューを作成するのが一般的です。このビューは、分析対象外の列をフィルタリング処理するのにも適しています。
以下の例では、時系列分析のために、日付範囲に基づいてラベル列を持つビューを作成します。具体的には、最新月の記録を TRUE (テストデータ)としてラベル付けし、それ以前のすべての記録を FALSE (コントロールデータ)としてラベル付けします。Top Insightsでは、指定したメトリックの月ごとの変化における違いを説明する連続ディメンションとカテゴリディメンションを分析できます。
以下の例では、業種分析用に、国に基づいたラベル列が含まれるビューを作成しています。具体的には、 US 以外の国の記録には TRUE というラベルを付け、 USA の記録には FALSE というラベルを付けます。次に、Top Insightsは、これらの人口グループ間のメトリックの違いを説明する連続ディメンションとカテゴリディメンションを分析します。
結果の解釈¶
Top Insightsでは、データから検出された該当のセグメントごとに行が返されます。各行には、セグメントのわかりやすい英語による説明が含まれており、複数の条件を含めることができます(たとえば、「COUNTRY = france, not VERTICAL = fashion, not VERTICAL = tech」で単一のセグメントを説明できるかもしれません。Top Insightsでは、各セグメントについて、コントロールグループとテストグループ間の変化にセグメントがどの程度貢献しているかを定量化する以下の値を提供しています。
出力列 |
説明 |
|---|---|
METRIC_CONTROL |
特定のセグメントの制御期間にあるメトリックの合計値。 |
METRIC_TEST |
特定のセグメントのテスト期間にあるメトリックの合計値。 |
CONTRIBUTION |
メトリックの変化に対するセグメントの絶対的影響度。 |
RELATIVE_CONTRIBUTION |
テストと制御の間のメトリック全体の変化に占めるセグメントの影響の割合。 |
GROWTH_RATE |
セグメント内の制御グループの指標に対する、セグメント内のメトリックの変化の割合。 |
貢献度、相対的貢献度、および成長率がマイナスになる場合があり、これはセグメントがマイナスの影響を及ぼしていることを示します。
コストの考慮事項¶
Top Insightsを使用すると、コンピューティングコストが発生します。実行時間は、処理される行数とディメンション数に応じて変化します。Snowflakeのコンピューティングコストに関する一般的な情報については、 コンピューティングコストについて をご参照ください。
Top Insightsのパフォーマンスは、通常、メモリに収まる必要がある分析対象のすべてのデータをロードするために必要なサイズよりも大きいウェアハウスを使用しても向上しません。約1,000,000行および1,000列を超えるデータセットでは、メモリが不足する可能性があります。Snowflakeでは、標準的な大規模ウェアハウスではなく、Snowparkに最適化されたウェアハウスを使用することを推奨しています。Snowparkに最適化されたウェアハウスには、対応するサイズの標準ウェアハウスよりも多くのメモリがあります。
Top Insightsクラスのインスタンスはスキーマレベルのオブジェクトですが、データは保存されず、ストレージコストへの影響はごくわずかです。
例¶
以下の例は、時系列分析と業種分析におけるTop Insightsの使用方法を示しています。
時系列分析の例¶
この例では、2つの期間間のメトリックの差に寄与するセグメント、具体的には国と業種ディメンションが2021年以降のメトリックにどのように影響するかを調べます。
以下の SQL ステートメントを使用して、この例の合成データを含む入力テーブルを作成します。
日付スタンプに基づいてラベル列を持つビューを作成します。
次に、 TOP_INSIGHTS インスタンスの GET_DRIVERS メソッドを呼び出して、このデータを分析します。
出力は以下のようになります。
注釈
入力データはランダムに生成されるため、結果は上記の結果とは異なります。
出力は CONTRIBUTION 順に並べられ、Overallセグメントが常に一番上に表示されます。CONTRIBUTOR 列にはセグメントを説明する文字列の配列が含まれ、残りの列は、そのセグメントがメトリックの値にどのように貢献するかを定量化します。詳細については、 結果の解釈 をご参照ください。
上の出力例では、米国にいること自体がメトリックに最も大きな影響を与えています。米国内の金融および自動車業界を基盤とする2つの追加セグメントも、大きな影響力を持っています。その後、セグメントの貢献はマイナスに転じます。
業種分析の例¶
この例では、 USA と EMEA の2つのリージョンの企業のクレジット使用状況を比較し、各セグメントのクレジット使用状況がリージョン間でどのように異なるかを理解することを目的としています。
以下の SQL ステートメントを使用して、この例の合成データを含む入力テーブルを作成します。
リージョンに基づいてラベル列を持つビューを作成します。
次に、 TOP_INSIGHTS インスタンスの GET_DRIVERS メソッドを呼び出して、このデータを分析します。
出力は以下のようになります。
注釈
入力データはランダムに生成されるため、結果は上記の結果とは異なります。
出力は CONTRIBUTION 順に並べられ、Overallセグメントが常に一番上に表示されます。CONTRIBUTOR 列にはセグメントを説明する文字列の配列が含まれ、残りの列は、そのセグメントがメトリックの値にどのように貢献するかを説明します。詳細については、 <instance_name>!GET_DRIVERS をご参照ください。
上の出力例では、セグメントが顧客の業界と従業員数に基づいていることがわかります。Top Insightsは、連続ディメンションに対してこのような範囲を自動的に選択します。一定規模の顧客(従業員数約4,000~6,000人)の場合、マイナスの影響が特に大きいようです。
現在の制限¶
入力メトリックは、個々の観測値または集計値でなくてはなりません。
25を超える値を持つカテゴリ機能の場合、Top Insightsは最も影響力のある上位25の値のみを使用してセグメントを作成します。
1件のジョブで1億行以上を処理すると、Snowparkに最適化されたウェアハウスであってもメモリが枯渇する可能性があります。
法的通知¶
重要
法的通知。 このSnowflake ML 関数は、機械学習技術を利用しています。いつ、どのように使用するかは、Snowflakeではなく、お客様が決定します。機械学習技術と提供される結果は、不正確、不適切であったり、偏っていたりする可能性があります。Snowflakeは、独自のワークフロー内で使用できる機械学習モデルをプロバイダーとして提供します。自動パイプラインに組み込まれたものも含め、機械学習の出力に基づく決定には、モデルが生成したコンテンツが正確であることを保証するために、人間によるモニタリングとレビュープロセスが必要です。Snowflakeはアルゴリズムを(事前トレーニングなしで)提供し、アルゴリズムに提供するデータ(例えば、トレーニングや推論用)、および結果として得られるモデルの出力を使用して行う意思決定についてはプロバイダーが責任を負います。この機能または関数に対するクエリは、他の SQL クエリと同様に扱われ、 メタデータ とみなされる場合があります。
メタデータ。 Snowflake ML 関数を使用すると、Snowflake は ML 関数から返される一般的なエラーメッセージをログに記録します。これらのエラーログは、発生した問題のトラブルシューティングや、お客様により良いサービスを提供するための機能改善に役立ちます。
詳細については、 Snowflake AI の信頼と安全 FAQ をご参照ください。