特徴量のエンジニアリング¶
Snowflake ML では、未加工データを機能に変換し、機械学習モデルで効率的に使用できるようにします。データの変換にはいくつかのアプローチがあり、それぞれ異なる規模や要件に適しています。
オープンソースソフトウェア( OSS )プリプロセッサー - 小規模から中規模のデータセットと迅速なプロトタイピングには、コンテナランタイム内のローカルまたは単一ノード上で実行される使い慣れたPython ML ライブラリを使用します。
Snowflake ML プリプロセッサー - 大規模なデータセットの場合は、Snowflakeプラットフォーム上でネイティブに実行されるSnowflake ML の前処理 APIs を使用します。これらの APIs は、ウェアハウスコンピューティングリソースに処理を分散します。
Ray map_batches - 特に非構造化データで高度にカスタマイズ可能な大規模処理を行うには、単一ノードまたは複数のノードのコンテナランタイム環境でリソース管理された並列実行を使用します。
データサイズ、パフォーマンス要件、カスタム変換ロジックのニーズに最も適したアプローチを選択します。
次の表は、Snowflake ML における特徴量エンジニアリングのための3つの主なアプローチの詳細な比較を示しています。
特徴量/側面 |
OSS (scikit-learnを含む) |
Snowflake ML プリプロセッサー |
Ray |
|---|---|---|---|
スケール |
小規模・中規模データセット |
大規模/分散データ |
大規模/分散データ |
実行環境 |
メモリ内 |
SQL クエリを実行するために使用しているデフォルトのウェアハウスにプッシュダウン |
コンピューティングプール内のノード全体 |
コンピューティングリソース |
Snowpark Container Services(コンピューティングプール) |
ウェアハウス |
Snowpark Container Services(コンピューティングプール) |
統合 |
標準的なPython ML エコシステム |
Snowflake ML とネイティブに統合 |
Python ML とSnowflakeの両方 |
パフォーマンス |
ローカル、インメモリ、スケール制限、非分散型では高速 |
スケーラブルな分散型特徴量エンジニアリングのための設計 |
高度に並列化およびリソース管理され、大規模/非構造化データに最適 |
ユースケースの適合性 |
迅速なプロトタイピングと実験 |
大規模データセットの実稼働ワークフロー |
カスタムリソース制御を必要とする大規模データワークフロー |
以下の例は、それぞれのアプローチによる特徴量変換の実装方法を示しています。
以下のコードを使用して、前処理ワークフローにscikit-learnを実装します。
Snowflake ML プリプロセッサーは、Snowflake内で分散変換を直接処理します。これらのプリプロセッサーは、ウェアハウス全体でスケールするようにプッシュダウンされます。大規模なデータセットと実稼働ワークロードには、Snowflake ML プリプロセッサーを使用します。
注釈
Snowflake ML プリプロセッサーは、sci-kit learnで利用可能なプリプロセッサーのサブセットですが、最も一般的なユースケースをカバーしています。利用可能なプリプロセッサーについては、 Snowflake ML モデリング前処理 をご参照ください。
以下のコードは、 StandardScaler と OneHotEncoder ライブラリを使用します。
カスタム変換による分散並列処理にはRayを使用します。Ray map_batches は遅延実行を使用します。つまり、データセットを実体化するまで処理が行われないため、メモリ使用量を減らすことができます。このアプローチは、カスタムロジックによる大規模なデータ処理に最適です。