Utilisation de paquets tiers¶

Les zones de préparation peuvent être utilisées pour importer des packages tiers. Vous pouvez également spécifier les paquets Anaconda à installer lorsque vous créez des UDFs Python.

Aperçu d’Artifact Repository¶

Avec Artifact Repository, vous pouvez utiliser directement les paquets Python du Python Package Index (PyPI) dans les fonctions définies par l’utilisateur (UDFs) de Snowpark Python et des procédures stockées afin de faciliter la création et le développement d’applications basées sur Python dans Snowflake.

Prise en main¶

Utilisez Artifact Repository par défaut de Snowflake (snowflake.snowpark.pypi_shared_repository) pour vous connecter et installer des paquets PyPI dans les UDFs et procédures Snowpark.

Avant d’utiliser ce référentiel, l’administrateur du compte (un utilisateur qui dispose du rôle ACCOUNTADMIN) doit accorder le rôle de base de données SNOWFLAKE PYPI_REPOSITORY_USER à votre rôle :

GRANT DATABASE ROLE SNOWFLAKE.PYPI_REPOSITORY_USER TO ROLE some_user_role;

L’administrateur du compte peut également accorder ce rôle de base de données à tous les utilisateurs du compte :

GRANT DATABASE ROLE SNOWFLAKE.PYPI_REPOSITORY_USER TO ROLE PUBLIC;

SNOWFLAKE.PYPI_REPOSITORY_USER est le rôle de base de données requis pour tout rôle qui utilise le snowflake.snowpark.pypi_shared_repository, y compris l’exécution d’UDFs/SPs qui référencent snowflake.snowpark.pypi_shared_repository.

Avec ce rôle, vous pouvez installer le paquet à partir du référentiel. Lorsque vous créez l’UDF, vous définissez le paramètre ARTIFACT_REPOSITORY dans le nom du référentiel d’artefacts. Vous avez également défini le paramètre PACKAGES dans la liste des noms de paquets qui proviendront du référentiel d’artefacts. Dans l’exemple suivant, parce que le référentiel d’artefacts est configuré avec PyPI, le paquet scikit-learn provient de PyPI :

CREATE OR REPLACE FUNCTION sklearn_udf()
  RETURNS FLOAT
  LANGUAGE PYTHON
  RUNTIME_VERSION = 3.12
  ARTIFACT_REPOSITORY = snowflake.snowpark.pypi_shared_repository
  PACKAGES = ('scikit-learn')
  HANDLER = 'udf'
  AS
$$
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

def udf():
  X, y = load_iris(return_X_y=True)
  X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

  model = RandomForestClassifier()
  model.fit(X_train, y_train)
  return model.score(X_test, y_test)
$$;

SELECT sklearn_udf();

Note

Pour spécifier une version de paquet, ajoutez-la comme indiqué :

PACKAGES = ('scikit-learn==1.5')

Paquets conçus uniquement pour x86¶

Si un paquet est conçu uniquement pour x86, choisissez l’un des entrepôts qui utilise l’architecture CPU x86 (MEMORY_1X_x86 ou MEMORY_16X_x86) et spécifiez ensuite RESOURCE_CONSTRAINT=(architecture='x86'), comme dans l’exemple suivant :

CREATE OR REPLACE FUNCTION pymeos_example()
RETURNS STRING
LANGUAGE PYTHON
HANDLER='main'
RUNTIME_VERSION='3.11'
ARTIFACT_REPOSITORY=snowflake.snowpark.pypi_shared_repository
PACKAGES=('pymeos') -- dependency pymeos-cffi is x86 only
RESOURCE_CONSTRAINT=(architecture='x86')
AS $$
def main() -> str:
   from pymeos import pymeos_initialize, pymeos_finalize, TGeogPointInst, TGeogPointSeq

   # Always initialize MEOS library
   pymeos_initialize()

   sequence_from_string = TGeogPointSeq(
      string='[Point(10.0 10.0)@2019-09-01 00:00:00+01, Point(20.0 20.0)@2019-09-02 00:00:00+01, Point(10.0 10.0)@2019-09-03 00:00:00+01]')

   sequence_from_points = TGeogPointSeq(instant_list=[TGeogPointInst(string='Point(10.0 10.0)@2019-09-01 00:00:00+01'),
        TGeogPointInst(string='Point(20.0 20.0)@2019-09-02 00:00:00+01'),
        TGeogPointInst(string='Point(10.0 10.0)@2019-09-03 00:00:00+01')],
          lower_inc=True, upper_inc=True)
   speed = sequence_from_points.speed()

   # Call finish at the end of your code
   pymeos_finalize()

   return speed
$$;

SELECT pymeos_example();

Pour plus d’informations, voir Entrepôts optimisés par Snowpark.

Vous pouvez utiliser Artifact Repository avec les UDF et les APIs clientes de la procédure stockée comme ci-dessous :

Lorsque vous les utilisez, spécifiez les paramètres suivants :

ARTIFACT_REPOSITORY

PACKAGES

et indiquez le nom du paquet dans le champ PACKAGES.

Voir l’exemple suivant :

...
ARTIFACT_REPOSITORY="snowflake.snowpark.pypi_shared_repository",
PACKAGES=["urllib3", "requests"],
...

Résolution des problèmes¶

Si l’installation du paquet échoue pour la partie création de la fonction ou de la procédure, exécutez la commande pip suivante localement pour voir si la spécification du paquet est valide :

pip install <package name> --only-binary=:all: --python-version 3.12 –platform <platform_tag>

Limitations¶

L’accès aux référentiels privés n’est pas possible.
Vous ne pouvez pas utiliser cette fonctionnalité directement dans Notebooks. Toutefois, vous pouvez utiliser une UDF ou procédure stockée qui utilise les paquets PyPI dans un notebook.
Vous ne pouvez pas utiliser Artifact Repository dans des procédures stockées anonymes.

Note

Snowflake ne vérifie ni ne gère la sécurité des paquets Python provenant de sources externes. Vous êtes responsable de l’évaluation de ces paquets et de vous assurer qu’ils sont sûrs et fiables.
Snowflake se réserve le droit de bloquer ou de supprimer tout paquet susceptible d’être nuisible ou risqué, sans préavis. Cette mesure vise à protéger l’intégrité de la plateforme.

Importation de paquets à travers une zone de préparation Snowflake¶

Les zones de préparation Snowflake peuvent être utilisées pour importer des packages. Vous pouvez introduire tout code Python qui suit les directives définies dans Limitations générales. Pour plus d’informations, voir Création d’une UDF Python avec du code téléchargé à partir d’une zone de préparation.

Vous ne pouvez charger des paquets purement Python ou des paquets avec du code natif qu’à travers une zone de préparation Snowflake.

À titre d’exemple, vous pouvez utiliser le SQL suivant, qui crée un entrepôt nommé so_warehouse qui a une architecture x86 CPU :

CREATE WAREHOUSE so_warehouse WITH
   WAREHOUSE_SIZE = 'LARGE'
   WAREHOUSE_TYPE = 'SNOWPARK-OPTIMIZED'
   RESOURCE_CONSTRAINT = 'MEMORY_16X_X86';

Pour installer un paquet avec du code natif via l’importation depuis la zone de préparation, utilisez l’exemple suivant :

CREATE or REPLACE function native_module_test_zip()
  RETURNS string
  LANGUAGE python
  RUNTIME_VERSION=3.12
  RESOURCE_CONSTRAINT=(architecture='x86')
  IMPORTS=('@mystage/mycustompackage.zip')
  HANDLER='compute'
  as
  $$
  def compute():
      import mycustompackage
      return mycustompackage.mycustompackage()
  $$;

Utilisation de paquets tiers à partir d’Anaconda¶

Snowflake donne accès à un ensemble choisi de paquets Python construits par Anaconda. Ces paquets s’intègrent directement aux fonctionnalités Python de Snowflake, sans frais supplémentaires.

Conditions de la licence¶

Dans Snowflake : régies par votre accord client Snowflake existant, y compris les restrictions d’utilisation d’Anaconda décrites dans cette documentation. Aucun condition Anaconda distincte ne s’applique à l’utilisation dans Snowflake.
Développement local : à partir du référentiel Anaconda dédié de Snowflake : Sous réserve des Conditions applicables au client final intégrées d’Anaconda et des conditions de service d’Anaconda publiées dans le référentiel. L’utilisation locale est limitée au développement/test de charges de travail destinées à être déployées dans Snowflake.

Conseils à l’utilisateur¶

Utilisations autorisées¶

Dans Snowflake : utilisez les paquets librement dans toutes les fonctionnalités Python prises en charge.

Note

Vous ne pouvez pas appeler une UDF dans la clause DEFAULT d’une instruction CREATE TABLE à l’exception des paquets qui restent librement disponibles dans Snowflake Notebooks sur Snowpark Container Services.
Développement local : utilisez les paquets du référentiel Anaconda dédié de Snowflake pour développer ou tester des charges de travail destinées à Snowflake.

Utilisations interdites¶

Les utilisations suivantes des paquets sont interdites :

Utilisation de paquets pour des projets non liés à Snowflake.
Hébergement ou mise en miroir du contenu du paquet en externe.
Suppression ou modification des avis de copyright ou de licence.

Recherche et gestion de paquets¶

Vous ne trouvez pas le paquet dont vous avez besoin ?

Soumettez des requêtes via les Forum aux idées de Snowflake.
Les paquets Python purs (sans extensions compilées) peuvent être chargées directement dans une zone de préparation Snowflake.

Prise en charge et sécurité¶

Couverture de support¶

Snowflake assure le support pour les paquets standard, comprenant :

Guide d’installation
Dépannage d’environnement
Aide à l’intégration

Garantie et SLA¶

Les paquets Anaconda sont des logiciels tiers fournis tels quels et ne sont pas couverts par la garantie ou le SLA (Accord de niveau de service) de Snowflake.

Pratiques de sécurité¶

Les paquets Anaconda fournis par Snowflake sont construits sur une infrastructure de confiance et signés numériquement.

Pour plus de détails, voir les pratiques de sécurité d’Anaconda.

Conformité et licence¶

Chaque pack inclut sa propre licence open-source. Les clients doivent se conformer aux conditions de licence des paquets individuels en plus des directives d’utilisation décrites dans cette documentation.

Foire aux questions¶

** Puis-je utiliser les paquets d’autres canaux Anaconda (par exemple, conda-forge ou Anaconda Defaults) ?** Non. Les autres canaux sont des offres distinctes et peuvent nécessiter une licence commerciale d’Anaconda.
** Puis-je utiliser ces paquets localement pour des projets sans rapport avec Snowflake ?** Non. L’utilisation locale est strictement limitée au développement ou au test de charges de travail destinées au déploiement de Snowflake. Les autres utilisations nécessitent une licence Anaconda distincte.
** Pourquoi Snowpark Container Services nécessite une licence distincte ?** L’utilisation de paquets dans des images Docker personnalisées va au-delà de l’environnement intégré de Snowflake, ce qui nécessite une licence Anaconda distincte.

Affichage et utilisation des paquets¶

Affichage des paquets disponibles¶

Vous pouvez afficher tous les paquets disponibles et leurs informations de version en interrogeant la vue PACKAGES dans Information Schema.

select * from information_schema.packages where language = 'python';

Pour afficher les informations de version d’un paquet spécifique, par exemple numpy, utilisez cette commande :

select * from information_schema.packages where (package_name = 'numpy' and language = 'python');

Note

Certains paquets du canal Anaconda Snowflake ne sont pas destinés à être utilisés dans des UDFs Snowflake, car les UDFs sont exécutées dans un moteur restreint. Pour plus d’informations, voir Respecter les bonnes pratiques de sécurité.

Lorsque des requêtes qui appellent des UDFs Python sont exécutées dans un entrepôt Snowflake, les paquets Anaconda sont installés de manière transparente et mis en cache dans l’entrepôt virtuel en votre nom.

Affichage des paquets importés¶

Vous pouvez afficher la liste des paquets et modules utilisés par une UDF ou une UDTF en exécutant la commande DESCRIBE FUNCTION. L’exécution de la commande DESCRIBE FUNCTION pour une UDF dont le gestionnaire est implémenté en Python renvoie les valeurs de plusieurs propriétés, dont une liste des modules et paquets importés, ainsi que des packages installés, la signature de la fonction et son type de retour.

Lorsque vous spécifiez l’identificateur de l’UDF, veillez à inclure les types de paramètres de fonction, le cas échéant.

desc function stock_sale_average(varchar, number, number);

Utilisation des paquets Anaconda¶

Pour un exemple d’utilisation d’un paquet Anaconda importé dans une UDF Python, reportez-vous à Importation d’un paquet dans un gestionnaire en ligne.

Définition des politiques de paquets¶

Vous pouvez utiliser une politique de paquets pour définir des listes d’autorisation et des listes de blocage pour les paquets Python tiers d’Anaconda au niveau du compte. Cela vous permet de répondre à des exigences d’audit et de sécurité plus strictes et vous donne un contrôle plus précis sur les paquets disponibles ou bloqués dans votre environnement. Pour plus d’informations, consultez Politiques de paquets.

Performance des entrepôts froids¶

Pour une gestion plus efficace des ressources, les entrepôts virtuels nouvellement provisionnés ne préinstallent pas les paquets Anaconda. Au lieu de cela, les paquets Anaconda sont installés à la demande la première fois qu’une UDF est utilisée. Les paquets sont mis en cache pour une exécution UDF future sur le même entrepôt. Le cache est détruit lorsque l’entrepôt est suspendu. Cela peut entraîner un ralentissement des performances la première fois qu’une UDF est utilisée ou après la reprise de l’entrepôt. La latence supplémentaire pourrait être d’environ 30 secondes.

Développement et tests locaux¶

Pour vous aider à créer un environnement conda sur votre machine locale pour le développement et les tests, Anaconda a créé un canal Snowflake qui reproduit un sous-ensemble des paquets et des versions qui sont pris en charge dans l’environnement UDF Snowflake Python. Vous pouvez utiliser le canal Anaconda de Snowflake pour des tests et du développement locaux, sans frais, conformément aux conditions supplémentaires relatives aux logiciels embarqués des conditions de service d’Anaconda.

Par exemple, pour créer un nouvel environnement conda localement en utilisant le canal Snowflake, tapez quelque chose comme ceci sur la ligne de commande :

conda create --name py312_env -c https://repo.anaconda.com/pkgs/snowflake python=3.12 numpy pandas

Notez qu’en raison des différences de plate-forme, votre environnement conda local peut ne pas être exactement le même que celui du serveur.

Meilleures pratiques¶

Dans l’instruction create function la spécification du paquet (par exemple, packages = ('numpy','pandas')) ne doit spécifier que les packages de premier niveau que l’UDF utilise directement.

Anaconda gère les dépendances et les installe automatiquement. Vous n’avez pas besoin de spécifier les paquets de dépendance. Si vous n’indiquez pas de version du paquet, Anaconda installe la version la plus récente du paquet et de ses dépendances. Il n’est généralement pas nécessaire de spécifier une version particulière.

Lorsque vous utilisez artifact_repository pour récupérer des paquets depuis PyPI, précisez les contraintes de version afin de garantir la stabilité de la production. Contrairement aux paquets Anaconda, qui sont conçus pour la compatibilité avec Snowflake, les paquets PyPI peuvent entraîner des changements incompatibles avec les nouvelles versions. Envisagez d’utiliser des restrictions de version, comme :code:` packages = (“pandas<3.0.0”,)`, ou de verrouiller les versions.

Notez que la résolution de version est effectuée une fois, lorsque l’UDF est créée à l’aide de la commande create function. Après cela, la résolution de version résultante est gelée et le même ensemble de paquets sera utilisé lors de l’exécution de cette UDF spécifique.

Pour un exemple d’utilisation de la spécification du paquet dans l’instruction create function voir Importation d’un paquet dans un gestionnaire en ligne.

Problèmes connus avec les paquets tiers¶

Performance avec la prédiction sur une seule ligne¶

Certains frameworks de data science, tels que Scikit-learn et TensorFlow, peuvent être lents lors de la prédiction ML sur une seule ligne. Pour améliorer les performances, effectuez une prédiction par lot plutôt qu’une prédiction sur une seule ligne. Vous pouvez également utiliser les UDFs vectorisées Python, avec lesquelles vous pouvez définir des fonctions Python qui reçoivent des lignes d’entrée par lots, sur lesquelles les bibliothèques de machine learning ou de science des données sont optimisées pour fonctionner. Pour plus d’informations, voir UDFs Python vectorisées.

Téléchargement de données à la demande depuis les bibliothèques de Data Science¶

Certaines bibliothèques de Data Science, telles que NLTK, Keras et spaCy offrent une fonctionnalité permettant de télécharger des corpus, des données ou des modèles supplémentaires à la demande.

Cependant, le téléchargement à la demande ne fonctionne pas avec les UDFs Python en raison des contraintes de sécurité de Snowflake, qui désactivent certaines capacités, comme l’accès au réseau et l’écriture dans les fichiers.

Pour contourner ce problème, téléchargez les données dans votre environnement local, puis fournissez-les à l’UDF via une zone de préparation Snowflake.

XGBoost¶

Lors de l’utilisation de XGBoost dans une UDF ou une UDTF pour la prédiction ou l’apprentissage en parallèle, la concurrence pour chaque instance XGBoost doit être définie sur 1. Cela garantit que XGBoost est configuré pour une performance optimale lors de l’exécution dans l’environnement Snowflake.

Exemples :

import xgboost as xgb
model = xgb.Booster()
model.set_param('nthread', 1)
model.load_model(...)

import xgboost as xgb
model = xgb.XGBRegressor(n_jobs=1)

TensorFlow/Keras¶

Lorsque vous utilisez Tensorflow/Keras pour la prédiction, utilisez Model.predict_on_batch et non Model.predict.

Exemple :

import keras
model = keras.models.load_model(...)
model.predict_on_batch(np.array([input]))