Débit provisionné

Vue d’ensemble

Utilisez Provisioned Throughput pour réserver le débit pour l’inférence gérée sur Snowflake Cortex. Vous spécifiez la taille du débit en unités de débit provisionnées (PTU), et Cortex alloue la capacité requise pour une durée d’un mois. Vous pouvez utiliser les PTUs dans vos appels d’API REST pour une expérience cohérente pour l’utilisateur final. La fonctionnalité est disponible pour les modèles suivants dans les Clouds AWS et Azure :

  • Mistral Large 2

  • Llama 3.1-405B

  • Lamas 3.1-70B

  • Llama 3.1-8B

  • Snowflake-Lama3.3-70B

  • Snowflake-Lama3.3-405B

Exigences en matière de contrôle d’accès

Les utilisateurs doivent utiliser un rôle auquel a été attribué le rôle de base de données SNOWFLAKE.CORTEX_USER avec le privilège USAGE sur l’ID de PT. Pour plus d’informations sur ce privilège, voir Privilèges.

Privilèges

Les sections suivantes décrivent les privilèges requis pour créer, gérer et utiliser le débit provisionné.

Création d’un débit provisionné

Pour créer un débit provisionné, vous devez utiliser un rôle qui a reçu le privilège CREATE PROVISIONED THROUGHPUT au niveau du compte. Par défaut, ACCOUNTADMIN est le seul rôle qui peut créer le débit provisionné. Vous pouvez utiliser le rôle ACCOUNTADMIN pour accorder le privilège CREATE PROVISIONED THROUGHPUT à un autre rôle.

Utilisez la commande SQL suivante pour accorder le privilège de créer un débit provisionné :

GRANT CREATE PROVISIONED THROUGHPUT ON ACCOUNT TO ROLE <role>
Copy

Le débit provisionné est un objet de niveau schéma. Un rôle disposant du privilège CREATE PROVISIONED THROUGHPUT peut créer un débit provisionné dans tout schéma pour lequel il dispose du privilège USAGE.

Le rôle que vous avez utilisé pour créer le débit provisionné se voit automatiquement accorder le privilège OWNERSHIP sur le débit provisionné. Le privilège OWNERSHIP vous permet de renommer ou de supprimer le débit provisionné.

Attribution du privilège d’utiliser un débit provisionné aux rôles

Accordez le privilège USAGE aux rôles sur le débit provisionné. Le privilège USAGE donne aux rôles la possibilité d’effectuer des appels d’API REST ou SQL avec un ID de débit provisionné.

La commande SQL suivante accorde le privilège USAGE sur un débit provisionné :

GRANT USAGE ON PROVISIONED THROUGHPUT <pt_id> TO ROLE <role>
Copy

Utilisation d’un débit provisionné

Un rôle disposant du privilège USE ou OWNERSHIP sur un débit provisionné peut utiliser le débit provisionné pour l’inférence. Pour obtenir des informations sur les privilèges requis pour utiliser un débit provisionné, voir Privilèges de débit provisionné.

Exigences minimales en matière d’unités de débit provisionnées

Le débit provisionné est soumis à des exigences minimales et incrémentielles sur le site PTU. Chaque modèle ou fonction dans la colonne PTUs minimum indique le nombre minimum de PTUs que vous devez demander. Si vous demandez moins de PTUs que le minimum requis, votre requête est rejetée.

Si vous avez besoin d’un débit supérieur à l’offre minimale de PTUs pour le modèle, vous avez besoin de PTUs supplémentaires. La colonne PTUs d’incrémentation indique les incréments de PTU supérieurs au PTUs minimum que vous pouvez demander. Les requêtes doivent spécifier les PTUs de telle sorte que le montant dépassant le minimum soit un multiple entier de l’incrément ; sinon, la requête est rejetée.

Le tableau ci-dessous donne la liste des modèles disponibles, le nombre minimum de PTUs requis pour chaque modèle, et les exigences d’incrémentation pour les PTUs supplémentaires au-delà du minimum.

Débit provisionné - API REST complète

Modèle

PTUs minimum

PTUs d’incrémentation

Mistral Large 2

256

128

Llama 3.1-405B

512

256

Lamas 3.1-70B

128

64

Llama 3.1-8B

64

32

Snowflake-Lama3.3-70B

128

64

Snowflake-Lama3.3-405B

512

256

Détermination de la taille de PTU

Les PTUs requis pour votre application dépendent du profil de la charge de travail. Par exemple, sur Llama 3.1-8B, une charge de travail avec 500 requêtes par minute (RPM) et 500 jetons par sortie de requête a un minimum de 64 PTUs. Elle fournit un débit de 960 000 jetons par minute. Si vous avez besoin d’un débit plus important, vous pouvez demander des PTUs supplémentaires par tranches de 32.

Lorsque vous débutez, vous pouvez utiliser le nombre minimum de PTUs pour le modèle et ajouter des incréments selon vos besoins.

Considérations relatives aux clients

Pendant la durée de votre période de débit provisionné, vous consommez des crédits par PTU et par heure au taux annoncé dans le tableau de consommation de crédits de Snowflake. Vous payez des frais pour les PTUs qui vous ont été attribués, quelle que soit l’utilisation réelle que vous en faites pendant la durée de la période. La période commence et se termine à 8h00. PT pour les dates fournies dans la création du débit provisionné.

Le débit provisionné ne se renouvelle pas automatiquement. Pour réserver le débit pour une autre période, voir la section suivante.

Réservation du débit

Ce tutoriel vous guide dans le processus de réservation et d’utilisation du débit provisionné dans un appel de l’API REST pour la fonction COMPLETE de Cortex.

Étape 1 : Créer un ID de débit provisionné

Pour prendre en main le débit provisionné, utilisez SQL pour créer une requête avec les informations suivantes :

  • Le fournisseur de Cloud

  • Le modèle

  • Le nombre de PTUs

  • Le début de la période (période de disponibilité du débit provisionné)

  • La fin de la période (période de disponibilité du débit provisionné)

Les exemples suivants créent la ressource de débit provisionnée my_pt sur AWS, en spécifiant le modèle llama3.1-8B, en allouant 64 unités de débit provisionnées (PTUs) du 15 avril 2025 au 15 mai 2025.

CREATE PROVISIONED THROUGHPUT my_pt CLOUD_PROVIDER='aws', MODEL='llama3.1-8B', PTUS=64, TERM_START='2025-04-15' TERM_END='2025-05-15'
Copy

L’ID du débit provisionné (ID du PT) figure dans la réponse.

Étape 2 : Ouvrir un dossier d’assistance pour allouer le débit provisionné

Après avoir créé un ID, créez un ticket de support avec le support Snowflake pour activer le débit provisionné. Dans le ticket, indiquez votre Identificateurs de compte et l’ID du PT. Nous vous recommandons de créer le ticket sept jours ouvrables avant le début de la période afin de vous assurer que le débit est réservé au moment voulu.

Étape 3 : Vérifier le statut du débit provisionné

Après avoir créé le ticket de support, vous pouvez vérifier le statut du débit provisionné à l’aide de la commande suivante.

DESCRIBE PROVISIONED THROUGHPUT my_pt
Copy

Cette commande renvoie l’un des états suivants :

  • REQUESTED : la requête de PT a été reçue, mais la capacité n’a pas encore été allouée.

  • APPROVED : le PT est activé et sera ACTIVE à la date de début spécifiée.

  • ACTIVE : le PT est désormais disponible.

  • EXPIRED : le PT n’est plus disponible ou n’a pas été activé avant le début de la période.

Étape 4 : Utiliser l’ID du débit provisionné dans vos appels de l’API REST

Une fois que l’état du PT est ACTIVE, vous pouvez l’utiliser dans vos appels de l’API REST AI_COMPLETE. Pour utiliser le débit provisionné dans la requête d’inférence, spécifiez l’ID du PT dans l’appel API. L’utilisation du débit provisionné dans la requête ne change pas le comportement de l’API.

L’exemple suivant montre comment utiliser l’ID du PT dans un appel d’API REST COMPLETE :

curl --location 'https://some-account-identifier.snowflakecomputing.com/api/v2/cortex/inference:complete' \
--header 'X-Snowflake-Authorization-Token-Type: KEYPAIR_JWT' \
--header 'Content-Type: application/json' \
--header 'Accept: application/json' \
--header 'Authorization: ••••••' \
--data '{
  "model": "snowflake-llama-3.1-8b",
  "messages": [
  {
      "content": "Write an essay on the benefits of provisioned throughput."
  }
  ],
  "provisioned_throughput_id": "f3a27d60-f61f-4247-8aa3-6272ea0d7a8d"
}'
Copy

Note

Le rôle que vous utilisez pour effectuer l’appel de l’API REST doit avoir le privilège USE sur l’ID du débit provisionné. Pour plus d’informations sur les privilèges requis, voir Privilèges de débit provisionné.

Résiliation

Le débit provisionné cesse de traiter les requêtes d’inférence à l’expiration de la période. Si vous utilisez le débit provisionné pour les requêtes d’API après l’expiration de la période, vous devez créer un nouvel ID de débit provisionné et l’utiliser dans vos requêtes.