Bereitgestellter Durchsatz

Übersicht

Verwenden Sie bereitgestellten Durchsatz, um Durchsatz für verwaltete Inferenzen auf Snowflake Cortex zu reservieren. Sie geben die Durchsatzgröße als bereitgestellte Durchsatzeinheiten (PTU) an, und Cortex weist die erforderliche Kapazität für einen Monat zu. Sie können die PTUs in Ihren REST API-Aufrufen verwenden, um eine einheitliche Benutzererfahrung zu gewährleisten. Die Funktionalität ist für die folgenden Modelle in den AWS- und Azure-Clouds verfügbar:

  • Mistral Large 2

  • Llama 3.1-405B

  • Llama 3.1-70B

  • Llama 3.1-8B

  • Snowflake-Llama3.3-70B

  • Snowflake-Llama3.3-405B

Anforderungen an die Zugriffssteuerung

Benutzer müssen eine Rolle verwenden, der die Datenbankrolle SNOWFLAKE.CORTEX_USER mit der Berechtigung USAGE auf der PT ID zugewiesen wurde. Weitere Informationen zu dieser Berechtigung finden Sie unter Berechtigungen.

Berechtigungen

In den folgenden Abschnitten werden die Berechtigungen beschrieben, die zum Erstellen, Verwalten und Verwenden von bereitgestelltem Durchsatz erforderlich sind.

Erstellen eines bereitgestellten Durchsatzes

Um einen bereitgestellten Durchsatz zu erstellen, müssen Sie eine Rolle verwenden, die über die Berechtigung CREATE PROVISIONED THROUGHPUT auf Kontoebene verfügt. Standardmäßig ist ACCOUNTADMIN die einzige Rolle, die den bereitgestellten Durchsatz erstellen kann. Sie können die Rolle ACCOUNTADMIN verwenden, um einer anderen Rolle die Berechtigung CREATE PROVISIONED THROUGHPUT zu erteilen.

Verwenden Sie den folgenden SQL-Befehl, um die Berechtigung zum Erstellen eines bereitgestellten Durchsatzes zu erteilen:

GRANT CREATE PROVISIONED THROUGHPUT ON ACCOUNT TO ROLE <role>
Copy

Bereitgestellter Durchsatz ist ein Objekt auf Schemaebene. Eine Rolle mit der Berechtigung CREATE PROVISIONED THROUGHPUT kann in jedem Schema, für das sie die Berechtigung USAGE hat, einen bereitgestellten Durchsatz erstellen.

Die Rolle, die Sie zum Erstellen des bereitgestellten Durchsatzes verwendet haben, erhält automatisch die Berechtigung OWNERSHIP für den bereitgestellten Durchsatz. Die Berechtigung OWNERSHIP ermöglicht es Ihnen, den bereitgestellten Durchsatz umzubenennen oder zu löschen.

Erteilung der Berechtigung zur Nutzung eines bereitgestellten Durchsatzes an Rollen

Gewähren Sie Rollen mit der Berechtigung USAGE für den bereitgestellten Durchsatz. Die Berechtigung USAGE gibt Rollen die Möglichkeit, REST API- oder SQL-Anrufe mit einem bereitgestellten Durchsatz zu tätigen ID.

Der folgende SQL-Befehl gewährt die Berechtigung USAGE für einen bereitgestellten Durchsatz:

GRANT USAGE ON PROVISIONED THROUGHPUT <pt_id> TO ROLE <role>
Copy

Verwendung eines bereitgestellten Durchsatzes

Eine Rolle mit der Berechtigung USE oder OWNERSHIP für einen bereitgestellten Durchsatz kann den bereitgestellten Durchsatz für Inferenz verwenden. Informationen zu den Berechtigungen, die für die Verwendung eines bereitgestellten Durchsatzes erforderlich sind, finden Sie unter Berechtigungen für bereitgestellten Durchsatz.

Mindestanforderungen für bereitgestellte Durchsatzeinheiten

Der bereitgestellte Durchsatz unterliegt den Mindestanforderungen und den inkrementellen Anforderungen an PTU. Jedes Modell oder Feature in der Spalte Minimum PTUs gibt die Mindestanzahl von PTUs an, die Sie anfordern müssen. Wenn Sie weniger PTUs als die Mindestanzahl anfordern, wird Ihre Anfrage abgelehnt.

Wenn Sie mehr Durchsatz benötigen als das Mindestangebot an PTUs für das Modell, benötigen Sie zusätzliche PTUs. Die Spalte Inkrement PTUs zeigt die PTU-Inkremente, die über das Minimum an PTUs hinausgehen und die Sie anfordern können. Anfragen müssen PTUs so angeben, dass der Betrag, der das Minimum übersteigt, ein ganzzahliges Vielfaches der Schrittweite ist; andernfalls wird die Anfrage abgelehnt.

In der nachstehenden Tabelle finden Sie die verfügbaren Modelle, die für jedes Modell erforderliche Mindestanzahl von PTUs und die Anforderungen für zusätzliche PTUs über die Mindestanzahl hinaus.

Bereitgestellter Durchsatz - Vollständig REST API

Modell

Minimum an PTUs

PTUs erhöhen

Mistral Large 2

256

128

Llama 3.1-405B

512

256

Llama 3.1-70B

128

64

Llama 3.1-8B

64

32

Snowflake-Llama3.3-70B

128

64

Snowflake-Llama3.3-405B

512

256

Bestimmen Sie die PTU-Größe

Die für Ihre Anwendung erforderliche PTUs hängt von dem Workload-Profil ab. Zum Beispiel hat auf Llama 3.1-8B eine Workload mit 500 Anfragen pro Minute (RPM) und 500 Token pro Anfrage ein Minimum von 64 PTUs. Es liefert einen Durchsatz von 960K Token pro Minute. Wenn Sie mehr Durchsatz benötigen, können Sie zusätzliche PTUs in 32er-Schritten anfordern.

Wenn Sie anfangen, können Sie das Minimum an PTUs für das Modell verwenden und nach Bedarf weitere Schritte hinzufügen.

Hinweise zu Kosten

Für die Dauer der Laufzeit Ihres bereitgestellten Durchsatzes verbrauchen Sie Credits pro PTU pro Stunde mit der Rate, die in der Snowflake Credit Consumption Table aufgeführt ist. Die Gebühren für die zugewiesene PTUs fallen unabhängig von Ihrer tatsächlichen Nutzung während der Laufzeit an. Der Zeitraum beginnt und endet um 8:00 Uhr morgens. PT für die Daten, die bei der Erstellung des bereitgestellten Durchsatzes angegeben wurden.

Der bereitgestellte Durchsatz wird nicht automatisch verlängert. Um den Durchsatz für einen anderen Zeitraum zu reservieren, lesen Sie den folgenden Abschnitt.

Durchsatz reservieren

Dieses Tutorial führt Sie durch den Prozess der Reservierung und Verwendung von bereitgestelltem Durchsatz in einem REST API-Aufruf für die Funktion Cortex COMPLETE.

Schritt 1: Erstellen eines bereitgestellten Durchsatzes ID

Um mit dem bereitgestellten Durchsatz zu beginnen, verwenden Sie SQL, um eine Anfrage mit den folgenden Informationen zu erstellen:

  • Der Anbieter der Cloud

  • Das Modell

  • Die Anzahl der PTUs

  • Der Beginn der Zeitraums (Zeitraum der Verfügbarkeit des bereitgestellten Durchsatzes)

  • Das Ende des Zeitraums (Zeitraum der Verfügbarkeit des bereitgestellten Durchsatzes)

Die folgenden Beispiele erstellen die bereitgestellte Durchsatzressource my_pt auf AWS, wobei das Modell llama3.1-8B angegeben wird und 64 bereitgestellte Durchsatzeinheiten (PTUs) vom 15. April 2025 bis zum 15. Mai 2025 zugewiesen werden.

CREATE PROVISIONED THROUGHPUT my_pt CLOUD_PROVIDER='aws', MODEL='llama3.1-8B', PTUS=64, TERM_START='2025-04-15' TERM_END='2025-05-15'
Copy

Der bereitgestellte Durchsatz ID (PT ID) ist in der Antwort enthalten.

Schritt 2: Öffnen Sie einen Support-Fall, um den bereitgestellten Durchsatz zuzuweisen

Nachdem Sie eine ID erstellt haben, erstellen Sie ein Support-Ticket beim Snowflake Support, um bereitgestellten Durchsatz zu aktivieren. Geben Sie in dem Ticket Ihre Kontobezeichner und die PT ID an. Wir empfehlen, das Ticket sieben Werktage vor Beginn des Zeitraums zu erstellen, um sicherzustellen, dass der Durchsatz bei Bedarf reserviert wird.

Schritt 3: Prüfen Sie den Status des bereitgestellten Durchsatzes

Nachdem Sie das Support-Ticket erstellt haben, können Sie den Status des bereitgestellten Durchsatzes mit dem folgenden Befehl überprüfen.

DESCRIBE PROVISIONED THROUGHPUT my_pt
Copy

Dieser Befehl gibt einen der folgenden Zustände zurück:

  • REQUESTED: PT-Anfrage erhalten, aber noch keine Kapazität zugewiesen.

  • APPROVED: PT ist aktiviert und wird am angegebenen Startdatum ACTIVE sein.

  • ACTIVE: PT ist jetzt zur Nutzung verfügbar.

  • EXPIRED: PT ist nicht mehr verfügbar oder wurde vor Beginn des Zeitraums nicht aktiviert.

Schritt 4: Verwenden Sie die bereitgestellten Durchsatz-ID in Ihren REST API-Aufrufen

Nachdem sich PT im Zustand ACTIVE befindet, können Sie es in Ihren AI_COMPLETE REST API-Aufrufen verwenden. Um den bereitgestellten Durchsatz in der Inferenzanforderung zu verwenden, geben Sie die PT ID in der Aufruf-API an. Die Verwendung des bereitgestellten Durchsatzes in der Anfrage ändert die Verhaltensweise von API nicht.

Das folgende Beispiel zeigt, wie Sie die PT ID in einem Aufruf von COMPLETE REST API verwenden:

curl --location 'https://some-account-identifier.snowflakecomputing.com/api/v2/cortex/inference:complete' \
--header 'X-Snowflake-Authorization-Token-Type: KEYPAIR_JWT' \
--header 'Content-Type: application/json' \
--header 'Accept: application/json' \
--header 'Authorization: ••••••' \
--data '{
  "model": "snowflake-llama-3.1-8b",
  "messages": [
  {
      "content": "Write an essay on the benefits of provisioned throughput."
  }
  ],
  "provisioned_throughput_id": "f3a27d60-f61f-4247-8aa3-6272ea0d7a8d"
}'
Copy

Bemerkung

Die Rolle, mit der Sie den REST API-Aufruf tätigen, muss die Berechtigung USE für die bereitgestellte Durchsatz-ID haben. Weitere Informationen zu den erforderlichen Berechtigungen finden Sie unter Berechtigungen für bereitgestellten Durchsatz.

Beendigung

Der bereitgestellte Durchsatz beendet die Bearbeitung von Inferenzanfragen, nachdem der Zeitraum abgelaufen ist. Wenn Sie den bereitgestellten Durchsatz für API-Anfragen nach Ablauf des Zeitraums verwenden, müssen Sie eine neue bereitgestellte Durchsatz-ID erstellen und in Ihren Anfragen verwenden.