Snowflake ML Jobs¶

Verwenden Sie Snowflake ML Jobs, um Workflows des maschinellen Lernens (ML) innerhalb von Snowflake ML Container-Laufzeiten auszuführen. Sie können sie von jeder Entwicklungsumgebung aus ausführen. Sie müssen den Code nicht in einem Snowflake-Arbeitsblatt oder -Notizbuch ausführen. Verwenden Sie Jobs, um die Infrastruktur von Snowflake für ressourcenintensive Aufgaben innerhalb Ihres Entwicklungsworkflows zu nutzen. Informationen zur lokalen Einrichtung von Snowflake ML finden Sie unter Lokale Verwendung von Snowflake ML.

Wichtig

Snowflake ML-Jobs sind in snowflake-ml-python Version 1.26.0 und höher verfügbar.

Mit Snowflake ML Jobs können Sie Folgendes tun:

Führen Sie ML-Workloads auf Snowflake Computepools aus, einschließlich GPU- und CPU-Instanzen mit hohem Speicherbedarf.
Verwenden Sie Ihre bevorzugte Entwicklungsumgebung wie VS Code oder Jupyter Notebooks.
Installieren und verwenden Sie benutzerdefinierte Python-Pakete in Ihrer Laufzeitumgebung.
Nutzen Sie Snowflakes verteilte APIs, um das Laden von Daten, das Training und die Abstimmung der Hyperparameter zu optimieren.
Integrieren Sie mit Orchestrierungstools wie Apache Airflow.
Überwachen und verwalten Sie Aufträge mit Hilfeder Snowflake-APIs.

Mit diesen Funktionen können Sie Folgendes tun:

Führen Sie ressourcenintensives Training auf großen Datensätzen durch, die GPU-Beschleunigung oder erhebliche Rechenressourcen erfordern.
Bringen Sie ML-Workflows in Produktion, indem Sie ML-Code von der Entwicklung zur Produktion mit programmatischer Ausführung durch Pipelines verschieben.
Behalten Sie Ihre bestehende Entwicklungsumgebung bei und nutzen Sie gleichzeitig die Rechenressourcen von Snowflake.
Heben und verschieben Sie OSS ML-Workflows mit minimalen Codeänderungen.
Arbeiten Sie direkt mit großen Snowflake-Datensätzen, um Datenbewegungen zu reduzieren und teure Datenübertragungen zu vermeiden.

Voraussetzungen¶

Installieren des Snowflake-Python-ML-Pakets.
```
pip install snowflake-ml-python>=1.26.0
```
Die Standardgröße des Computepools verwendet die Instanzfamilie CPU_X64_S. Die minimale Anzahl von Knoten ist 1 und die maximale ist 25. Sie können den folgenden SQL-Befehl verwenden, um einen benutzerdefinierten Computepool zu erstellen:
```
CREATE COMPUTE POOL IF NOT EXISTS MY_COMPUTE_POOL
  MIN_NODES = <MIN_NODES>
  MAX_NODES = <MAX_NODES>
  INSTANCE_FAMILY = <INSTANCE_FAMILY>;
```

Snowflake ML Jobs erfordern eine Snowpark-Sitzung. Verwenden Sie den folgenden Code, um sie zu erstellen:

from snowflake.snowpark import Session
from snowflake.ml.jobs import list_jobs

ls = list_jobs() # This will fail! You must create a session first.

# Requires valid ~/.snowflake/config.toml file
session = Session.builder.getOrCreate()

ls = list_jobs(session=session)
ls = list_jobs() # Infers created session from context

Informationen zum Erstellen einer Sitzung finden Sie unter Erstellen einer Sitzung.

Führen Sie einen Snowflake ML Job aus¶

Sie können einen Snowflake ML Job auf eine der folgenden Arten ausführen:

Verwenden eines Funktions-Decorators in Ihrem Code
Übermittlung ganzer Dateien oder Verzeichnisse mit Python-API.

Python-Funktion als Snowflake ML-Job ausführen¶

Verwenden Sie Function Dispatch, um einzelne Python-Funktionen mit dem Decorator @remote auf den Rechenressourcen von Snowflake auszuführen.

Mithilfe von @remote können Sie Folgendes tun:

Serialisieren Sie die Funktion und ihre Abhängigkeiten.
Laden Sie sie in einen bestimmten Snowflake Stagingbereich hoch.
Führen Sie sie innerhalb einer bestimmten Container-Laufzeit aus.

Der folgende beispielhafte Python-Code verwendet den Decorator @remote, um einen Funktionsaufruf als Snowflake-ML-Job zu übermitteln:

from snowflake.ml.jobs import remote

@remote("MY_COMPUTE_POOL", stage_name="payload_stage", session=session)
def train_model(data_table: str):
  # Provide your ML code here, including imports and function calls
  ...

job = train_model("my_training_data")

Bemerkung

Für das Übermitteln eines Jobs ist eine vorhandene Snowpark-Session erforderlich; siehe:ref:label-snowflake_ml_jobs_prerequisites für Details.

Der Aufruf einer dekorierten @remote-Funktion gibt ein Snowflake MLJob-Objekt zurück, das zur Verwaltung und Überwachung der Jobausführung verwendet werden kann. Weitere Informationen dazu finden Sie unter Ray Dashboard in ML Jobs.

Eine Python-Datei als Snowflake ML Job ausführen¶

Führen Sie Python-Dateien oder Projektverzeichnisse auf Snowflake-Rechenressourcen aus. Dies ist nützlich, wenn:

Sie komplexe ML-Projekte mit mehreren Modulen und Abhängigkeiten haben.
Sie die Trennung zwischen lokaler Entwicklung und Produktionscode aufrechterhalten wollen.
Sie Skripte ausführen müssen, die Befehlszeilenargumente verwenden.
Sie mit bestehenden ML-Projekten arbeiten, die nicht speziell für die Ausführung auf Snowflake Compute entwickelt wurden.

Die Snowflake Job-API bietet drei Hauptmethoden für die Übermittlung von dateibasierten Nutzlasten:

:meth:submit_file()`submit_file: Für die Ausführung einzelner Python-Dateien
submit_directory(): Für die Ausführung von Python-Projekten, die mehrere Dateien und Ressourcen umfassen
:meth:submit_from_stage()`submit_from_stage: Für die Ausführung von Python-Projekten, die in einem Snowflake-Stagingbereich gespeichert sind

Beide Methoden unterstützen Folgendes:

Übergabe von Argumenten in der Befehlszeile
Konfiguration der Umgebungsvariablen
Benutzerdefinierte Abhängigkeitsangaben
Verwaltung der Projektressourcen über die Snowflake-Stagingbereiche

File Dispatch ist besonders nützlich, um bestehende ML-Workflows zu produzieren und eine klare Trennung zwischen Entwicklungs- und Ausführungsumgebung aufrechtzuerhalten.

Der folgende Python-Code übermittelt eine Datei als Snowflake ML-Job:

from snowflake.ml.jobs import submit_file

# Run a single file
job1 = submit_file(
  "train.py",
  "MY_COMPUTE_POOL",
  stage_name="payload_stage",
  args=["--data-table", "my_training_data"],
  session=session,
)

Der folgende Python-Code übermittelt ein Verzeichnis als Snowflake ML-Job:

from snowflake.ml.jobs import submit_directory

# Run from a directory
job2 = submit_directory(
  "./ml_project/",
  "MY_COMPUTE_POOL",
  entrypoint="train.py",
  stage_name="payload_stage",
  session=session,
)

Der folgende Python-Code übermittelt ein Verzeichnis aus einem Snowflake-Stagingbereich als Snowflake ML-Job:

from snowflake.ml.jobs import submit_from_stage

# Run from a directory
job3 = submit_from_stage(
  "@source_stage/ml_project/"
  "MY_COMPUTE_POOL",
  entrypoint="@source_stage/ml_project/train.py",
  stage_name="payload_stage",
  session=session,
)

# Entrypoint may also be a relative path
job4 = submit_from_stage(
  "@source_stage/ml_project/",
  "MY_COMPUTE_POOL",
  entrypoint="train.py",  # Resolves to @source_stage/ml_project/train.py
  stage_name="payload_stage",
  session=session,
)

Die Übermittlung einer Datei oder eines Verzeichnisses gibt ein Snowflake MLJob-Objekt zurück, das zur Verwaltung und Überwachung der Jobausführung verwendet werden kann. Weitere Informationen dazu finden Sie unter Ray Dashboard in ML Jobs.

Ausführen eines Snowflake-ML-Jobs für eine bestimmte Container-Laufzeit¶

Der Decorator @remote sowie die Funktionen functions submit_directory(), submit_from_stage() und submit_file() unterstützen alle das Schlüsselwort runtime_environment. Wenn Sie dieses Schlüsselwort nicht in Ihrem Decorator-Element oder Funktionsaufruf angeben, verwendet Snowflake automatisch die neueste verfügbare Version von Snowflake Container Runtime in Ihrem Computepool.

Um eine Container-Laufzeit für Ihren ML-Job anzugeben, verwenden Sie das Schlüsselwort runtime_environment mit einem Zeichenfolgenwert der zu verwendenden Container Runtime-Version. Die vollständige Liste der verfügbaren Versionen und die standardmäßig in diesen Umgebungen enthaltenen Informationen finden Sie unter :doc:` Container Runtime-Releases </developer-guide/snowflake-ml/container-runtime/releases>`.

Das folgende Beispiel zeigt, wie Sie eine Funktion mit dem Decorator @remote an Snowflake Container Runtime Version 2.3 anheften:

from snowflake.ml.jobs import remote

@remote("MY_COMPUTE_POOL", stage_name="payload_stage", session=session, runtime_environment="2.3")
def train_model(data_table: str):
  # Provide your ML code here, including imports and function calls
  ...

Unterstützung zusätzlicher Nutzlasten in Übermittlungen¶

Beim Übermitteln einer Datei, eines Verzeichnisses oder aus einem Stagingbereich werden zusätzliche Nutzdaten für die Verwendung während der Jobausführung unterstützt. Der Importpfad kann explizit angegeben werden. Andernfalls wird er vom Speicherort der zusätzlichen Nutzlast abgeleitet.

Wichtig

Sie können nur einzelne Python-Dateien aus einem Stagingbereich laden.

# Run from a file
 job1 = submit_file(
   "train.py",
   "MY_COMPUTE_POOL",
   stage_name="payload_stage",
   session=session,
   imports=[
     ("src/utils/", "utils"), # the import path is utils
   ],
 )

 # Run from a directory
 job2 = submit_directory(
   "./ml_project/",
   "MY_COMPUTE_POOL",
   entrypoint="train.py",
   stage_name="payload_stage",
   session=session,
   imports=[
     ("src/utils/"), # the import path is utils
   ],
 )

 # Run from a stage
 job3 = submit_from_stage(
   "@source_stage/ml_project/",
   "MY_COMPUTE_POOL",
   entrypoint="@source_stage/ml_project/train.py",
   stage_name="payload_stage",
   session=session,
   imports=[
     ("@source_stage/src/utils/sub_utils/", "utils.sub_utils"),
   ],
 )

Zugriff auf Snowpark-Sitzung über ML-Jobs¶

Beim Ausführen von ML-Jobs in Snowflake ist eine Snowpark-Sitzung im Ausführungskontext automatisch verfügbar. Sie können über die folgenden Ansätze auf das Sitzungsobjekt aus Ihrer ML-Job-Nutzlast zugreifen:

from snowflake.ml.jobs import remote
from snowflake.snowpark import Session

@remote("MY_COMPUTE_POOL", stage_name="payload_stage")
def my_function():
  # This approach works for all payload types, including file and directory payloads
  session = Session.builder.getOrCreate()
  print(session.sql("SELECT CURRENT_VERSION()").collect())

@remote("MY_COMPUTE_POOL", stage_name="payload_stage")
def my_function_with_injected_session(session: Session):
  # This approach works only for function dispatch payloads
  # The session is injected automatically by the Snowflake ML Job API
  print(session.sql("SELECT CURRENT_VERSION()").collect())

Die Snowpark-Sitzung kann für den Zugriff auf Snowflake-Tabellen, -Stagingbereiche und andere Datenbankobjekte innerhalb Ihres ML-Jobs verwendet werden.

Rückgabe von Ergebnissen aus ML-Jobs¶

Snowflake ML-Jobs unterstützen die Rückgabe von Ausführungsergebnissen an die Clientumgebung. So können Sie berechnete Werte, trainierte Modelle oder andere Artefakte abrufen, die durch Ihre Job-Nutzlasten erzeugt werden.

Für das Dispatching von Funktionen geben Sie einfach einen Wert aus Ihrer dekorierten Funktion zurück. Der zurückgegebene Wert wird serialisiert und über die result()-Methode zur Verfügung gestellt.

from snowflake.ml.jobs import remote

@remote("MY_COMPUTE_POOL", stage_name="payload_stage")
def train_model(data_table: str):
  # Your ML code here
  model = XGBClassifier()
  model.fit(data_table)
  return model

job1 = train_model("my_training_data")

Für dateibasierte Jobs verwenden Sie die spezielle __return__-Variable zur Angabe des Rückgabewerts.

# Example: /path/to/repo/my_script.py
def main():
    # Your ML code here
    model = XGBClassifier()
    model.fit(data_table)
    return model

if __name__ == "__main__":
    __return__ = main()

from snowflake.ml.jobs import submit_file

job2 = submit_file(
    "/path/to/repo/my_script.py",
    "MY_COMPUTE_POOL",
    stage_name="payload_stage",
    session=session,
)

Sie können das Ergebnis der Jobausführung über die MLJob.result()-API abrufen. Die API blockiert den aufrufenden Thread, bis der Job einen Endzustand erreicht hat, und gibt dann den Rückgabewert der Nutzlast zurück oder löst bei fehlgeschlagener Ausführung eine Ausnahme aus. Wenn die Nutzlast keinen Rückgabewert definiert, ist das Ergebnis None bei Erfolg.

# These will block until the respective job is done and return the trained model
model1 = job1.result()
model2 = job2.result()

ML-Jobdefinitionen¶

Eine ML-Jobdefinition erfasst die wiederverwendbaren Komponenten einesML-Jobs – Speicherort der Nutzlast, Computepool und zugehörige Konfiguration. So können Sie mehrere Jobs aus derselben Nutzlast mit unterschiedlichen Argumenten übermitteln, ohne die Nutzlast erneut hochladen zu müssen.

Bemerkung

ML-Jobdefinitionen sind in snowflake-ml-python Version 1.26 und höher verfügbar.

Um eine ML-Jobdefinition zu erstellen, verwenden Sie die MLJobDefinition-Klasse. Die API spiegel die Joberstellungs-APIs genau wider. Alle optionalen Parameter, die für die Joberstellung unterstützt werden, werden auch beim Erstellen von Jobdefinitionen unterstützt.

Verwenden Sie Function Dispatch, um einzelne Python-Funktionen bei dem ` @ Remote`-Decorator zu registrieren

from snowflake.ml.jobs import remote

compute_pool = "MY_COMPUTE_POOL"
@remote(compute_pool, stage_name="payload_stage")
def hello_world(name: str = "world"):
    from datetime import datetime

    print(f"{datetime.now()} Hello {name}!")

# this is a definition handle
definition = hello_world

job1 = hello_world()

Verwenden Sie register(), um Jobdefinitionen aus einer lokalen Datei, einem lokalen Verzeichnis oder einem Stagingbereichsverzeichnis zu erstellen.

from snowflake.ml.jobs import MLJobDefinition

# create a job definition from a stage directory
job_definition1 = MLJobDefinition.register(
    entrypoint ='@tmp_stage/my_project/xgb.py',
    source = '@tmp_stage/my_project',
    stage_name = "payload_stage",
    compute_pool = compute_pool
)

# create a job definition from local file
job_definition2 = MLJobDefinition.register(
    source ='/path/to/script.py',
    stage_name = "payload_stage",
    compute_pool = compute_pool
)

# create a job definition from the directory
job_definition3 = MLJobDefinition.register(
    entrypoint ='/path/to/directory/script.py',
    source = '/path/to/directory',
    stage_name = "payload_stage",
    compute_pool = compute_pool
)

Erstellen Sie einen Job aus einer Jobdefinition, wobei die Übergabe verschiedener Parameter unterstützt wird, um unterschiedliche Jobs zu generieren.

from snowflake.ml.jobs import remote

# create a job definition using the remote decorator
compute_pool = "MY_COMPUTE_POOL"
@remote(compute_pool, stage_name="payload_stage")
def hello_world(name: str = "world"):
    from datetime import datetime

    print(f"{datetime.now()} Hello {name}!")

definition = hello_world

job1 = definition()

job2 = definition(name="ML Job Definition") # pass in the different parameter

Die Funktion register verwendet runtime_environment als optionales Schlüsselwortargument zur Auswahl des Container-Image, das auf dem von Ihnen ausgewählten Computepool ausgeführt wird. Standardmäßig verwendet Ihre Jobdefinition die neueste verfügbare Version von Snowflake Container Runtime.

Unterstützung der Integration mit Aufgaben. Jobs, die von einer Aufgabe aus ausgeführt werden, laufen nicht innerhalb einer gespeicherten Prozedur ab. Unter MLBeispiele für die Integration von Jobs und Aufgaben finden Sie Beispiele für die Verwendung von Snowflake ML Jobdefinitionen in Aufgaben.

from snowflake.ml.jobs import remote

compute_pool = "MY_COMPUTE_POOL"
@remote(COMPUTE_POOL, stage_name="payload_stage")
def train_model(input_data: DataSource) -> Optional[str]:
    ...

train_model_task = DAGTask("TRAIN_MODEL", definition=train_model) # train_model is a job definition created by the @remote decorator

Ray Dashboard in ML Jobs¶

ML Job unterstützt jetzt das Ray-Dashboard für die laufenden Jobs in snowflake-ml-Python Version 1.30 und höher.

Bemerkung

Das Ray Dashboard wird von der CPU_X64_XS Computepool-Instanzfamilie. nicht unterstützt Das Dashboard ist nur verfügbar, während der Job ausgeführt wird.

from snowflake.ml.jobs import remote

@remote("MY_COMPUTE_POOL", stage_name="payload_stage", session=session)
def train_model(data_table: str):
  # Provide your ML code here, including imports and function calls
  ...

job = train_model("my_training_data")
ray_dashboard_url = job.get_ray_dashboard_url() # copy and paste this url in browser to log in then to see the ray dashboard

Verwalten von ML-Jobs¶

Wenn Sie einen Snowflake-ML-Job übermitteln, erstellt die API eine MLJob-Instanz. Damit können Sie Folgendes tun:

Verfolgen des Job-Fortschritts durch Statusaktualisierungen
Probleme anhand detaillierter Ausführungsprotokolle beheben
Abrufen des Ausführungsergebnisses (falls vorhanden)

Mit der get_job() API können Sie ein MLJob-Objekt anhand seiner ID abrufen. Der folgende Python-Code zeigt, wie ein MLJob-Objekt abgerufen werden kann:

from snowflake.ml.jobs import MLJob, get_job, list_jobs, delete_job

# Get a list of the 10 most recent jobs as a Pandas DataFrame
jobs_df = list_jobs(limit=10)
print(jobs_df)  # Display list in table format

# Retrieve an existing job based on ID
job = get_job("<job_id>")  # job is an MLJob instance

# Retrieve status and logs for the retrieved job
print(job.status)  # PENDING, RUNNING, FAILED, DONE
print(job.get_logs())

# Clean up the job
delete_job(job)

Abhängigkeiten verwalten¶

Die API für den Snowflake-ML-Job führt Nutzlasten innerhalb der Snowflake Container-Laufzeitumgebung-Umgebung aus. Die Umgebung enthält die am häufigsten verwendeten Python-Pakete für maschinelles Lernen und Data Science. Die meisten Anwendungsfälle sollten ohne zusätzliche Konfiguration sofort funktionieren. Wenn Sie kundenspezifische Abhängigkeiten benötigen, können Sie pip_requirements verwenden, um sie zu installieren.

Um benutzerdefinierte Abhängigkeiten zu installieren, müssen Sie den externen Netzwerkzugriff mithilfe einer externen Zugriffsintegration aktivieren. Sie können den folgenden SQL-Beispielbefehl verwenden, um den Zugriff zu ermöglichen:

CREATE OR REPLACE EXTERNAL ACCESS INTEGRATION PYPI_EAI
  ALLOWED_NETWORK_RULES = (snowflake.external_access.pypi_rule)
  ENABLED = true;

Weitere Informationen zu Integrationen für den externen Zugriff finden Sie unter Erstellen und Verwenden einer Integration für den externen Zugriff.

Nachdem Sie den externen Netzwerkzugang bereitgestellt haben, können Sie die Parameter pip_requirements und external_access_integrations verwenden, um benutzerdefinierte Abhängigkeiten zu konfigurieren. Sie können Pakete verwenden, die in der Container Runtime-Umgebung nicht verfügbar sind oder wenn Sie bestimmte Versionen der Pakete verwenden.

Der folgende Python-Code zeigt, wie Sie benutzerdefinierte Abhängigkeiten für den remote-Decorator angeben können:

@remote(
  "MY_COMPUTE_POOL",
  stage_name="payload_stage",
  pip_requirements=["custom-package"],
  external_access_integrations=["PYPI_EAI"],
  session=session,
)
def my_function():
  # Your code here

Der folgende Python-Code zeigt, wie Sie benutzerdefinierte Abhängigkeiten für die Methode submit_file() angeben können:

from snowflake.ml.jobs import submit_file

# Can include version specifier to specify version(s)
job = submit_file(
  "/path/to/repo/my_script.py",
  compute_pool,
  stage_name="payload_stage",
  pip_requirements=["custom-package==1.0.*"],
  external_access_integrations=["pypi_eai"],
  session=session,
)

Private Paketzuführungen¶

Snowflake ML Jobs unterstützt auch das Laden von Paketen aus privaten Feeds wie JFrog Artifactory und Sonatype Nexus Repository. Diese Feeds werden häufig verwendet, um interne und proprietäre Pakete zu verteilen, die Kontrolle über die Versionen von Abhängigkeiten zu behalten und Sicherheit und Compliance zu gewährleisten.

Um Pakete aus einem privaten Feed zu installieren, müssen Sie Folgendes tun:

Erstellen Sie eine Netzwerkregel, um den Zugriff auf die URL des privaten Feeds zu erlauben.
1. Für Quellen, die eine einfache Authentifizierung verwenden, können Sie einfach eine Netzwerkregel erstellen.
  CREATE OR REPLACE NETWORK RULE private_feed_nr MODE = EGRESS TYPE = HOST_PORT VALUE_LIST = ('<your-repo>.jfrog.io');
2. Um den Zugriff auf eine Quelle über private Konnektivität (d. h. Private Link) zu konfigurieren, folgen Sie den Schritten unter Netzwerkausgang über private Konnektivität.

Erstellen Sie eine externe Zugriffsintegration mit der Netzwerkregel. Erteilen Sie der Rolle, die Aufträge einreichen wird, die Erlaubnis zur Verwendung von EAI.

CREATE OR REPLACE EXTERNAL ACCESS INTEGRATION private_feed_eai
ALLOWED_NETWORK_RULES = (PRIVATE_FEED_NR)
ENABLED = true;

GRANT USAGE ON INTEGRATION private_feed_eai TO ROLE <role_name>;

Geben Sie die URL des privaten Feeds, die externe Zugriffsintegration und das/die Paket(e) an, wenn Sie den Job übermitteln.

# Option 1: Specify private feed URL in pip_requirements
job = submit_file(
  "/path/to/script.py",
  compute_pool="MY_COMPUTE_POOL",
  stage_name="payload_stage",
  pip_requirements=[
    "--index-url=https://your.private.feed.url",
    "internal-package==1.2.3"
  ],
  external_access_integrations=["PRIVATE_FEED_EAI"]
)

# Option 2: Specify private feed URL by environment variable
job = submit_directory(
  "/path/to/code/",
  compute_pool="MY_COMPUTE_POOL",
  entrypoint="script.py",
  stage_name="payload_stage",
  pip_requirements=["internal-package==1.2.3"],
  external_access_integrations=["PRIVATE_FEED_EAI"],
  env_vars={'PIP_INDEX_URL': 'https://your.private.feed.url'},
)

Wenn Ihre private Feed-URL sensible Informationen wie Authentifizierungstoken enthält, verwalten Sie die URL durch Erstellen eines Snowflake-Geheimnisses. Erstellen Sie ein Geheimnis mithilfe von CREATE SECRET. Konfigurieren Sie Geheimnisse während der Übermittlung des Jobs mit dem spec_overrides-Argument.

Bemerkung

Bei Verwendung von spec_overrides, unterstützt und validiert Snowflake Geheimnisse nur im secrets-Feld innerhalb von Container-Definitionen. Snowflake unterstützt oder validiert keine anderen Felder, wie z. B. args, volumes und endpoints.

# Create secret for private feed URL with embedded auth token
feed_url = "<your-repo>.jfrog.io/artifactory/api/pypi/test-pypi/simple"
user = "<auth_user>"
token = "<auth_token>"
session.sql(f"""
CREATE SECRET IF NOT EXISTS PRIVATE_FEED_URL_SECRET
 TYPE = GENERIC_STRING
 SECRET_STRING = 'https://{auth_user}:{auth_token}@{feed_url}'
""").collect()

# Prepare service spec override for mounting secret into job execution
spec_overrides = {
 "spec": {
  "containers": [
    {
     "name": "main",  # Primary container name is always "main"
     "secrets": [
      {
        "snowflakeSecret": "PRIVATE_FEED_URL_SECRET",
        "envVarName": "PIP_INDEX_URL",
        "secretKeyRef": "secret_string"
      },
     ],
    }
  ]
 }
}

# Load private feed URL from secret (e.g. if URL includes auth token)
job = submit_file(
  "/path/to/script.py",
  compute_pool="MY_COMPUTE_POOL",
  stage_name="payload_stage",
  pip_requirements=[
    "internal-package==1.2.3"
  ],
  external_access_integrations=["PRIVATE_FEED_EAI"],
  spec_overrides=spec_overrides,
)

Weitere Informationen über container.secrets finden Sie unter Feld containers.secrets.

Beispiele¶

Siehe Codebeispiele für ML-Jobs; dort finden Sie Beispiele für die Verwendung von Snowflake ML-Jobs.

Hinweise zu Kosten¶

Snowflake ML Jobs laufen auf Snowpark Container Services und werden nach Verbrauch abgerechnet. Informationen zu den Rechenkosten finden Sie unter Kosten von Snowpark Container Services.

Die Nutzdaten des Jobs werden in den Stagingbereich hochgeladen, der mit dem Argument stage_name angegeben wurde. Um zusätzliche Kosten zu vermeiden, müssen Sie diese bereinigen. Weitere Informationen finden Sie unter Erläuterungen zu den Speicherkosten und Untersuchen der Speicherkosten, um mehr über die mit dem Stagingbereich verbundenen Kosten zu erfahren.