Fluxos de trabalho de exemplo¶
Esta página apresenta fluxos de trabalho de exemplo para implantar modelos de machine learning para inferência em tempo real usando o Snowpark Container Services (SPCS). Cada exemplo demonstra o ciclo de vida completo, desde o registro do modelo até a implantação e a inferência.
Isso inclui:
Como criar serviços, fazer previsões e acessar modelos por pontos de extremidade HTTP.
Como usar diferentes arquiteturas de modelo (XGBoost, transformadores Hugging Face, PyTorch) e opções de computação (CPU e GPU).
Como implementar um modelo XGBoost para inferência com base em CPU¶
O seguinte código:
implementa um modelo XGBoost para inferência no SPCS;
usa o modelo implementado para inferência.
Chamando por HTTP (aplicativo externo)¶
Como este modelo tem a entrada habilitada (ingress_enabled=True), é possível chamar o ponto de extremidade HTTP público dele. O exemplo a seguir usa um PAT armazenado na variável de ambiente PAT_TOKEN para autenticação com um ponto de extremidade público do Snowflake:
Como implementar um transformador de frases Hugging Face para inferência com base em GPU¶
O código a seguir treina e implementa um transformador de frase Hugging Face, incluindo um ponto de extremidade HTTP.
Este exemplo requer o pacote sentence-transformers, um pool de computação GPU e um repositório de imagens.
Em SQL, você pode chamar a função de serviço da seguinte forma:
Você também pode chamar seu ponto de extremidade HTTP da seguinte forma.
Como implementar um modelo PyTorch para inferência com base em GPU¶
Para ver um exemplo de treinamento e implantação de um modelo de recomendação de aprendizado profundo (Deep Learning Recommendation Model, DLRM) PyTorch no SPCS para inferência com GPU, consulte este guia de início rápido
Implantar um modelo de modelagem de ML¶
Os modelos desenvolvidos usando as classes de modelagem de ML do Snowpark não podem ser implantados em ambientes com GPU. Como solução alternativa, você pode extrair o modelo nativo e implementá-lo. Por exemplo: