Traga seus próprios tipos de modelos por meio de arquivos serializados¶

O registro de modelos oferece suporte ao registro em log de tipos de modelos incorporados diretamente no registro. Também fornecemos um método de registro em log de outros tipos de modelos com snowflake.ml.model.custom_model.CustomModel. Modelos serializáveis treinados usando ferramentas externas ou obtidos de repositórios de código aberto podem ser usados com CustomModel.

Este guia explica como:

Criar um modelo personalizado.
Criar contexto de modelo com arquivos e objetos de modelo.
Incluir um código adicional em seu modelo usando code_paths.
Registrar em log o modelo personalizado no Snowflake Model Registry.
Implementar o modelo para inferência.

Nota

Este guia de início rápido fornece um exemplo de registro de um modelo PyCaret personalizado.

Definição do contexto do modelo por argumentos de palavras-chave¶

O snowflake.ml.model.custom_model.ModelContext pode ser instanciado com argumentos de palavra-chave definidos pelo usuário. Os valores podem ser caminhos de arquivos de cadeia de caracteres ou instâncias de tipos de modelos suportados. Os arquivos e modelos serializados serão empacotados com o modelo para uso na lógica de inferência de modelos.

Usando objetos de modelo na memória¶

Ao trabalhar com tipos de modelos integrados, a abordagem recomendada é passar os objetos de modelo na memória diretamente para ModelContext. Isso permite que o Snowflake ML processe a serialização automaticamente.

import pandas as pd
from snowflake.ml.model import custom_model

# Initialize ModelContext with an in-memory model object
# my_model can be any supported model type (e.g., sklearn, xgboost, lightgbm, and others)
model_context = custom_model.ModelContext(
    my_model=my_model,
)

# Define a custom model class that utilizes the context
class ExampleBringYourOwnModel(custom_model.CustomModel):
    def __init__(self, context: custom_model.ModelContext) -> None:
        super().__init__(context)

    @custom_model.inference_api
    def predict(self, input: pd.DataFrame) -> pd.DataFrame:
        # Use the model with key 'my_model' from the context to make predictions
        model_output = self.context['my_model'].predict(input)
        return pd.DataFrame({'output': model_output})

# Instantiate the custom model with the model context. This instance can be logged in the model registry.
my_model = ExampleBringYourOwnModel(model_context)

Nota

Em sua classe de modelos personalizada, sempre acesse os objetos do modelo pelo contexto. Por exemplo, use self.model = self.context['my_model'] em vez de atribuir diretamente self.model = model (em que model é um objeto de modelo na memória). O acesso ao modelo captura diretamente uma segunda cópia do modelo em um fechamento, o que resulta em arquivos significativamente maiores durante a serialização.

Usando arquivos serializados¶

Para modelos ou dados armazenados em arquivos serializados, como pickles Python ou JSON, você pode fornecer caminhos de arquivo para ModelContext. Os arquivos podem ser modelos serializados, arquivos de configuração ou arquivos com parâmetros. Isso é útil para trabalhar com modelos pré-treinados salvos em disco ou dados de configuração.

import pickle
import pandas as pd
from snowflake.ml.model import custom_model

# Initialize ModelContext with a file path
# my_file_path is a local pickle file path
model_context = custom_model.ModelContext(
    my_file_path='/path/to/file.pkl',
)

# Define a custom model class that loads the pickled object
class ExampleBringYourOwnModel(custom_model.CustomModel):
    def __init__(self, context: custom_model.ModelContext) -> None:
        super().__init__(context)

        # Use 'my_file_path' key from the context to load the pickled object
        with open(self.context['my_file_path'], 'rb') as f:
            self.obj = pickle.load(f)

    @custom_model.inference_api
    def predict(self, input: pd.DataFrame) -> pd.DataFrame:
        # Use the loaded object to make predictions
        model_output = self.obj.predict(input)
        return pd.DataFrame({'output': model_output})

# Instantiate the custom model with the model context. This instance can be logged in the model registry.
my_model = ExampleBringYourOwnModel(model_context)

Importante

Quando você combina um tipo de modelo compatível (como XGBoost) com modelos ou dados incompatíveis, você não precisa serializar o modelo compatível. Defina o objeto de modelo compatível diretamente no contexto (por exemplo, base_model = my_xgb_model), e ele é serializado automaticamente.

Importante

Os métodos decorados com @custom_model.inference_api devem sempre ser escritos para funcionar em dataframes com várias linhas. Não presuma que a entrada DataFrame sempre conterá uma única linha. Devido ao processamento em lote no servidor, especificamente na inferência em tempo real, até mesmo solicitações de registro único de várias fontes podem ser agrupadas em um único DataFrame.

Definindo parâmetros de inferência¶

Os métodos de inferência de modelo personalizados podem aceitar parâmetros opcionais que controlam o comportamento da inferência, como uma configuração de temperatura ou o número máximo de tokens. Defina os parâmetros como argumentos somente palavra-chave (após *) no método @inference_api, com anotações de tipo e valores padrão.

import pandas as pd
from snowflake.ml.model import custom_model

class TextGenerationModel(custom_model.CustomModel):
    def __init__(self, context: custom_model.ModelContext) -> None:
        super().__init__(context)

    @custom_model.inference_api
    def predict(
        self,
        input: pd.DataFrame,
        *,
        temperature: float = 0.7,
        max_tokens: int = 256,
    ) -> pd.DataFrame:
        # Use temperature and max_tokens to control generation behavior
        output = self.context['my_model'].generate(
            input["input_text"],
            temperature=temperature,
            max_tokens=max_tokens,
        )
        return pd.DataFrame({"output_text": output})

Quando esse modelo é registrado, os parâmetros são automaticamente incluídos na assinatura do modelo. Os autores da chamada podem substituí-los no momento da inferência ou omiti-los para usar os padrões. Para obter mais informações, consulte Especificando assinaturas de modelo.

Os seguintes requisitos se aplicam aos parâmetros de inferência:

Eles devem ser somente palavra-chave (definidos após * na assinatura do método).
Eles devem ter uma anotação de tipo. Os tipos compatíveis são int, float, str, bool, bytes, datetime.datetime e list com o tipo de elemento permitido (por exemplo, list[str], list[list[int]]).
Eles devem ter um valor padrão.

Teste e registro de um modelo personalizado¶

Você pode testar um modelo personalizado executando-o localmente.

my_model = ExampleBringYourOwnModel(model_context)
output_df = my_model.predict(input_df)

Quando o modelo funcionar como pretendido, registre-o no Snowflake Model Registry. Conforme mostrado no próximo exemplo de código, forneça conda_dependencies (ou pip_requirements) para especificar as bibliotecas que a classe de modelo precisa. Forneça sample_input_data (um pandas ou Snowpark DataFrame) para inferir a assinatura de entrada do modelo. Como alternativa, forneça uma assinatura do modelo.

reg = Registry(session=sp_session, database_name="ML", schema_name="REGISTRY")
mv = reg.log_model(my_model,
            model_name="my_custom_model",
            version_name="v1",
            conda_dependencies=["scikit-learn"],
            comment="My Custom ML Model",
            sample_input_data=train_features)
output_df = mv.run(input_df)

Incluindo código adicional com code_paths¶

Use o parâmetro code_paths em Registry.log_model para empacotar o código Python, como módulos auxiliares, utilitários e arquivos de configuração, com seu modelo. Você pode importar esse código da mesma forma que faz localmente.

Você pode fornecer caminhos de cadeia de caracteres para copiar arquivos ou diretórios, ou objetos CodePath. Os objetos oferecem mais controle sobre quais subdiretórios ou arquivos são incluídos e os caminhos de importação que serão usados pelo modelo.

Usando caminhos de cadeia de caracteres¶

Passe uma lista de caminhos de cadeia de caracteres para incluir arquivos ou diretórios. O último componente de cada caminho se torna o nome do módulo importável.

mv = reg.log_model(
    my_model,
    model_name="my_model",
    version_name="v1",
    code_paths=["src/mymodule"],  # import with: import mymodule
)

Usando CodePath com filtro¶

Use a classe CodePath quando você deseja empacotar apenas parte de uma árvore de diretórios ou controlar os caminhos de importação usados pelo seu modelo.

from snowflake.ml.model import CodePath

Um CodePath tem dois parâmetros:

root: um caminho de diretório ou arquivo.
filter (opcional): um caminho relativo em root que seleciona um subdiretório ou arquivo.

Quando filter é fornecido, a fonte é root/filter, e o valor filter determina o caminho de importação. Por exemplo, filter="utils" permite import utils, e filter="pkg/subpkg" permite import pkg.subpkg.

Exemplo: considerando esta estrutura de projeto:

my_project/src/
├── utils/
│   └── preprocessing.py
├── models/
│   └── classifier.py
└── tests/          # Not needed for inference

Para empacotar apenas utils/ e models/, excluindo tests/:

mv = reg.log_model(
    my_model,
    model_name="my_model",
    version_name="v1",
    code_paths=[
        CodePath("my_project/src/", filter="utils/"),
        CodePath("my_project/src/", filter="models/"),
    ],
)

Você também pode filtrar um único arquivo:

code_paths=[
    CodePath("my_project/src/", filter="utils/preprocessing.py"),
]
# Import with: import utils.preprocessing

Exemplo: Registro de um modelo PyCaret¶

O exemplo a seguir usa PyCaret para registrar um tipo de modelo personalizado. PyCaret é um pacote de terceiros de baixo código e alta eficiência sem suporte nativo do Snowflake. Você pode trazer os próprios tipos de modelo que usam métodos semelhantes.

Etapa 1: Definir o contexto do modelo¶

Antes de registrar seu modelo, defina o contexto dele. O contexto do modelo refere-se ao seu próprio tipo de modelo personalizado. O exemplo a seguir especifica o caminho para o modelo serializado (selecionado) usando o atributo model_file do contexto. Você pode escolher qualquer nome para o atributo desde que o nome não seja usado para mais nada.

pycaret_model_context = custom_model.ModelContext(
  model_file = 'pycaret_best_model.pkl',
)

Etapa 2: Criar uma classe de modelo personalizada¶

Defina uma classe de modelo personalizada para registrar um tipo de modelo sem suporte nativo. Neste exemplo, uma classe PyCaretModel, derivada de CustomModel, é definida para que o modelo possa ser registrado no registro.

from pycaret.classification import load_model, predict_model

class PyCaretModel(custom_model.CustomModel):
    def __init__(self, context: custom_model.ModelContext) -> None:
        super().__init__(context)
        model_dir = self.context["model_file"][:-4]  # Remove '.pkl' suffix
        self.model = load_model(model_dir, verbose=False)
        self.model.memory = '/tmp/'  # Update memory directory

    @custom_model.inference_api
    def predict(self, X: pd.DataFrame) -> pd.DataFrame:
        model_output = predict_model(self.model, data=X)
        return pd.DataFrame({
            "prediction_label": model_output['prediction_label'],
            "prediction_score": model_output['prediction_score']
        })

Nota

Conforme mostrado, defina o diretório de memória do modelo como /tmp/. Os nós de warehouse do Snowflake têm acesso restrito ao diretório. /tmp é sempre gravável e é uma escolha segura quando o modelo precisa de um local para gravar arquivos. Isso pode não ser necessário para outros tipos de modelos.

Etapa 3: Testar o modelo personalizado¶

Teste o modelo PyCaret localmente usando um código como o seguinte.

test_data = [
    [1, 237, 1, 1.75, 1.99, 0.00, 0.00, 0, 0, 0.5, 1.99, 1.75, 0.24, 'No', 0.0, 0.0, 0.24, 1],
    # Additional test rows...
]
col_names = ['Id', 'WeekofPurchase', 'StoreID', 'PriceCH', 'PriceMM', 'DiscCH', 'DiscMM',
            'SpecialCH', 'SpecialMM', 'LoyalCH', 'SalePriceMM', 'SalePriceCH',
            'PriceDiff', 'Store7', 'PctDiscMM', 'PctDiscCH', 'ListPriceDiff', 'STORE']

test_df = pd.DataFrame(test_data, columns=col_names)

my_pycaret_model = PyCaretModel(pycaret_model_context)
output_df = my_pycaret_model.predict(test_df)

Etapa 4: Definir uma assinatura de modelo¶

Neste exemplo, use os dados de amostra para inferir uma assinatura do modelo para validação de entrada:

predict_signature = model_signature.infer_signature(input_data=test_df, output_data=output_df)

Etapa 5: Registrar o modelo¶

O código a seguir faz o log (registra) do modelo no Snowflake Model Registry.

snowml_registry = Registry(session)

custom_mv = snowml_registry.log_model(
    my_pycaret_model,
    model_name="my_pycaret_best_model",
    version_name="version_1",
    conda_dependencies=["pycaret==3.0.2", "scipy==1.11.4", "joblib==1.2.0"],
    options={"relax_version": False},
    signatures={"predict": predict_signature},
    comment = 'My PyCaret classification experiment using the CustomModel API'
)

Etapa 6: Verificar o modelo no registro¶

Para verificar se o modelo está disponível no Model Registry, use a função show_models.

snowml_registry.show_models()

Etapa 7: Fazer previsões com o modelo registrado¶

Use a função run para chamar o modelo para previsão.

snowpark_df = session.create_dataframe(test_data, schema=col_nms)

custom_mv.run(snowpark_df).show()

Próximos passos¶

Depois de implantar um modelo PyCaret por meio do Snowflake Model Registry, você pode visualizar o modelo no Snowsight. No menu de navegação, selecione AI & ML » Models. Se não o vir, verifique se está usando a função ACCOUNTADMIN ou a função que usou para registrar o modelo.

Para usar o modelo de SQL, use SQL da seguinte forma:

SELECT
    my_pycaret_model!predict(*) AS predict_dict,
    predict_dict['prediction_label']::text AS prediction_label,
    predict_dict['prediction_score']::double AS prediction_score
from pycaret_input_data;