Especificação das assinaturas de modelo¶

Para garantir uma experiência consistente, não importa onde um modelo seja executado, o Registro de modelo Snowflake precisa saber o esquema de entrada e saída dos métodos de inferência do modelo: ou seja, o nome e o tipo de todas as colunas no DataFrame de entrada ou saída. Isso permite que essas colunas sejam mapeadas entre os tipos de dados Python e SQL quando necessário. Esse esquema é chamado de assinatura por analogia aos argumentos de uma função e seus tipos. As assinaturas também podem incluir parâmetros opcionais que controlam o comportamento da inferência, como uma configuração de temperatura.

Com determinados frameworks de ML, o registro do modelo pode inferir esses esquemas, seja a partir de estruturas de dados no próprio modelo ou de dados de entrada de amostra. No entanto, os modelos geralmente aceitam ou retornam objetos que não possuem essas informações, como matrizes NumPy. Nestes casos, o Snowpark ML infere os nomes dos recursos de entrada como input_feature_1, input_feature_2, e assim por diante. Da mesma forma, os recursos de saída são nomeados output_feature_1, output_feature_2 e assim por diante.

Para usar nomes mais significativos em seus modelos personalizados, você pode usar um dos seguintes métodos:

Atualize sample_input_data com nomes de colunas, geralmente convertendo o conjunto de dados em um pandas ou DataFrame Snowpark.
Passe assinaturas explicitamente para log_model. Quando um modelo não produz nomes em sua saída, assinaturas explícitas podem ser a única opção.

Como inferir uma assinatura¶

Assim como o próprio registro de modelos, você pode gerar assinaturas automaticamente. Use snowflake.ml.model.model_signature.infer_signature para inferir uma assinatura com base nos nomes de entrada, saída e coluna de amostra fornecidos e, em seguida, aplique essa assinatura aos métodos apropriados ao registrar o modelo, como no exemplo a seguir:

import pandas as pd
from sklearn import svm, datasets

from snowflake.ml.model import model_signature

digits = datasets.load_digits()
target_digit = 6

def one_vs_all(dataset, digit):
    return [x == digit for x in dataset]

train_features = digits.data[:10]
train_labels = one_vs_all(digits.target[:10], target_digit)
clf = svm.SVC(gamma=0.001, C=10.0, probability=True)
clf.fit(train_features, train_labels)

sig = model_signature.infer_signature(
    train_features,
    train_labels,
    input_feature_names=['column1', 'column2', ...],
    output_feature_names=['is_target_digit'])

# Supply a signature for every function the model exposes, in this case only `predict`.
mv = reg.log_model(
    clf,
    model_name='my_model',
    version_name='v1',
    signatures={"predict": sig}
)

Este exemplo aplica a assinatura a apenas um método, mas você pode inferir uma assinatura para cada método que seu modelo expõe. Você pode usar o mesmo objeto de assinatura (sig no exemplo) para todos os métodos que têm a mesma assinatura.

Nota

Para o Snowpark DataFrames, infer_signature deve executar a consulta do DataFrame para obter os dados a partir dos quais a assinatura é inferida. Isso pode gerar um custo significativo, dependendo do tamanho do conjunto de dados. A maioria dos conjuntos de dados de treinamento é grande o suficiente para que isso seja levado em consideração.

Para evitar consultas grandes, infer_signature considera apenas as primeiras cem linhas dos dados adicionando LIMIT 100 para a consulta. No entanto, se essas linhas não forem representativas dos dados, a assinatura inferida talvez não seja precisa. Isso geralmente ocorre quando o conjunto de dados contém muitos valores NULL e uma coluna no conjunto de dados tem apenas valores NULL nas primeiras cem linhas. Nesse caso, a assinatura inferida omite incorretamente essa coluna. Forneça a assinatura explicitamente, conforme mostrado na próxima seção, para evitar esse problema.

Como construir uma assinatura¶

Você também pode construir manualmente uma assinatura usando snowflake.ml.model.model_signature.ModelSignature. São suportados tanto tipos escalares quanto tensores (incluindo tensores irregulares).

Exemplo:

from snowflake.ml.model.model_signature import ModelSignature, FeatureSpec, DataType

sig = ModelSignature(
    inputs=[
        FeatureSpec(dtype=DataType.DOUBLE, name=f_0),
        FeatureSpec(dtype=DataType.INT64, name=sparse_0_fixed_len, shape=(5, 5)),
        FeatureSpec(dtype=DataType.INT64, name=sparse_1_variable_len, shape=(-1,)),
    ],
    outputs=[
        FeatureSpec(dtype=DataType.FLOAT, name=output),
    ]
)

Em seguida, passe o objeto de assinatura, sig, para log_model com o argumento signatures, como no exemplo acima, para os métodos aos quais ele se aplica.

Especificando parâmetros com ParamSpec¶

Além dos recursos de entrada e de saída, as assinaturas de modelo podem incluir parâmetros. Os parâmetros definem valores de configuração opcionais que você pode passar para métodos de inferência de modelo ao fazer uma solicitação de inferência. Ao contrário dos recursos de entrada, que especificam os dados que estão sendo processados, os parâmetros controlam o comportamento da inferência, como o número de resultados a serem retornados ou uma configuração de temperatura.

Use ParamSpec de snowflake.ml.model.model_signature.ModelSignature para definir um parâmetro.

Cada ParamSpec requer um nome, um tipo de dados e um valor padrão. O valor padrão é usado quando o parâmetro não é fornecido explicitamente no momento da inferência.

Construindo uma assinatura com parâmetros¶

O exemplo a seguir cria uma assinatura de modelo que inclui recursos e parâmetros de entrada/saída:

from snowflake.ml.model.model_signature import ModelSignature, FeatureSpec, ParamSpec, DataType

sig = ModelSignature(
    inputs=[
        FeatureSpec(dtype=DataType.STRING, name="input_text"),
    ],
    outputs=[
        FeatureSpec(dtype=DataType.STRING, name="output_text"),
    ],
    params=[
        ParamSpec(name="temperature", dtype=DataType.DOUBLE, default_value=0.7),
        ParamSpec(name="max_tokens", dtype=DataType.INT32, default_value=256),
    ]
)

mv = reg.log_model(
    my_model,
    model_name='my_model',
    version_name='v1',
    signatures={"predict": sig}
)

Você também pode incluir parâmetros ao inferir uma assinatura com infer_signature:

from snowflake.ml.model.model_signature import ParamSpec, DataType
from snowflake.ml.model import model_signature

params = [
    ParamSpec(name="top_k", dtype=DataType.INT32, default_value=10),
    ParamSpec(name="threshold", dtype=DataType.DOUBLE, default_value=0.5),
]

sig = model_signature.infer_signature(
    input_data,
    output_data,
    params=params
)

Nota

Os nomes dos parâmetros devem ser exclusivos na assinatura e não podem compartilhar nomes com recursos de entrada. Se um nome de parâmetro entrar em conflito com um nome de recurso de entrada, um ValueError é gerado.

Para ver a lista completa de argumentos ParamSpec, consulte a referência da API.

Para obter detalhes sobre como passar valores de parâmetro no momento da inferência, consulte Passando parâmetros durante a inferência e Passando parâmetros em SQL.

Mapeamentos de tipos de dados¶

Esta seção descreve a equivalência de tipos no Registro de modelo Snowflake para sistemas de tipos suportados.

Tipos de dados de coluna¶

A tabela a seguir mostra a equivalência do tipo da assinatura do modelo (DataFrames), tipo de pandas (NumPy) e tipo Snowpark Python.


Tipo de assinatura do modelo	Tipo pandas DataFrame (NumPy)	Tipo Snowpark Python
INT8	`np.int8`	`ByteType`
INT16	`np.int16`	`ShortType`
INT32	`np.int32`	`IntegerType`
INT64	`np.int64`	`LongType`
FLOAT	`np.float32`	`FloatType`
DOUBLE	`np.float64`	`DoubleType`
UINT8	`np.uint8`	`ByteType`
UINT16	`np.uint16`	`ShortType`
UINT32	`np.uint32`	`IntegerType`
UINT64	`np.uint64`	`LongType`
BOOL	`np.bool_`	`BooleanType`
STRING	`np.str_`	`StringType`
BYTES	`np.bytes_`	`BinaryType`
TIMESTAMP_NTZ	`np.datetime64`	`TimestampType`

A representação de recursos tensores onde a forma é especificada usa np.object_.

Valores ausentes¶

Se o sample_input_data for usado para inferir a assinatura do modelo, ele geralmente não deve conter nenhum valor NULL. O registro de modelos tenta inferir assinaturas a partir dos dados fornecidos, mas nem sempre consegue fazer isso completamente. É uma boa prática evitar que NULLs sejam incluídos nos dados da amostra o mais cedo possível, por exemplo, no momento da entrada de dados, sempre que possível.

Conversão de NumPy¶

Se o tipo de dados NumPy puder ser convertido com segurança em um tipo NumPy mostrado em Tipos de dados de coluna, será inferido como o tipo de dados correspondente.

Conversão de PyTorch¶


Tipo de PyTorch	Tipo de assinatura do modelo
`torch.uint8`	UINT8
`torch.int8`	INT8
`torch.int16`	INT16
`torch.int32`	INT32
`torch.int64`	INT64
`torch.float32`	FLOAT
`torch.float64`	DOUBLE
`torch.bool`	BOOL

Conversão do Snowpark¶

Além dos mapeamentos mostrados em Tipos de dados de coluna, as seguintes conversões se aplicam:

DecimalType com escala de 0 mapas para INT64.
DecimalType com escala maior que 0 mapas para DOUBLE.