scikit-learn¶
O registro oferece suporte a modelos criados usando scikit-learn (modelos derivados de sklearn.base.BaseEstimator
ou sklearn.pipeline.Pipeline
).
As seguintes opções adicionais podem ser usadas no dicionário options
quando você chamar log_model
:
Opção |
Descrição |
---|---|
|
Uma lista dos nomes dos métodos disponíveis no objeto modelo. Os modelos scikit-learn têm os seguintes métodos de destino por padrão, assumindo que o método existe: |
Você deve especificar o parâmetro sample_input_data
ou signatures
ao registrar um modelo scikit-learn para que o registro conheça as assinaturas dos métodos de destino.
Exemplo¶
Neste exemplo, um RandomForestClassifier
e um Pipeline
são treinados e registrados no registro de modelos.
from snowflake.ml.registry import Registry
from sklearn import datasets, ensemble
# create a session and set DATABASE and SCHEMA
# session = ...
registry = Registry(session=session, database_name=DATABASE, schema_name=SCHEMA)
iris_X, iris_y = datasets.load_iris(return_X_y=True, as_frame=True)
# Rename columns so they are valid Snowflake identifiers
column_name_map = {
'sepal length (cm)': 'sepal_length',
'sepal width (cm)': 'sepal_width',
'petal length (cm)': 'petal_length',
'petal width (cm)': 'petal_width'
}
iris_X = iris_X.rename(columns=column_name_map)
# Train the model
clf = ensemble.RandomForestClassifier(random_state=42)
clf.fit(iris_X, iris_y)
# Log the model in the registry
model_ref = registry.log_model(
clf,
model_name="RandomForestClassifier",
version_name="v1",
sample_input_data=iris_X,
options={
"method_options": {
"predict": {"case_sensitive": True},
"predict_proba": {"case_sensitive": True},
"predict_log_proba": {"case_sensitive": True},
}
},
)
# Generate predictions
model_ref.run(iris_X[-10:], function_name='"predict_proba"')
# Pipelines can also be logged in the registry
from sklearn import pipeline, preprocessing
pipe = pipeline.Pipeline([
('scaler', preprocessing.StandardScaler()),
('classifier', ensemble.RandomForestClassifier(random_state=42)),
])
pipe.fit(iris_X, iris_y)
model_ref = registry.log_model(
pipe,
model_name="Pipeline",
version_name="v1",
sample_input_data=iris_X,
options={
"method_options": {
"predict": {"case_sensitive": True},
"predict_proba": {"case_sensitive": True},
"predict_log_proba": {"case_sensitive": True},
}
},
)
# Generate predictions
model_ref.run(iris_X[-10:], function_name='"predict_proba"')
Nota
Você pode combinar o pré-processamento do scikit-learn com um modelo XGBoost como um pipeline do scikit-learn.