Carregar e usar funções personalizadas no Collaboration Data Clean Rooms¶
Introdução¶
Qualquer colaborador pode carregar UDFs e UDTFs Python personalizadas em uma colaboração. Os modelos na colaboração podem executar essas funções para realizar ações de dados complexas. O uso comum inclui machine learning ou manipulação de dados personalizados em uma consulta. O código carregado pode importar e usar pacotes de um conjunto aprovado de pacotes Python e de pacotes da API Snowpark.
Nota
Python é a única linguagem de codificação compatível com UDFs personalizadas.
As seções a seguir mostram como carregar e usar uma função personalizada.
Definir e usar pacotes de código personalizados¶
Veja como carregar e usar uma função personalizada:
Quem envia o código:
Cria e registra o código chamando REGISTER_CODE_SPEC.
O código pode estar em linha na especificação ou vinculado de uma área de preparação.
Cria um modelo que faz referência à especificação do pacote de código pelo ID na matriz
code_specsdo modelo. Adicione esse campo como um par de campos de modelo e de parâmetros, conforme mostrado neste exemplo:Registra e vincula o modelo à colaboração.
Nota
O Snowflake verifica se há problemas de segurança no código carregado. Se for encontrado um problema de segurança, o código e o modelo que o contém não serão adicionados à colaboração.
Quem executa a análise:
Executa o modelo da maneira padrão, chamando
RUN.
Importante
O Snowflake executa verificações de segurança em todos os pacotes carregados antes de implantá-los em uma sala limpa. Se uma verificação de segurança falhar, o modelo e seu código em pacote não serão implantados nem estarão disponíveis para uso.
Para confirmar se um modelo com um pacote de código está implantado e pronto para uso, siga as etapas a seguir:
Encontre o nome do aplicativo de sala limpa em que você está tentando implantar o pacote de código:
Verifique o valor
upgrade_statena resposta de DESCRIBE APPLICATION. Quando o estado da atualização é COMPLETE, as verificações de segurança foram aprovadas, e o modelo e o pacote novos estão disponíveis para uso. Passe o nome do aplicativo retornado pelo comando na etapa anterior usando SQL, como no exemplo a seguir: código SQL:
Criar e registrar a especificação do pacote de código¶
A primeira etapa para carregar o código personalizado é criar e registrar a especificação do pacote de código.
As funções personalizadas são definidas em uma especificação de pacote de código YAML. Cada pacote de código expõe uma ou mais funções que podem ser chamadas por um modelo. A especificação do pacote de código pode incluir o código na especificação em linha ou vincular para o código que reside em uma área de preparação do Snowflake.
Um colaborador registra uma especificação chamando REGISTRY.REGISTER_CODE_SPEC, que retorna o ID do pacote. Qualquer colaborador com qualquer função pode registrar e vincular um pacote de código.
Depois que o pacote de código é vinculado à colaboração, ele fica visível para qualquer pessoa na colaboração que possa acessar um modelo que vincula o pacote de código. Chame VIEW_CODE_SPECS para listar pacotes de código acessíveis em uma colaboração.
Qualquer pessoa que possa ver um pacote de código em uma colaboração poderá vê-lo e usá-lo em seus próprios modelos nessa colaboração. Qualquer código em linha pode ser visualizado por qualquer membro da colaboração, mas o código do artefato preparado não pode ser visualizado pelos colaboradores.
A especificação do pacote de código a seguir expõe uma única UDF Python chamada normalize_value, que chama a função normalize definida nessa especificação:
Criar e registrar o modelo de chamada¶
Após o registro da especificação de código, o colaborador registra um modelo que usa esse pacote de código. Para usar um pacote de código, adicione o ID da especificação do pacote ao campo code_specs do modelo.
Um modelo chama uma função personalizada usando a sintaxe cleanroom.spec_name$function_name. Observe as marcas de escopo de nomes . e $.
Nota
Use o nome, e não o ID, da especificação para fazer referência a uma função em seu modelo.
No exemplo a seguir, um modelo usa a função normalize_value do pacote de código custom_udf:
Adicionar o modelo a uma colaboração¶
Adicione o modelo que chama sua função à colaboração da maneira padrão. Para obter mais informações, consulte Modelos.
O Snowflake o valida e carrega na colaboração quando o modelo de chamada é adicionado a uma colaboração. O Snowflake verifica se há problemas de segurança no código carregado antes de instalar o código.
O exemplo a seguir mostra uma solicitação para adicionar um modelo a uma colaboração existente:
Enviar uma nova versão do seu pacote de código¶
Cada especificação de código registrada deve ter um nome + versão exclusivos em todos os registros em sua conta. Um modelo carrega um nome e uma versão específicos de uma especificação de código. Se quiser criar ou consumir uma nova versão do seu código, você deverá enviar uma nova versão do modelo que faça referência à nova versão do código no campo code_specs. Você não precisa alterar o corpo do modelo. Por exemplo:
Etapa 1: Consumir a versão 1 do pacote de código:
Etapa 2: Atualizar e registrar a nova versão do seu pacote de código e, em seguida, atualizar seu modelo para usar a nova versão:
Observe que os nomes das funções não incluem a versão, portanto você não precisa alterar o código de chamada no corpo do modelo ao carregar uma nova versão de uma função.
Especificação do pacote de código¶
Esta especificação define um pacote de uma ou mais funções ou procedimentos de código que podem ser chamados por um modelo.
Uma especificação de pacote de código tem, no máximo, 5 funções mais procedimentos.
Os identificadores na especificação do pacote de código têm os seguintes requisitos gerais:
Nomes: devem ser identificadores válidos do Snowflake, que começam com uma letra e contêm apenas caracteres alfanuméricos e sublinhados.
Identificadores entre aspas: identificadores entre aspas duplas são permitidos para nomes com caracteres especiais.
Diferenciação entre maiúsculas e minúsculas: identificadores sem aspas não diferenciam maiúsculas de minúsculas. Identificadores entre aspas preservam o uso de maiúsculas e minúsculas.
api_versionA versão da API do Collaboration utilizada. Deve ser
2.0.0.spec_typeIdentificador do tipo de especificação. Deve ser
code_spec.name: identifierUm nome exclusivo para esta especificação de pacote de código neste registro. Deve ser um identificador válido do Snowflake com no máximo 75 caracteres. Ele é usado como o segmento do sobrenome ao chamar a função em um modelo:
cleanroom.code_spec_name$function_nameversion: version_idIdentificador de versão personalizado. Deve ser alfanumérico com sublinhados e, no máximo, 20 caracteres.
description: description_text(opcional)Uma descrição da especificação do pacote de código (máximo de 1.000 caracteres).
artifacts(opcional)Uma lista de arquivos ou pacotes preparados que podem ser importados por suas funções ou procedimentos e opcionalmente expostos por meio de funções do manipulador. Máximo de 5 por especificação.
alias: identifierUm alias para referenciar este artefato nas importações. Ao referenciar este alias nesta especificação, use o nome do alias simples em vez de
cleanroom.spec_name$alias; ou seja, use o nome da função simples para fazer referência a outra função nesta especificação.stage_path: stage_pathCaminho completo da área de preparação para o arquivo de artefato. Por exemplo,
@DB.SCHEMA.STAGE/path/file.whl.
A área de preparação deve ser interna. Áreas de preparação externas não são compatíveis.
A área de preparação deve ter o DIRECTORY habilitado: a área de preparação que contém artefatos deve ter
DIRECTORY = TRUEdefinido.Formato do caminho da área de preparação: deve seguir o formato
@[DB.]SCHEMA.STAGE/path/to/file.ext.Sem travessia de caminho: os caminhos de área de preparação não podem conter
..ou\.Este artefato deve existir: o arquivo deve existir no caminho da área de preparação especificado quando o pacote de código for registrado.
A área de preparação deve ter a criptografia do lado do servidor SNOWFLAKE_SSE habilitada. Ao criar ou alterar a área de preparação, defina
ENCRYPTION = (TYPE = 'SNOWFLAKE_SSE').Se você enviar, excluir ou atualizar um arquivo de código preparado, deverá chamar
ALTER STAGE stage name REFRESHpara garantir que a colaboração tenha as informações mais recentes da área de preparação. As atualizações de código são permitidas apenas antes de você registrar a especificação do código, pois é quando a versão é atribuída e a soma de verificação do hash é calculada.
description: description_text(opcional)Uma descrição do artefato (máximo de 500 caracteres).
content_hash: sha256_hash(opcional)Hash SHA-256 para verificação de integridade (64 caracteres hexadecimais).
functions(obrigatório se nenhum procedimento for definido)Uma lista de definições de UDF ou UDTF.
name identifierO nome da função a ser exposta ao modelo de chamada. Deve ser um identificador válido do Snowflake.
typeO tipo de função.
UDFouUDTF.languageA linguagem da função. Atualmente, somente
PYTHONé compatível.runtime_version: python_version(opcional)Versão de tempo de execução do Python a ser usada. Versões compatíveis:
3.10a3.14.handler: handlerO nome da função do manipulador no código da função a ser chamada quando
nameé chamado.arguments(opcional)Argumentos de função como uma lista de pares nome-tipo. Devem ser tipos SQL válidos do Snowflake.
returns: sql_typeO tipo de retorno. Para UDFs, use um tipo SQL, como
STRINGouFLOAT. Para UDTFs, useTABLE(column_definitions):packages(opcional)Uma lista de pacotes usados por este código. Pode ser qualquer um destes pacotes Anaconda Python ou destes pacotes da API Snowpark. Por exemplo:
snowflake-snowpark-python,numpy.imports(opcional)Uma lista de artefatos a serem importados. Eles devem ser aliases da lista de artefatos nesta especificação.
code_body(opcional)Código Python em linha. Mutualmente exclusivo com importações preparadas. O tamanho máximo é 12 MB.
description: description_text(opcional)Uma descrição da função (máximo de 500 caracteres).
procedures(obrigatório se nenhuma função for definida)Uma lista de definições de procedimentos armazenados. Os campos são semelhantes a
functions, exceto que não há um campotype.
Referência de API¶
Os procedimentos a seguir são usados para gerenciar pacotes de código personalizados em uma colaboração:
REGISTER_CODE_SPEC¶
- Esquema:
REGISTRY
Registra um pacote de código. Isso armazena o código no ambiente de salas limpas na tabela REGISTRY.CODE_SPECS. Depois que uma especificação de código é registrada, ela pode ser usada por um modelo.
Cada especificação de código registrada deve ter um nome + versão exclusivos em todos os registros em sua conta.
Sintaxe¶
Argumentos¶
registry_name(opcional)Nome de um registro personalizado no qual registrar esta especificação de código. Se não for especificado, registra o pacote de código no registro de contas padrão.
code_specDefinição da especificação do pacote de código no formato YAML, como uma cadeia de caracteres.
Retornos¶
ID da especificação do pacote de código gerado.
Exemplos¶
Registrar um pacote de código no registro padrão:
Registrar um pacote de código em um registro personalizado:
Requisitos de acesso¶
Se você não usa a função SAMOOHA_APP_ROLE, deve usar uma função que tenha recebido um dos privilégios a seguir.
Para registrar uma especificação de código no registro padrão:
GRANT_PRIVILEGE_ON_ACCOUNT_TO_ROLE('REGISTER CODE SPEC', 'role name')
Para registrar itens em um registro personalizado:
Você tem privilégios de leitura e gravação em qualquer registro personalizado criado por você mesmo.
Para acessar um registro personalizado criado por outro usuário, você precisa de
GRANT_PRIVILEGE_ON_OBJECT_TO_ROLE('REGISTER', 'REGISTRY', 'MY_REGISTRY', 'role name').
VIEW_REGISTERED_CODE_SPECS¶
- Esquema:
REGISTRY
Lista todas as especificações de pacotes de código registradas por esta função no registro de contas local.
Sintaxe¶
Argumentos¶
registry_name(opcional)Nome de um registro personalizado do qual listar as especificações de código. Se não for especificado, listará as especificações de código do registro de contas padrão.
Retornos¶
Uma tabela que lista os detalhes de todos os pacotes de código que você registrou nesta conta. A tabela inclui as seguintes colunas:
CODE_SPEC_ID: ID da especificação do pacote de código.NAME: Nome da especificação do pacote de código.VERSION: Versão da especificação do pacote de código.CODE_SPEC: Especificação YAML completa da especificação do pacote de código.
Exemplo¶
Requisitos de acesso¶
Se você não usa a função SAMOOHA_APP_ROLE, deve usar uma função que tenha recebido um dos privilégios a seguir.
Para ver os itens no registro padrão:
GRANT_PRIVILEGE_ON_ACCOUNT_TO_ROLE('VIEW REGISTERED CODE SPECS', 'role name')GRANT_PRIVILEGE_ON_ACCOUNT_TO_ROLE('REVIEW COLLABORATION', 'role name')GRANT_PRIVILEGE_ON_ACCOUNT_TO_ROLE('CREATE COLLABORATION', 'role name')
Para ver os itens em um registro específico:
Você tem privilégios de leitura e gravação em qualquer registro personalizado criado por você mesmo.
Para acessar um registro personalizado criado por outro usuário, você precisa de
GRANT_PRIVILEGE_ON_OBJECT_TO_ROLE('READ', 'REGISTRY', 'MY_REGISTRY', 'role name').
VIEW_CODE_SPECS¶
- Esquema:
COLLABORATION
Retorna todas as especificações de pacotes de código referenciadas por qualquer modelo que você criou ou pode executar na colaboração especificada.
Sintaxe¶
Argumentos¶
collaboration_nameID da colaboração.
Retornos¶
Uma tabela que lista os pacotes de código disponíveis na colaboração especificada. A tabela inclui as seguintes colunas:
CODE_SPEC_ID: ID desta especificação de pacote de código.CODE_SPEC: Especificação YAML completa da especificação do pacote de código.SHARED_BY: alias do colaborador que compartilhou a especificação do pacote de código.
Exemplo¶
Requisitos de acesso¶
Se você não usa a função SAMOOHA_APP_ROLE, deve usar uma função que tenha recebido um dos privilégios a seguir:
GRANT_PRIVILEGE_ON_OBJECT_TO_ROLE('VIEW CODE SPECS', 'COLLABORATION', 'collaboration name', 'role name')GRANT_PRIVILEGE_ON_ACCOUNT_TO_ROLE('REVIEW COLLABORATION', 'role name')GRANT_PRIVILEGE_ON_ACCOUNT_TO_ROLE('CREATE COLLABORATION', 'role name')
Exemplos de especificações¶
UDF em linha com corpo de código¶
Uma UDF simples com código Python em linha:
UDTF (função de tabela definida pelo usuário)¶
Este exemplo de YAML define uma UDTF que retorna várias linhas:
Artefato preparado com pacote wheel¶
Leia os requisitos na documentação do stage_path para vincular ao código preparado na sua especificação de código.
Este exemplo de YAML utiliza um pacote wheel Python preparado:
Procedimento armazenado¶
Este exemplo de YAML define um procedimento armazenado para processamento de dados:
Vários arquivos Python como artefatos preparados¶
Leia os requisitos na documentação do stage_path para vincular ao código preparado na sua especificação de código.
Este exemplo de YAML utiliza vários arquivos de origem Python preparados:
Solução de problemas de pacotes de código¶
- Erro:
CodeSpecAlreadyExistsException- Causa:
Especificação do pacote de código com os mesmos nome e versão já registrados.
- Solução:
Use uma versão diferente ou atualize a versão existente.
- Erro:
SpecValidationError- Causa:
O YAML não está de acordo com o esquema.
- Solução:
Verifique os campos e o formato obrigatórios.
- Erro:
CodeSpecStageNotAccessibleError- Causa:
A área de preparação referenciada no artefato não está acessível.
- Solução:
Conceda acesso à área de preparação ou verifique se ela existe.
- Erro:
CodeSpecArtifactNotFoundAtStageError- Causa:
Arquivo não encontrado no caminho da área de preparação especificado.
- Solução:
Carregue o arquivo para a área de preparação antes do registro.
- Erro:
StageDirectoryNotEnabledError- Causa:
A área de preparação não tem o DIRECTORY habilitado.
- Solução:
Habilite o diretório na área de preparação:
ALTER STAGE ... SET DIRECTORY = (ENABLE = TRUE)
- Erro:
CodeSpecNotFoundForOwnerException- Causa:
O modelo faz referência a uma especificação de pacote de código não registrada.
- Solução:
Registre a especificação do pacote de código antes de registrar o modelo.