Inferência entre regiões

Inferência é o processo de usar um modelo de machine learning para obter uma saída com base em uma entrada do usuário. Por exemplo, quando você chama a função SNOWFLAKE.CORTEX.COMPLETE, você está solicitando uma inferência do LLM com seu prompt como entrada. No Snowflake, você pode configurar sua conta para permitir o processamento de inferência entre regiões com o parâmetro CORTEX_ENABLED_CROSS_REGION. Este parâmetro permite que solicitações de inferência sejam processadas em uma região diferente da região padrão. O parâmetro de inferência entre regiões é usado para determinar o comportamento de inferência para qualquer recurso do Snowflake suportado pela inferência entre regiões, incluindo Cortex LLM Functions.

Quando ativada, a inferência entre regiões ocorre se LLM ou o recurso ou não for suportado na sua região padrão.

Por padrão, o parâmetro é definido como DISABLED. Isso permite que as solicitações sejam processadas apenas na região padrão. Você pode especificar as regiões nas quais deseja permitir a inferência entre regiões usando o comando ALTER ACCOUNT.

Para detalhes sobre este parâmetro, consulte CORTEX_ENABLED_CROSS_REGION.

Requisitos de controle de acesso

Este parâmetro só pode ser definir no nível da conta, não nos níveis do usuário ou da sessão. Somente a função ACCOUNTADMIN pode definir o parâmetro usando o comando ALTER ACCOUNT:

ALTER ACCOUNT SET CORTEX_ENABLED_CROSS_REGION = 'AWS_US';
Copy

Este parâmetro não pode ser definir pela função ORGADMIN.

Como usar o parâmetro de inferência entre regiões

Por padrão, esse parâmetro é definido como DISABLED, o que significa que as solicitações de inferência são processadas apenas na região padrão. Os exemplos a seguir mostram como definir o parâmetro entre regiões para vários casos de uso.

Qualquer região

Para permitir que qualquer uma das regiões do Snowflake que oferecem suporte a solicitações de inferência entre regiões processe suas solicitações, defina o parâmetro como 'ANY_REGION'.

ALTER ACCOUNT SET CORTEX_ENABLED_CROSS_REGION = 'ANY_REGION';
Copy

Somente região padrão

Para processar solicitações de inferência somente na região padrão, defina este parâmetro como 'DISABLED'.

ALTER ACCOUNT SET CORTEX_ENABLED_CROSS_REGION = 'DISABLED';
Copy

Especificar regiões

Para permitir que apenas regiões especificadas processem suas solicitações, defina este parâmetro para as regiões separadas por vírgulas. Para uma lista completa de regiões, consulte CORTEX_ENABLED_CROSS_REGION.

O exemplo a seguir especifica regiões AWS_US e AWS_EU para processar suas solicitações de inferência:

ALTER ACCOUNT SET CORTEX_ENABLED_CROSS_REGION = 'AWS_US,AWS_EU';
Copy

Considerações sobre custo

  • Você será cobrado em créditos pelo uso de LLM conforme listado na Tabela de consumo de serviços do Snowflake. Os créditos são considerados consumidos na região solicitante. Por exemplo, se você chamar uma LLM Function da região us-east-2 e a solicitação for processada na região, us-west-2 os créditos serão considerados consumidos na região us-east-2.

  • Você não incorre em cobranças de saída de dados pelo uso de inferência entre regiões.

Considerações

  • A latência entre regiões depende da infraestrutura do provedor de nuvem e do status da rede. A Snowflake recomenda que você teste seu caso de uso específico com a inferência entre regiões habilitada.

  • A inferência entre regiões não é suportada em regiões SnowGov dos EUA. Isso significa que você não pode fazer solicitações de inferência entre regiões dentro ou fora de regiões SnowGov.

  • Você pode usar essa configuração de regiões do GCP ou Azure para fazer solicitações de inferência para recursos que não são suportados nessas regiões.

  • Entradas do usuário, prompts gerados serviço e saídas não são armazenados ou armazenados em cache durante a inferência entre regiões.

  • Os dados necessários para a solicitação de inferência atravessam regiões da seguinte forma:

    • Se as regiões de origem e destino estiverem em AWS, os dados permanecerão na rede global do AWS. Todos os dados que fluem pela rede global do AWS que interconecta os data centers e regiões são criptografados automaticamente na camada física.

    • Se as regiões estiverem em diferentes provedores de nuvem, os dados atravessarão a Internet pública usando o Mutual Transport Layer Security (mTLS).

Próximos passos

  • Para obter detalhes sobre o parâmetro de inferência entre regiões, consulte a seção CORTEX_ENABLED_CROSS_REGION de referência do parâmetro SQL.