Cortex AI Guardrails

Visão geral

O Cortex AI Guardrails, parte do Snowflake Horizon Catalog, oferece proteção em tempo de execução contra ataques de injeção de prompts e jailbreak no Cortex Code.

À medida que as empresas migram os aplicativos de AI de teste para produção, elas enfrentam um risco maior de prompts adversários que podem ameaçar a integridade e a segurança dos dados. O Cortex AI Guardrails estende as proteções padrão do Snowflake contra técnicas de injeção de prompts conhecidas, adicionando proteções para detectar e mitigar ameaças adversárias.

Centralmente integrado ao Snowflake Horizon Catalog, o Cortex AI Guardrails usa o raciocínio contextual para detectar e neutralizar intenções maliciosas, impedindo que ameaças adversárias violem os limites de segurança estabelecidos e as permissões protegidas.

Principais recursos

O Cortex AI Guardrails oferece as seguintes proteções:

  • Detecção de injeção de prompts: identifica e bloqueia tentativas de substituir instruções do sistema usando prompts maliciosos, incluindo injeções de prompts indiretas incorporadas em chamadas de ferramentas.

  • Prevenção de jailbreak: detecta tentativas de desvio dos protocolos e limites de segurança do modelo.

  • Proteção em estilo dia zero: usa técnicas avançadas para identificar em tempo real padrões de ataque sofisticados que antes eram desconhecidos.

Configurar o Cortex AI Guardrails

Você pode configurar o Cortex AI Guardrails no nível da conta usando o parâmetro AI_SETTINGS. Essa configuração oferece um controle centralizado do comportamento de proteção do Cortex Code em sua conta. Usuários com a função ACCOUNTADMIN podem configurar o Cortex AI Guardrails.

Habilitar as proteções

Para habilitar o Cortex AI Guardrails em sua conta, use o comando ALTER ACCOUNT com o parâmetro AI_SETTINGS:

ALTER ACCOUNT SET AI_SETTINGS = $$
  guardrails:
    advanced_prompt_injection:
      - enabled: true
$$;

Visualizar as configurações de proteção

Para visualizar a configuração de proteção atual da sua conta:

SHOW PARAMETERS LIKE 'AI_SETTINGS' IN ACCOUNT;

Desabilitar as proteções

Para desabilitar o Cortex AI Guardrails:

ALTER ACCOUNT UNSET AI_SETTINGS;

Monitorar a atividade de proteção

Quando o Cortex AI Guardrails detecta uma ameaça potencial, o evento é registrado para fins de auditoria e monitoramento. Para o Cortex Code, você pode revisar as ameaças detectadas nos logs de conversa. Para obter mais informações sobre como gerenciar o histórico de conversas, consulte histórico de conversas.

Use os logs para:

  • Monitorar tentativas de ataques contra cargas de trabalho de AI

  • Identificar padrões em solicitações bloqueadas ou sinalizadas

  • Fazer auditoria da eficácia da proteções

Considerações

  • Embora o Cortex AI Guardrails seja otimizado para alta precisão, ocasionalmente alguns prompts legítimos podem ser sinalizados. Revise os logs da proteção periodicamente para identificar padrões.

  • No momento, o Cortex AI Guardrails para injeção de prompts está disponível com o Cortex Code.

Custo

Você será cobrado em créditos pelo uso do Cortex AI Guardrails, conforme listado na Tabela de consumo de serviços do Snowflake. O uso é medido com base no número de tokens verificados.