Cortex AI Guardrails

Vue d’ensemble

Cortex AI Guardrails, qui fait partie du Catalogue Snowflake Horizon, fournit une protection pendant la durée d’exécution contre les attaques par injection d’invite et les attaques de type « jailbreak » sur Cortex Code.

À mesure que les entreprises font passer leurs applications AI de la phase pilote à la mise en production, elles sont confrontées à un risque accru lié aux invites malveillantes, qui peuvent menacer l’intégrité et la sécurité des données. Cortex AI Guardrails étend les protections par défaut de Snowflake contre les techniques connues d’injection d’invites en ajoutant des garde-fous pour détecter et atténuer les menaces concurrentes.

Intégré de manière centralisée dans le catalogue Snowflake Horizon, Cortex AI Guardrails exploite le raisonnement contextuel pour détecter et neutraliser les intentions malveillantes, empêchant les menaces concurrentes de contourner les limites de sécurité établies et les autorisations renforcées.

Capacités clés

Cortex AIGuardrails fournit les protections suivantes :

  • Détection de l’injection d’invites : Identifie et bloque les tentatives de remplacement des instructions système par le biais d’invites malveillantes, y compris des injections d’invites indirectes intégrées dans les appels d’outils.

  • Prévention des attaques de type « jailbreak » : Détecte les tentatives de contournement des protocoles de sécurité du modèle et des limites de sécurité.

  • ** Protection de type zéro jour ** : Utilise des techniques avancées pour identifier en temps réel des modèles d’attaque sophistiqués, auparavant inconnus.

Configurer Cortex AI Guardrails

Vous pouvez configurer Cortex AI Guardrails au niveau du compte utilisant le paramètre AI_SETTINGS. Cela fournit un contrôle centralisé sur le comportement des garde-fous pour Cortex Code dans votre compte. Les utilisateurs dotés du rôle ACCOUNTADMIN peuvent configurer Cortex AI Guardrails.

Activer les garde-fous

Pour activer Cortex AI Guardrails pour votre compte, utilisez la commande ALTERACCOUNT avec le paramètre AI_SETTINGS :

ALTER ACCOUNT SET AI_SETTINGS = $$
  guardrails:
    advanced_prompt_injection:
      - enabled: true
$$;

Voir les paramètres de garde-fou

Pour afficher la configuration de garde-fou actuelle de votre compte :

SHOW PARAMETERS LIKE 'AI_SETTINGS' IN ACCOUNT;

Désactiver les garde-fous

Pour désactiver Cortex AI Guardrails :

ALTER ACCOUNT UNSET AI_SETTINGS;

Surveiller l’activité du garde-fou

Lorsque Cortex AI Guardrails détecte une menace potentielle, l’événement est enregistré à des fins d’audit et de surveillance. Pour Cortex Code, vous pouvez examiner les menaces détectées dans les journaux de conversation. Pour plus d’informations sur la gestion de l’historique des conversations, voir historique des conversations.

Utilisez ces journaux pour :

  • Surveiller les tentatives d’attaques contre vos charges de travail AI

  • Identifier des modèles dans les requêtes bloquées ou signalées

  • Auditer l’efficacité des garde-fous

Considérations

  • Alors que Cortex AI Guardrails est optimisé pour être extrêmement précis, certaines invites valides peuvent parfois être signalées. Examinez périodiquement vos journaux de garde-fou afin d’identifier tout modèle.

  • Cortex AI Guardrails pour l’injection d’invites est actuellement disponible avec:doc:Code Cortex </user-guide/cortex-code/cortex-code>.

Coût

Des crédits vous sont facturés pour l’utilisation de Cortex AI Guardrails comme indiqué dans le Tableau de consommation du service Snowflake. L’utilisation est mesurée en fonction du nombre de jetons analysés.