Dépannage de Snowpipe¶

Ce chapitre décrit une approche méthodique pour dépanner des problèmes liés aux chargements de données avec Snowpipe.

Dans ce chapitre :

Les étapes permettant de résoudre les problèmes liés à Snowpipe diffèrent en fonction du flux de travail utilisé pour charger les fichiers de données.

Chargement de données automatique à l’aide de notifications d’événement de stockage Cloud¶

Notifications d’erreur¶

Configuration des notifications d’erreur pour Snowpipe Lorsque Snowpipe rencontre des erreurs pendant un chargement, la fonction envoie une notification à un service de messagerie dans le Cloud configuré, ce qui permet d’analyser vos fichiers de données. Pour plus d’informations, voir Notifications d’erreur Snowpipe.

Étapes de dépannage général¶

Effectuez les étapes suivantes pour identifier la cause de la plupart des problèmes empêchant le chargement automatique des fichiers.

Étape 1 : Vérification du statut du canal¶

Récupérez le statut actuel du canal. Les résultats sont affichés au format JSON. Pour plus d’informations, voir SYSTEM$PIPE_STATUS.

Vérifiez les valeurs suivantes :

lastReceivedMessageTimestamp
Spécifie l’horodatage du dernier message d’événement reçu de la file d’attente de messages. Ce message peut ne pas s’appliquer au canal spécifique, par exemple si le chemin d’accès associé au message ne correspond pas au chemin indiqué dans la définition du canal. De plus, seuls les messages déclenchés par des objets de données créés sont consommés par les canaux d’intégration automatique.

Si l’horodatage est plus tôt que prévu, cela indique probablement un problème lié à la configuration du service (par exemple, Amazon SQS, Amazon SNS ou Event Grid Azure) ou au service en soi. Si le champ est vide, vérifiez vos paramètres de configuration de service. Si le champ contient un horodatage mais qu’il est plus tôt que prévu, vérifiez si des paramètres ont été modifiés dans la configuration de votre service.

lastForwardedMessageTimestamp
Spécifie l’horodatage du dernier message d’événement « créer un objet » avec un chemin correspondant qui a été transféré au canal.

Si les messages d’événement sont reçus de la file de messages mais ne sont pas transférés vers le canal, il existe probablement une incompatibilité entre le chemin de stockage blob où les nouveaux fichiers de données sont créés et le chemin combiné spécifié dans les définitions de zone de préparation et de canal Snowflake. Vérifiez tous les chemins spécifiés dans les définitions de zone de préparation et de canal. Notez qu’un chemin spécifié dans la définition de canal est ajouté à tout chemin de la définition de zone de préparation.

Étape 2. Affichage de l’historique COPY de la table¶

Si les messages d’événement sont reçus et transférés, interrogez l’historique de l’activité de chargement de la table cible. Pour plus d’informations, voir COPY_HISTORY.

La colonne STATUS indique si un ensemble particulier de fichiers a été chargé, partiellement chargé ou non. La colonne FIRST_ERROR_MESSAGE fournit une raison lorsqu’une tentative est partiellement chargée ou échouée.

Notez que si un ensemble de fichiers pose plusieurs problèmes, la colonne FIRST_ERROR_MESSAGE indique seulement la première erreur rencontrée. Pour afficher toutes les erreurs dans les fichiers, exécutez une instruction COPY INTO <table> avec l’option de copie VALIDATION_MODE définie sur RETURN_ALL_ERRORS. L’option de copie VALIDATION_MODE commande une instruction COPY pour valider les données à charger et retourner les résultats en fonction de l’option de validation spécifiée. Aucune donnée n’est chargée lorsque cette option de copie est spécifiée. Dans l’instruction, faites référence à l’ensemble des fichiers que vous avez tenté de charger à l’aide de Snowpipe. Pour plus d’informations sur l’option de copie, voir COPY INTO <table>.

Si la sortie COPY_HISTORY n’inclut pas un ensemble de fichiers attendus, interrogez une période antérieure. Si les fichiers étaient des doublons d’anciens fichiers, l’historique de chargement aurait peut-être enregistré l’activité lors de la tentative de chargement des fichiers d’origine.

Étape 3 : Validation des fichiers de données¶

Si l’opération de chargement rencontre des erreurs dans les fichiers de données, la fonction de table COPY_HISTORY décrit la première erreur rencontrée dans chaque fichier. Pour valider les fichiers de données, interrogez la fonction VALIDATE_PIPE_LOAD.

Fichiers générés dans le stockage Microsoft Azure Data Lake Storage Gen2 non chargés¶

Actuellement, certains clients tiers n’appellent pas FlushWithClose dans l’API ADLS Gen 2 REST. Cette étape est nécessaire pour déclencher des événements qui notifient à Snowpipe de charger les fichiers. Essayez d’appeler l’API REST manuellement pour déclencher le chargement de ces fichiers par Snowpipe.

Pour plus d’informations sur la méthode Flush avec l’argument close voir https://docs.microsoft.com/en-us/dotnet/api/azure.storage.files.datalake.datalakefileclient.flush. Pour des informations de référence supplémentaires REST API concernant la charge du paramètre close voir https://docs.microsoft.com/en-us/rest/api/storageservices/datalakestoragegen2/path/update.

Chargements depuis Google Cloud Storage retardés ou fichiers manquants¶

Lorsque le chargement automatique de données à partir de Google Cloud Storage (GCS) à l’aide de messages Pub/Sub est configuré, le message d’événement pour un seul fichier mis en zone de préparation pouvait être lu. Par ailleurs, les chargements de données à partir de GCS pourraient être retardés de quelques minutes à une journée ou plus. En général, l’un ou l’autre de ces problèmes est causé lorsqu’un administrateur GCS n’a pas accordé au compte de service Snowflake le rôle Monitoring Viewer.

Pour les instructions, consultez « Étape 2 : accorder un accès à Snowflake à l’abonnement Pub/Sub » dans Configuration de l’accès sécurisé au stockage Cloud.

Appel de points de terminaison REST Snowpipe pour charger les données¶

Notifications d’erreur¶

La prise en charge des notifications d’erreur Snowpipe est disponible pour les comptes Snowflake hébergés sur Amazon Web Services (AWS). Les erreurs rencontrées lors d’un chargement de données déclenchent des notifications qui permettent l’analyse de vos fichiers de données. Pour plus d’informations, voir Notifications d’erreur Snowpipe.

Étapes de dépannage général¶

Effectuez les étapes suivantes pour identifier la cause de la plupart des problèmes empêchant le chargement des fichiers.

Étape 1 : Vérification des problèmes d’authentification¶

Les points de terminaison REST de Snowpipe utilisent l’authentification par paire de clés avec un jeton Web JSON (JWT).

Les SDKs d’intégration Python/Java génèrent le JWT pour vous. Lorsque vous appelez directement l’API REST, vous devez la générer. Si aucun jeton JWT n’est fourni dans la requête, l’erreur 400 est renvoyée par le point de terminaison REST. Si un jeton non valide est fourni, une erreur similaire à celle qui suit est renvoyée :

snowflake.ingest.error.IngestResponseError: Http Error: 401, Vender Code: 390144, Message: JWT token is invalid.

Copy

Étape 2. Affichage de l’historique COPY de la table¶

Interrogez l’historique de l’activité de chargement d’une table, y compris toute tentative de chargement de données à l’aide de Snowpipe. Pour plus d’informations, voir COPY_HISTORY. La colonne STATUS indique si un ensemble particulier de fichiers a été chargé, partiellement chargé ou non. La colonne FIRST_ERROR_MESSAGE fournit une raison lorsqu’une tentative est partiellement chargée ou échouée.

Étape 3 : Vérification du statut du canal¶

Si la fonction de table COPY_HISTORY affiche zéro résultat pour la charge de données que vous étudiez, récupérez l’état actuel du canal. Les résultats sont affichés au format JSON. Pour plus d’informations, voir SYSTEM$PIPE_STATUS.

La clé executionState identifie l’état d’exécution du canal. Par exemple, PAUSED indique que le canal est actuellement en pause. Le propriétaire du canal pourrait reprendre l’exécution du canal à l’aide de ALTER PIPE.

Si la valeur executionState indique un problème lors du démarrage du canal, vérifiez la clé error pour plus d’informations.

Étape 4 : Validation des fichiers de données¶

Autres problèmes¶

Ensemble de fichiers non chargés¶

Enregistrement COPY_HISTORY manquant pour le chargement¶

Vérifiez si l’instruction COPY INTO <table> dans le canal inclut la clause PATTERN. Si c’est le cas, vérifiez si l’expression régulière spécifiée comme valeur PATTERN filtre tous les fichiers en zone de préparation pour le chargement.

Pour modifier la valeur PATTERN, il est nécessaire de recréer le canal en utilisant la syntaxe CREATE OR REPLACE PIPE.

Pour plus d’informations, voir CREATE PIPE.

L’enregistrement COPY_HISTORY indique un sous-ensemble de fichiers déchargés¶

Si la sortie de la fonction COPY_HISTORY indique qu’un sous-ensemble de fichiers n’a pas été chargé, vous pouvez essayer d”« actualiser » le canal.

Cette situation peut survenir dans l’une ou l’autre des situations suivantes :

La zone de préparation externe était précédemment utilisée pour charger les données en lot à l’aide de la commande COPY INTO table.
REST API:
- La fonctionnalité externe pilotée par événement est utilisée pour appeler les APIs REST, et un backlog de fichiers de données existait déjà dans la zone de préparation externe avant que les événements soient configurés.
Auto-intégration :
- Un retard de traitement des fichiers de données existait déjà dans la zone de préparation externe avant la configuration des notifications d’événement.
- Un échec de notification d’événement a empêché la mise en file d’attente d’un ensemble de fichiers.

Pour charger les fichiers de données dans votre zone de préparation externe à l’aide du canal configuré, exécutez une instruction ALTER PIPE … REFRESH.

Duplication de données dans les tables cibles¶

Comparez les instructions COPY INTO <table> dans les définitions de tous les canaux du compte en exécutant SHOW PIPES ou en interrogeant la vue PIPES dans Account Usage ou la vue PIPES dans Information Schema. Si plusieurs canaux font référence au même emplacement de stockage Cloud dans les instructions COPY INTO <table>, vérifiez que les chemins de répertoire ne se chevauchent pas. Sinon, plusieurs canaux pourraient charger le même ensemble de fichiers de données dans les tables cibles. Par exemple, cette situation peut se produire lorsque plusieurs définitions de canaux font référence au même emplacement de stockage avec différents niveaux de granularité, tels que <storage_location>/path1/ et <storage_location>/path1/path2/. Dans cet exemple, si les fichiers sont en zone de préparation dans <storage_location>/path1/path2/, les deux canaux chargeront une copie des fichiers.

Impossible de recharger les données modifiées, données modifiées chargées par inadvertance¶

Snowflake utilise des métadonnées de chargement de fichiers pour éviter de recharger les mêmes fichiers et de dupliquer des données dans une table. Snowpipe empêche le chargement de fichiers portant le même nom même s’ils ont été modifiés ultérieurement, c’est-à-dire s’ils ont un eTag différent.

Étant donné que les métadonnées de chargement de fichiers sont associées à l’objet canal plutôt qu’à la table, ce qui suit se produit :

Les fichiers en zone de préparation portant le même nom que les fichiers déjà chargés sont ignorés, même s’ils ont été modifiés, par exemple si de nouvelles lignes ont été ajoutées ou si des erreurs dans le fichier ont été corrigées.
Les fichiers qui n’ont pas pu charger pendant une opération de canal COPY (par exemple, à cause d’un contenu de fichier non valide ou d’un échec d’accès à la zone de préparation) restent enregistrés dans les métadonnées du canal. Les noms de fichiers enregistrés sont ignorés par l’activité ultérieure du canal, y compris ALTER PIPE … REFRESH. Vous pouvez utiliser une instruction COPY pour charger manuellement les fichiers ignorés.
Tronquer la table à l’aide de la commande TRUNCATE TABLE n’entraîne pas la suppression des métadonnées de chargement de fichier de Snowpipe.

Cependant, les canaux ne conservent les métadonnées de l’historique de chargement que pendant 14 jours. Donc :

Fichiers modifiés et mis en zone de préparation dans les 14 jours:

Snowpipe ignore les fichiers modifiés qui sont à nouveau mis en zone de préparation. Pour recharger les fichiers de données modifiés, il est actuellement nécessaire de recréer l’objet de canal en utilisant la syntaxe CREATE OR REPLACE PIPE.

L’exemple suivant recrée le canal mypipe en se basant sur l’exemple de l’étape 1 de Préparation au chargement de données à l’aide de l’API REST Snowpipe :

create or replace pipe mypipe as copy into mytable from @mystage;

Copy

Fichiers modifiés et mis en zone de préparation après 14 jours:

Snowpipe charge à nouveau les données, ce qui peut entraîner des enregistrements en double dans la table cible.

De plus, des enregistrements en double peuvent être chargés dans la table cible si des instructions COPY INTO <table> sont exécutées, qui font référence aux mêmes compartiment/conteneur, chemin et table cible que dans les chargements Snowpipe actifs. Les historiques de chargement de la commande COPY et de Snowpipe sont stockés séparément dans Snowflake. Une fois que vous avez chargé des données en zone de préparation historiques, si vous devez charger des données manuellement à l’aide de la configuration de canal, exécutez une instruction ALTER PIPE … REFRESH. Voir Ensemble des fichiers non chargés dans cette rubrique pour plus d’informations.

Chargement d’horaires insérés en utilisant un CURRENT_TIMESTAMP antérieur aux valeurs LOAD_TIME dans la vue COPY_HISTORY¶

Les concepteurs de tables peuvent ajouter une colonne d’horodatage qui insère l’horodatage actuel comme valeur par défaut lorsque des enregistrements sont chargés dans une table. L’objectif est de saisir l’heure à laquelle chaque enregistrement est chargé dans la table ; toutefois, les horodatages sont antérieurs aux valeurs de la colonne LOAD_TIME renvoyées par la fonction COPY_HISTORY (Information Schema) ou la vue COPY_HISTORY (Account Usage). Cette différence temporelle est due au fait que CURRENT_TIMESTAMP est évalué lorsque l’opération de chargement est compilée dans les services Cloud plutôt que lorsque l’enregistrement est inséré dans la table, c’est-à-dire lorsque la transaction pour l’opération de chargement est validée.

Note

Nous ne recommandons pas actuellement d’utiliser les fonctions suivantes dans le copy_statement pour Snowpipe :

CURRENT_DATE
CURRENT_TIME
CURRENT_TIMESTAMP
GETDATE
LOCALTIME
LOCALTIMESTAMP
SYSDATE
SYSTIMESTAMP

Il est connu que les valeurs horaires insérées à l’aide de ces fonctions peuvent être antérieures de quelques heures aux valeurs LOAD_TIME retournées par la fonction COPY_HISTORY ou la vue COPY_HISTORY.

Utilisez plutôt l’option de copie INCLUDE_METADATA avec METADATA$START_SCAN_TIME qui fournit une représentation plus précise du chargement des enregistrements. Pour plus d’informations, voir des exemples CREATE PIPE.

Erreur : l’intégration `{0}` associée à la zone de préparation `{1}` est introuvable¶

003139=SQL compilation error:\nIntegration ''{0}'' associated with the stage ''{1}'' cannot be found.

Copy

Cette erreur peut se produire lorsque l’association entre la zone de préparation externe et l’intégration de stockage liée à la zone de préparation a été rompue. Cela se produit lorsque l’objet d’intégration de stockage a été recréé (avec CREATE OR REPLACE STORAGE INTEGRATION). Une zone de préparation est liée à une intégration de stockage à l’aide d’un ID caché plutôt que le nom de l’intégration de stockage. En coulisse, la syntaxe CREATE OR REPLACE détruit l’objet et le recrée avec un ID caché différent.

Si vous devez recréer une intégration de stockage après qu’elle a été liée à une ou plusieurs zones de préparation, vous devez rétablir l’association entre chaque zone de préparation et l’intégration de stockage en exécutant ALTER STAGE stage_name SET STORAGE_INTEGRATION = storage_integration_name, où :

stage_name est le nom de la zone de préparation.
storage_integration_name est le nom de l’intégration de stockage.

Erreurs relatives à Snowpipe faisant référence à des régions gouvernementales¶

Vous pouvez obtenir une erreur lorsque Snowpipe fait référence à un compartiment dans une région gouvernementale alors que le compte se trouve dans une région commerciale. Notez que les régions gouvernementales des fournisseurs Cloud n’autorisent pas l’envoi de notifications d’événements vers ou depuis d’autres régions commerciales. Pour plus d’informations, voir AWS GovCloud (US) et Azure Government.

Les fichiers de grande taille ne se chargent pas¶

L’ingestion automatique de Snowpipe s’appuie sur les notifications d’événements S3 de AWS pour déclencher les chargements de données. Lorsque des fichiers volumineux sont téléchargés vers S3 à l’aide de téléchargements en plusieurs parties, la notification d’événement générée est S3:ObjectCreated:CompleteMultipartUpload. Si la configuration de la notification des événements de votre compartiment S3 n’inclut que S3:ObjectCreated:Put, S3:ObjectCreated:Post ou S3:ObjectCreated:Copy, Snowpipe n’ingérera pas automatiquement ces fichiers volumineux. Les fichiers volumineux ne sont pas visibles dans les vues COPY_HISTORY ou dans les résultats de la fonction SYSTEM$PIPE_STATUS.

Pour éviter ce problème, assurez-vous que la configuration de la notification des événements de votre compartiment S3 inclut S3:ObjectCreated:CompleteMultipartUpload ou, pour simplifier, définissez-la sur All object create events pour capturer tous les événements de création d’objets.

Vous pouvez prendre les mesures de dépannage suivantes :

Vérifiez la taille du fichier :
- Confirmez que les fichiers qui ne sont pas ingérés sont d’une taille supérieure au seuil habituel pour les téléchargements en plusieurs parties (souvent environ 16 MiB, mais cela peut être configuré).
Vérifiez la configuration de la notification des événements S3 :
- Accédez à la console AWS S3.
- Sélectionnez le compartiment S3 associé à votre zone de préparation Snowpipe.
- Accédez à Properties, puis à Event notifications.
- Vérifiez que la configuration de la notification des événements inclut l’événement S3:ObjectCreated:CompleteMultipartUpload.
Solution recommandée : configurez All object create events :
- Dans la configuration de la notification des événements S3, modifiez le paramètre sur All object create events. Cela permet de s’assurer que tous les types d’événements de création d’objet sont envoyés à Snowflake.
Confirmez la livraison de l’événement :
- Après avoir effectué les modifications, téléchargez un fichier volumineux dans le compartiment S3 et surveillez les journaux AWS CloudWatch (s’ils sont configurés) ou le site COPY_HISTORY de Snowflake pour vous assurer que l’événement est bien transmis et que le fichier est ingéré.
- Vous pouvez également vérifier la fonction SYSTEM$PIPE_STATUS.
Passez en revue les paramètres de téléchargement multipartite de S3 :
- Si vous rencontrez toujours des problèmes, examinez les applications ou les processus qui chargent les fichiers volumineux vers S3. Vérifiez qu’ils utilisent des chargements en plusieurs parties et que leurs configurations sont correctes.

Dépannage de Snowpipe¶

Chargement de données automatique à l’aide de notifications d’événement de stockage Cloud¶

Notifications d’erreur¶

Étapes de dépannage général¶

Étape 1 : Vérification du statut du canal¶

Étape 2. Affichage de l’historique COPY de la table¶

Étape 3 : Validation des fichiers de données¶

Fichiers générés dans le stockage Microsoft Azure Data Lake Storage Gen2 non chargés¶

Snowpipe arrête le chargement des fichiers après la suppression de l’abonnement à une rubrique Amazon SNS¶

Chargements depuis Google Cloud Storage retardés ou fichiers manquants¶

Appel de points de terminaison REST Snowpipe pour charger les données¶

Notifications d’erreur¶

Étapes de dépannage général¶

Étape 1 : Vérification des problèmes d’authentification¶

Étape 2. Affichage de l’historique COPY de la table¶

Étape 3 : Vérification du statut du canal¶

Étape 4 : Validation des fichiers de données¶

Autres problèmes¶

Ensemble de fichiers non chargés¶

Enregistrement COPY_HISTORY manquant pour le chargement¶

L’enregistrement COPY_HISTORY indique un sous-ensemble de fichiers déchargés¶

Duplication de données dans les tables cibles¶

Impossible de recharger les données modifiées, données modifiées chargées par inadvertance¶

Chargement d’horaires insérés en utilisant un CURRENT_TIMESTAMP antérieur aux valeurs LOAD_TIME dans la vue COPY_HISTORY¶

Erreur : l’intégration {0} associée à la zone de préparation {1} est introuvable¶

Erreurs relatives à Snowpipe faisant référence à des régions gouvernementales¶

Les fichiers de grande taille ne se chargent pas¶

Erreur : l’intégration `{0}` associée à la zone de préparation `{1}` est introuvable¶