Considérations pour les données semi-structurées stockées dans VARIANT¶

Ce chapitre fournit des bonnes pratiques, des lignes directrices générales et des remarques importantes pour le chargement et l’utilisation de données avec des valeurs VARIANT qui contiennent des données semi-structurées. Il peut s’agir de données hiérarchiques construites explicitement ou de données que vous avez chargées à partir de formats de données semi-structurées tels que JSON, Avro, ORC et Parquet. Les informations contenues dans ce chapitre ne s’appliquent pas nécessairement aux données XML.

Limites relatives à la taille des données¶

Une valeur VARIANT peut avoir une taille maximale de 128 MB de données non compressées. Toutefois, dans la pratique, la taille maximale est généralement inférieure en raison d’une surcharge interne. La taille maximale dépend également de l’objet stocké.

Pour plus d’informations, voir VARIANT.

Stockage de données semi-structurées dans une VARIANT colonne vs. aplatissement de la structure imbriquée¶

Si vous n’êtes pas encore sûr des types d’opérations que vous voulez effectuer sur vos données semi-structurées, Snowflake recommande de stocker les données dans une colonne VARIANT pour le moment.

Pour les données qui sont le plus souvent régulières et n’utilisent que des types de données natifs pour le format semi-structuré que vous utilisez (chaînes et entiers pour le format JSON), les exigences de stockage et les performances de requête pour les opérations sur les données relationnelles et les données dans une colonne VARIANT sont très similaires.

Pour un meilleur élagage et une consommation de stockage réduite, nous vous recommandons d’aplatir votre OBJECT et vos données clés en colonnes relationnelles séparées si vos données semi-structurées incluent :

Des dates et horodatages, et plus particulièrement des dates et horodatages non ISO 8601 en tant que valeurs de chaîne.
Des nombres dans les chaînes.
Des tableaux.

Les valeurs non natives (telles que les dates et les horodatages en JSON), sont stockées sous forme de chaînes lorsqu’elles sont chargées dans une colonne VARIANT. Les opérations sur ces valeurs peuvent donc être plus lentes et consommer plus d’espace que lorsqu’elles sont stockées dans une colonne relationnelle avec le type de données correspondant.

Si vous connaissez les cas d’utilisation des données, effectuez des tests sur un ensemble de données classique. Chargez l’ensemble de données dans une colonne VARIANT d’une table. Utilisez la fonction FLATTEN pour extraire les OBJECTs et les clés que vous souhaitez interroger vers une table séparée. Exécutez un ensemble classique de requêtes sur les deux tables pour voir quelle structure fournit les meilleures performances.

Valeurs NULL¶

Snowflake prend en charge deux types de valeurs NULL dans les données semi-structurées :

SQL NULL : SQL NULL signifie la même chose pour les types de données semi-structurées que pour les types de données structurées : la valeur est manquante ou inconnue.
JSON null (parfois appelé « VARIANT NULL ») : dans une colonne VARIANT, les valeurs JSON null sont stockées sous la forme d’une chaîne contenant le mot « null » pour les distinguer des valeurs SQL NULL.

L’exemple suivant oppose SQL NULL et JSON null :

SELECT PARSE_JSON(NULL) AS "SQL NULL",
       PARSE_JSON('null') AS "JSON NULL",
       PARSE_JSON('[ null ]') AS "JSON NULL",
       PARSE_JSON('{ "a": null }'):a AS "JSON NULL",
       PARSE_JSON('{ "a": null }'):b AS "ABSENT VALUE";

+----------+-----------+-----------+-----------+--------------+
| SQL NULL | JSON NULL | JSON NULL | JSON NULL | ABSENT VALUE |
|----------+-----------+-----------+-----------+--------------|
| NULL     | null      | [         | null      | NULL         |
|          |           |   null    |           |              |
|          |           | ]         |           |              |
+----------+-----------+-----------+-----------+--------------+

Pour convertir une valeur null JSON en une valeur NULL SQL, convertissez-la en chaîne. Par exemple :

SELECT PARSE_JSON('{ "a": null }'):a,
       TO_CHAR(PARSE_JSON('{ "a": null }'):a);

+-------------------------------+----------------------------------------+
| PARSE_JSON('{ "A": NULL }'):A | TO_CHAR(PARSE_JSON('{ "A": NULL }'):A) |
|-------------------------------+----------------------------------------|
| null                          | NULL                                   |
+-------------------------------+----------------------------------------+

Lorsque vous construisez une valeur ARRAY, vous pouvez spécifier des éléments de tableau qui contiennent des valeurs NULL SQL ou des valeurs null JSON. L’exemple suivant construit un tableau avec les deux types de valeurs NULL :

SELECT ARRAY_CONSTRUCT(1, NULL, PARSE_JSON('null')) AS array_with_null_values;

+------------------------+
| ARRAY_WITH_NULL_VALUES |
|------------------------|
| [                      |
|   1,                   |
|   undefined,           |
|   null                 |
| ]                      |
+------------------------+

La sortie montre que les valeurs NULL SQL sont des éléments undefined d’un tableau, tandis que les valeurs null JSON sont des éléments null.

Fichiers de données semi-structurées et création de sous-colonnes¶

Lorsque des données semi-structurées sont insérées dans une colonne VARIANT, Snowflake applique certaines règles pour extraire autant de données que possible sous forme de colonnes. Le reste des données est stocké sous la forme d’une seule colonne dans une structure semi-structurée analysée.

Par défaut, Snowflake extrait un maximum de 200 éléments par partition, par table. Pour augmenter cette limite, contactez le support Snowflake.

Éléments non extraits¶

Les éléments présentant les caractéristiques suivantes ne sont pas extraits dans une colonne :

Les éléments qui contiennent ne serait-ce qu’une seule valeur « null » ne sont pas extraits dans une colonne. Cela s’applique aux éléments avec des valeurs « null » et non aux éléments avec des valeurs manquantes, qui sont représentés sous forme de colonne.

Cette règle garantit qu’aucune information n’est perdue (c’est-à-dire que la différence entre les valeurs VARIANT « null » et les valeurs SQL NULL n’est pas perdue).
Éléments contenant plusieurs types de données. Par exemple :

L’élément foo dans une ligne contient un nombre :
```
{"foo":1}
```
Le même élément dans une autre ligne contient une chaîne :
```
{"foo":"1"}
```

Impact de l’extraction sur les requêtes¶

Lorsque vous interrogez un élément semi-structuré, le moteur d’exécution de Snowflake se comporte différemment selon qu’un élément a été extrait ou non.

Si l’élément a été extrait dans une colonne, le moteur analyse uniquement la colonne extraite.
Si l’élément n’a pas été extrait dans une colonne, le moteur doit analyser toute la structure JSON, puis pour chaque ligne, parcourir la structure pour émettre les valeurs. Cela a un impact sur les performances.

Pour éviter l’impact sur les performances des éléments non extraits, procédez comme suit :

Extrayez les éléments de données semi-structurées contenant des valeurs « null » dans des colonnes relationnelles avant leur chargement.

Sinon, si les valeurs « null » de vos fichiers indiquent des valeurs manquantes et n’ont pas d’autre signification particulière, nous vous recommandons de définir l”option de format de fichier STRIP_NULL_VALUES sur TRUE lors du chargement des fichiers de données semi-structurées. Cette option supprime les éléments OBJECT ou ARRAY contenant des valeurs « nulles ».
Assurez-vous que chaque élément unique stocke des valeurs d’un seul type de données natif du format (par exemple, une chaîne ou un nombre pour JSON).

Analyse de NULL valeurs¶

Pour sortir une valeur SQL NULL à partir d’une paire valeur-clé VARIANT "null", utilisez la fonction TO_CHAR , TO_VARCHAR pour convertir la valeur en tant que chaîne, par exemple :

SELECT column1
  , TO_VARCHAR(PARSE_JSON(column1):a)
FROM
  VALUES('{"a" : null}')
, ('{"b" : "hello"}')
, ('{"a" : "world"}');

+-----------------+-----------------------------------+
| COLUMN1         | TO_VARCHAR(PARSE_JSON(COLUMN1):A) |
|-----------------+-----------------------------------|
| {"a" : null}    | NULL                              |
| {"b" : "hello"} | NULL                              |
| {"a" : "world"} | world                             |
+-----------------+-----------------------------------+