Script : Chargement des données JSON vers une table relationnelle

Le script annoté de ce tutoriel charge des données d’échantillon JSON dans des colonnes séparées d’une table relationnelle directement à partir de fichiers de données mis en zone de préparation, évitant ainsi de devoir recourir à une table de mise en zone de préparation.

Le script utilise les fonctions suivantes pour modifier les données mises en zone de préparation pendant le chargement :

Notez que le script inclut une instruction PUT, il ne peut donc pas être exécuté dans la page Worksheets Worksheet tab de l’interface Web Snowflake (ou toute autre interface qui ne prend pas en charge PUT). Au lieu de cela, nous vous recommandons d’utiliser SnowSQL, le client Snowflake CLI, pour exécuter le script.

Dans ce chapitre :

Conditions préalables

  • Un entrepôt virtuel actif et fonctionnel.

  • Exemple de fichier de données JSON (sales.json). Si cliquer sur le lien ne télécharge pas le fichier, cliquez avec le bouton droit sur le lien et enregistrez le lien/le fichier sur votre système de fichiers local.

    Copiez ensuite le fichier dans votre dossier/répertoire temporaire :

    • macOS ou Linux : //tmp

    • Windows : ouvrez une fenêtre d’explorateur et saisissez %TEMP% dans la barre d’adresse.

Exemple de données d’échantillon

Ce qui suit est une ligne représentative dans le fichier exemple JSON :

{
   "location": {
      "state_city": "MA-Lexington",
      "zip": "40503"
   },
   "sale_date": "2017-3-5",
   "price": "275836"
}

Script SQL

Note

L’instruction PUT dans ce script suppose que vous utilisez un environnement macOS ou Linux. Si vous utilisez Windows, ajustez l’instruction comme indiqué dans les commentaires.

/* Create a target relational table for the JSON data. The table is temporary, meaning it persists only for   */
/* the duration of the user session and is not visible to other users.                                        */

CREATE OR REPLACE TEMPORARY TABLE home_sales (
  city STRING,
  zip STRING,
  state STRING,
  type STRING DEFAULT 'Residential',
  sale_date timestamp_ntz,
  price STRING
  );

/* Create a named file format with the file delimiter set as none and the record delimiter set as the new     */
/* line character.                                                                                            */
/*                                                                                                            */
/* When loading semi-structured data (e.g. JSON), you should set CSV as the file format type (default value). */
/* You could use the JSON file format, but any error in the transformation would stop the COPY operation,     */
/* even if you set the ON_ERROR option to continue or skip the file.                                          */

CREATE OR REPLACE FILE FORMAT sf_tut_csv_format
  FIELD_DELIMITER = NONE
  RECORD_DELIMITER = '\\n';

/* Create a temporary internal stage that references the file format object.                                  */
/* Similar to temporary tables, temporary stages are automatically dropped at the end of the session.         */

CREATE OR REPLACE TEMPORARY STAGE sf_tut_stage
  FILE_FORMAT = sf_tut_csv_format;

/* Stage the data file.                                                                                       */
/*                                                                                                            */
/* Note that the example PUT statement references the macOS or Linux location of the data file.               */
/* If you are using Windows, execute the following statement instead:                                         */

-- PUT %TEMP%/sales.json @sf_tut_stage;

PUT file:///tmp/sales.json @sf_tut_stage;

/* Load the JSON data into the relational table.                                                              */
/*                                                                                                            */
/* A SELECT query in the COPY statement identifies a numbered set of columns in the data files you are        */
/* loading from. Note that all JSON data is stored in a single column ($1).                                   */

COPY INTO home_sales(city, state, zip, sale_date, price)
   FROM (SELECT SUBSTR(parse_json($1):location.state_city,4), SUBSTR(parse_json($1):location.state_city,1,2),
                parse_json($1):location.zip, to_timestamp_ntz(parse_json($1):sale_date), parse_json($1):price
         FROM @sf_tut_stage/sales.json.gz t)
   ON_ERROR = 'continue';

/* Query the relational table                                                                                 */

SELECT * from home_sales;