Cópia de dados de um estágio do Google Cloud Storage

Carregue os dados de seus arquivos preparados para a tabela de destino.

Neste tópico:

Carregamento de seus dados

Execute COPY INTO <tabela> para carregar seus dados na tabela de destino.

Nota

O carregamento de dados requer um warehouse. Se você estiver usando um warehouse que não esteja configurado para retomada automática, execute ALTER WAREHOUSE para retomar o warehouse. Note que iniciar o warehouse pode demorar até cinco minutos.

ALTER WAREHOUSE mywarehouse RESUME;
Copy

Importante

A lista de objetos retornados para um estágio externo pode incluir um ou mais “blobs de diretório”; essencialmente, caminhos que terminam em um caractere de barra (/), por exemplo:

LIST @my_gcs_stage;

+---------------------------------------+------+----------------------------------+-------------------------------+
| name                                  | size | md5                              | last_modified                 |
|---------------------------------------+------+----------------------------------+-------------------------------|
| my_gcs_stage/load/                    |  12  | 12348f18bcb35e7b6b628ca12345678c | Mon, 11 Sep 2019 16:57:43 GMT |
| my_gcs_stage/load/data_0_0_0.csv.gz   |  147 | 9765daba007a643bdff4eae10d43218y | Mon, 11 Sep 2019 18:13:07 GMT |
+---------------------------------------+------+----------------------------------+-------------------------------+
Copy

Esses blobs são listados quando os diretórios são criados no console do Google Cloud Platform, em vez de usar qualquer outra ferramenta fornecida pelo Google.

Instruções COPY que fazem referência a um estágio podem falhar quando a lista de objetos inclui blobs de diretório. Para evitar erros, recomendamos usar a correspondência de padrão de arquivo para identificar os arquivos para inclusão (ou seja, a cláusula PATTERN) quando a lista de arquivos para um estágio inclui blobs de diretório. Para um exemplo, consulte Carregamento de dados usando a correspondência de padrões (neste tópico). Como alternativa, é possível definir ON_ERROR = SKIP_FILE na instrução COPY.

Carregamento de dados usando a correspondência de padrões

O exemplo a seguir carrega dados de arquivos no estágio denominado my_gcs_stage criado em Configuração de uma integração para o Google Cloud Storage. Usando a correspondência de padrões, a instrução só carrega arquivos cujos nomes começam com a cadeia de caracteres sales:

COPY INTO mytable
  FROM @my_gcs_stage
  PATTERN='.*sales.*.csv';
Copy

Observe que as opções de formato de arquivo não são especificadas porque um formato de arquivo nomeado foi incluído na definição do estágio.

Carregamento de dados usando um caminho / prefixo

O exemplo a seguir carrega todos os arquivos com o caminho data/files (ou seja, prefixo) em seu bucket de armazenamento em nuvem usando o formato de arquivo nomeado my_csv_format criado em Preparação para carregar dados. Observe que um caminho pode ser combinado com a correspondência de padrões:

COPY INTO mytable
  FROM @my_gcs_stage/mybucket/data/files
  FILE_FORMAT = (FORMAT_NAME = my_csv_format);
Copy

Carregamento de dados usando opções de formato de arquivo ad hoc

O seguinte exemplo ad hoc carrega dados de todos os arquivos no bucket de armazenamento em nuvem. O comando COPY especifica as opções de formato de arquivo em vez de fazer referência a um formato de arquivo nomeado. Este exemplo carrega arquivos CSV com um delimitador de campo de canal (|). O comando COPY ignora a primeira linha nos arquivos de dados.

Observe que a referência de integração de armazenamento é necessária em carregamentos de dados ad hoc, ou seja, quando a instrução COPY não faz referência a um estágio:

COPY INTO mytable
  FROM 'gcs://mybucket/data/files'
  STORAGE_INTEGRATION = myint
  FILE_FORMAT = (TYPE = CSV FIELD_DELIMITER = '|' SKIP_HEADER = 1);
Copy

Validação de seus dados

Antes de carregar seus dados, você pode validar se os dados nos arquivos carregados serão carregados corretamente.

Para validar dados em um arquivo carregado, execute COPY INTO <tabela> no modo de validação usando o parâmetro VALIDATION_MODE. O parâmetro VALIDATION_MODE retorna os erros que encontra no arquivo. Você pode então modificar os dados no arquivo para garantir que eles sejam carregados sem erros.

Além disso, COPY INTO <tabela> fornece a opção de cópia ON_ERROR para especificar uma ação a ser executada se forem encontrados erros em um arquivo durante o carregamento.

Monitoramento de carregamentos de dados

O Snowflake retém dados históricos para os comandos COPY INTO executados dentro dos 14 dias anteriores. Os metadados podem ser usados para monitorar e gerenciar o processo de carregamento, incluindo a exclusão de arquivos após a conclusão do carregamento:

  • Monitore o status de cada comando COPY INTO <tabela> na página History History tab de Classic Console.

  • Use a LOAD_HISTORY exibição do Information Schema para recuperar o histórico dos dados carregados nas tabelas usando o comando COPYINTO.