Carregamento em massa a partir do Microsoft Azure

Se você já possui uma conta Microsoft Azure e utiliza os contêineres de armazenamento de blobs Azure para armazenar e gerenciar seus arquivos de dados, você pode fazer uso de seus contêineres e caminhos de pastas existentes para carregamento em massa no Snowflake.

Este conjunto de tópicos descreve como usar o comando COPY para carregar dados de um contêiner Azure para tabelas.

Atualmente, o Snowflake só é compatível com o carregamento do armazenamento de blobs. O Snowflake é compatível com os seguintes tipos de contas de armazenamento:

  • Armazenamento de blobs

  • Data Lake Storage Gen2

  • Uso geral v1

  • Uso geral v2

O Snowflake não oferece suporte ao Data Lake Storage Gen1.

Nota

O carregamento a partir de blobs de bloco, blobs de anexação e blobs de página é compatível. Os arquivos descarregados são criados como blobs de bloco. Para obter mais informações sobre esses tipos de blobs, consulte a documentação do Azure sobre os tipos de blobs.

Se um namespace hierárquico estiver habilitado no Data Lake Storage Gen2, o Snowflake não oferecerá suporte à depuração de arquivos com o comando COPY. Um namespace hierárquico organiza os dados em diretórios e subdiretórios. O Azure só permite excluir diretórios vazios, o que significa que não é possível excluir diretórios recursivamente usando a opção PURGE com o comando COPY.

Como ilustrado no diagrama abaixo, o carregamento de dados de um contêiner Azure é realizado em duas etapas:

Etapa 1:

O Snowflake assume que os arquivos de dados já tenham sido preparados em um contêiner Azure. Se eles ainda não tiverem sido preparados, use os utilitários/interfaces de upload fornecidos pela Microsoft para preparar os arquivos.

Etapa 2:

Use o comando COPY INTO <tabela> para carregar o conteúdo do(s) arquivo(s) preparado(s) em uma tabela do banco de dados Snowflake. Você pode carregar diretamente do bucket, mas a Snowflake recomenda que você crie um estágio externo que faça referência ao bucket e use o estágio externo.

Independentemente do método utilizado, esta etapa requer um warehouse virtual atual e em funcionamento para a sessão se você executar o comando manualmente ou dentro de um script. O warehouse fornece os recursos computacionais para realizar a inserção real de linhas na tabela.

Visão geral do carregamento de dados

Dica

As instruções neste conjunto de tópicos supõem que você tenha lido Preparação para carregar dados e criado um formato de arquivo nomeado, se desejar.

Antes de começar, você também pode ler Considerações sobre o carregamento de dados para obter práticas recomendadas, dicas e outras orientações.

Próximos tópicos: