Carregamento em massa a partir do Microsoft Azure¶
Se você já possui uma conta Microsoft Azure e utiliza os contêineres de armazenamento de blobs Azure para armazenar e gerenciar seus arquivos de dados, você pode fazer uso de seus contêineres e caminhos de pastas existentes para carregamento em massa no Snowflake.
Este conjunto de tópicos descreve como usar o comando COPY para carregar dados de um contêiner Azure para tabelas.
Atualmente, o Snowflake só é compatível com o carregamento do armazenamento de blobs. O Snowflake é compatível com os seguintes tipos de contas de armazenamento:
Armazenamento de blobs
Data Lake Storage Gen2
Uso geral v1
Uso geral v2
O Snowflake não oferece suporte ao Data Lake Storage Gen1.
Nota
O carregamento a partir de blobs de bloco, blobs de anexação e blobs de página é compatível. Os arquivos descarregados são criados como blobs de bloco. Para obter mais informações sobre esses tipos de blobs, consulte a documentação do Azure sobre os tipos de blobs.
Se um namespace hierárquico estiver habilitado no Data Lake Storage Gen2, o Snowflake não oferecerá suporte à depuração de arquivos com o comando COPY. Um namespace hierárquico organiza os dados em diretórios e subdiretórios. O Azure só permite excluir diretórios vazios, o que significa que não é possível excluir diretórios recursivamente usando a opção PURGE com o comando COPY.
Como ilustrado no diagrama abaixo, o carregamento de dados de um contêiner Azure é realizado em duas etapas:
- Etapa 1:
O Snowflake assume que os arquivos de dados já tenham sido preparados em um contêiner Azure. Se eles ainda não tiverem sido preparados, use os utilitários/interfaces de upload fornecidos pela Microsoft para preparar os arquivos.
- Etapa 2:
Use o comando COPY INTO <tabela> para carregar o conteúdo do(s) arquivo(s) preparado(s) em uma tabela do banco de dados Snowflake. Você pode carregar diretamente do bucket, mas a Snowflake recomenda que você crie um estágio externo que faça referência ao bucket e use o estágio externo.
Independentemente do método utilizado, esta etapa requer um warehouse virtual atual e em funcionamento para a sessão se você executar o comando manualmente ou dentro de um script. O warehouse fornece os recursos computacionais para realizar a inserção real de linhas na tabela.
Dica
As instruções neste conjunto de tópicos supõem que você tenha lido Preparação para carregar dados e criado um formato de arquivo nomeado, se desejar.
Antes de começar, você também pode ler Considerações sobre o carregamento de dados para obter práticas recomendadas, dicas e outras orientações.
Próximos tópicos:
Tarefas de configuração (complete conforme necessário):
Tarefas de carregamento de dados (completas para cada conjunto de arquivos que você carrega):