Configuração do Snowflake para Spark no Qubole

Para configurar o Snowflake para Spark no Qubole, basta adicionar o Snowflake como um armazenamento de dados do Qubole. Este tópico fornece instruções passo a passo para realizar esta tarefa usando a UI do Qubole Data Service (QDS).

Nota

Você também pode usar a API REST do QDS para adicionar o Snowflake como um armazenamento de dados. Para instruções passo a passo, consulte Adição de um data warehouse do Snowflake como um armazenamento de dados (na documentação Qubole).

Neste tópico:

Pré-requisitos

  • Você deve ser um administrador de sistema do QDS para adicionar um armazenamento de dados.

  • Você deve ter uma conta da edição Qubole Enterprise.

  • A função usada na conexão precisa de privilégios USAGE e CREATE STAGE no esquema que contém a tabela que você lerá ou gravará via Qubole.

Preparação de um local externo para consultas de longo prazo

Se alguns de seus trabalhos excederem 36 horas de duração, considere preparar um local externo para usar na troca de dados entre Snowflake e Spark. Para obter mais informações, consulte Preparação de um local externo para arquivos.

Adição do Snowflake como um armazenamento de dados na UI do QDS

  1. A partir do menu Home, clique em Explore.

  2. Na lista suspensa na página Explore, selecione + Add Data Store.

  3. Digite as informações necessárias nos seguintes campos:

    • Data Store Name: Digite o nome do armazenamento de dados a ser criado.

    • Database Type: Selecione ‘Snowflake”.

    • Catalog Name: Digite o nome do catálogo do Snowflake.

    • Database Name: Digite o nome do banco de dados do Snowflake onde os dados são armazenados.

    • Warehouse Name: Digite o nome do warehouse virtual do Snowflake para usar para consultas.

    • Host Address: Insira a URL base de sua conta Snowflake (por exemplo, myorganization-myaccount.snowflakecomputing.com). Consulte Identificadores de conta para detalhes sobre como especificar o identificador de sua conta nesta URL.

    • Username: Digite o nome de login para seu usuário Snowflake (usado para se conectar ao host).

    • Password: Digite a senha para seu usuário do Snowflake (usado para se conectar ao host).

    Observe que todos os valores diferenciam maiúsculas e minúsculas, exceto Host Address.

  4. Clique em Save para criar o armazenamento de dados.

Repita estas etapas para cada banco de dados do Snowflake que você deseja adicionar como um armazenamento de dados. Ou você pode editar o armazenamento de dados para alterar o banco de dados do Snowflake ou quaisquer outras propriedades do armazenamento de dados (por exemplo, alterar o warehouse virtual usado para consultas).

Nota

Após adicionar um armazenamento de dados do Snowflake, reinicie o cluster do Spark (se você estiver usando um cluster do Spark já em funcionamento). Reiniciar o cluster do Spark instala os arquivos .jar para o Conector do Snowflake para Spark e o driver Snowflake JDBC.

Verificação do armazenamento de dados do Snowflake no Qubole

Para verificar se o armazenamento de dados do Snowflake foi criado e está ativado, clique na lista suspensa na parte superior esquerda da página Explore. Um ponto verde indica que o armazenamento de dados foi ativado.

Você também deve verificar se o widget do navegador de tabelas no painel esquerdo da página Explore exibe todas as tabelas no banco de dados do Snowflake especificado no armazenamento de dados.

Pushdown de consulta no Qubole

As consultas do Spark se beneficiam da otimização automática de pushdown das consultas do Snowflake, o que melhora o desempenho. Por padrão, o pushdown de consulta do Snowflake é ativado no Qubole.

Para obter mais detalhes sobre o pushdown, consulte Envio do processamento de consultas do Spark para o Snowflake (blog do Snowflake).