Categorias:: Funções de cadeia de caracteres e binários (funções de AI)

AI_PARSE_DOCUMENT¶

Nota

AI_PARSE_DOCUMENT é a versão atualizada do PARSE_DOCUMENT (SNOWFLAKE.CORTEX). Para obter a funcionalidade mais recente, use AI_PARSE_DOCUMENT.

Retorna o conteúdo extraído de um documento em uma preparação Snowflake como uma string formatada como JSON. Esta função oferece suporte a dois tipos de extração: Reconhecimento óptico de caracteres (Optical Character Recognition, OCR) e layout. Para obter mais informações, consulte Análise de documentos com AI_PARSE_DOCUMENT.

Sintaxe¶

AI_PARSE_DOCUMENT( <file_object> [, <options> ] [, <return_error_details> ] )

Argumentos¶

Obrigatório:

file_object: Um objeto FILE que especifica o documento a ser analisado e armazenado em uma área de preparação do Snowflake. Para obter informações sobre a criação de objetos de arquivo, consulte TO_FILE.

Opcional:

options

Um valor OBJECT que contém opções para análise de documentos. As chaves compatíveis são mostradas abaixo. Todas são opcionais.

'extract_images': Se definido como TRUE, a função extrai as imagens incorporadas no documento. Requer o modo LAYOUT.
'mode': especifica o modo de análise. Os modos compatíveis são:
- 'OCR': a função extrai somente texto. É o modo padrão.
- 'LAYOUT': a função extrai o layout e o texto, incluindo o conteúdo estrutural, como tabelas.
'page_split': se definido como TRUE, a função divide o documento em páginas e processa cada página separadamente. Este recurso oferece suporte apenas a documentos em PDF, PowerPoint (.pptx) e Word (.docx). Os documentos em outros formatos retornam um erro. O padrão é FALSE.

Dica

Para processar documentos longos que excedam o limite de token de AI_PARSE_DOCUMENT, defina essa opção como TRUE.
'page_filter': Uma matriz que especifica intervalos de páginas de um documento com várias páginas a serem processadas. Cada intervalo é um objeto com campos start e end que especificam a primeira (inclusiva) e a última (exclusiva) página do intervalo. Os índices de página começam em 0. Por exemplo, {'start': 0, 'end': 1} especifica a primeira página do documento.

Nota

Especificar page_filter implica page_split. Se você especificar intervalos de páginas, não será necessário definir também page_split.

return_error_details

Um sinalizador BOOLEAN que indica se os detalhes do erro devem ser retornados em caso de erro. Quando definida como TRUE, a função retorna um OBJECT que contém os campos value, error e metadata. O campo value contém os dados do documento analisado, o campo error contém a mensagem de erro (ou NULL em caso de sucesso) e metadata é um campo de nível superior, e não um subcampo da saída analisada. Consulte Comportamento de erro para obter detalhes.

Retornos¶

Um objeto JSON (como uma string) que contém os dados extraídos e os metadados associados. O argumento options determina a estrutura do objeto retornado.

Dica

Para utilizar a saída em SQL, converta-a em um valor OBJECT usando a função PARSE_JSON.

Se a opção 'page_split' estiver definida, a saída terá a seguinte estrutura:

"pages": uma matriz de objetos JSON, cada um contendo texto extraído do documento. Se o documento tiver apenas uma página, a saída ainda conterá uma matriz "pages" (que contém um único objeto). Cada página tem os seguintes campos:

"content": texto simples (no modo OCR) ou texto formatado em Markdown (no modo LAYOUT).

"index": o índice da página no arquivo, começando em 0. Os números de página e os formatos de especificados no documento são ignorados.

"metadata": contém metadados sobre o documento, como contagem de páginas.

Se 'page_split' for FALSE ou não estiver presente, a saída terá a seguinte estrutura:

"content": texto simples (no modo OCR) ou texto formatado em Markdown (no modo LAYOUT).

"metadata": contém metadados sobre o documento, como contagem de páginas.

Se a opção "extract_images" é definida como TRUE, a saída inclui um campo adicional:

"images": uma matriz de objetos JSON, cada um representando uma imagem extraída. Cada objeto de imagem tem os seguintes campos:

"id": um identificador exclusivo para a imagem.

"top_left_x", "top_left_y", "bottom_right_x", "bottom_right_y": as coordenadas da caixa delimitadora da imagem na página.

"image_base64": os dados da imagem extraída codificados como uma cadeia de caracteres base64.

Comportamento em caso de erro¶

Por padrão, se AI_PARSE_DOCUMENT não puder processar a entrada, a função retornará NULL. Se a consulta processar várias linhas, as linhas com erros retornarão NULL e não impedirão a conclusão da consulta.

O valor de retorno em caso de erro depende do argumento return_error_details. A tabela a seguir mostra o valor de retorno com base no argumento return_error_details:

return_error_details

Valor de retorno

Descrição

FALSE

Não passado

NULL

TRUE

OBJECT com os campos value, error e metadata

value: um OBJECT contendo os dados do documento analisados ou NULL se ocorrer um erro.

error: um valor VARCHAR que contém a mensagem de erro se ocorreu um erro ou NULL se a função foi bem-sucedida. O campo error dentro de value (renomeado de errorInformation) contém detalhes do erro por documento, quando presentes.

metadata: um OBJECT contendo metadados do documento, como a contagem de páginas. Esse campo está no nível superior, em vez de dentro da saída analisada.

`return_error_details`	Valor de retorno	Descrição
FALSE Não passado	NULL
TRUE	OBJECT com os campos `value`, `error` e `metadata`	`value`: um OBJECT contendo os dados do documento analisados ou NULL se ocorrer um erro. `error`: um valor VARCHAR que contém a mensagem de erro se ocorreu um erro ou NULL se a função foi bem-sucedida. O campo `error` dentro de `value` (renomeado de `errorInformation`) contém detalhes do erro por documento, quando presentes. `metadata`: um OBJECT contendo metadados do documento, como a contagem de páginas. Esse campo está no nível superior, em vez de dentro da saída analisada.

Para obter mais informações sobre o tratamento de erros para funções de AI, consulte Snowflake Cortex AI Function: Multirow error handling improvements.

Exemplos¶

Para exemplos, consulte exemplos de AI_PARSE_DOCUMENT.