PerformSnowflakeCortexOCR 2025.5.31.15

Pacote

com.snowflake.openflow.runtime | runtime-snowflake-processors-nar

Descrição

Realiza o reconhecimento óptico de caracteres (OCR) em documentos PDF usando as funções do Snowflake Cortex ML. Os documentos devem ser preparados em um estágio interno do Snowflake com a criptografia do lado do servidor ativada. O processador extrai o conteúdo de texto de PDFs e pode gerar os resultados como conteúdo de FlowFile ou como um atributo.

Tags

ai, cortex, document, ml, ocr, openflow, pdf, snowflake

Requisito de entrada

REQUIRED

Oferece suporte a propriedades dinâmicas confidenciais

falso

Propriedades

Propriedade

Descrição

Banco de dados

O banco de dados Snowflake que contém o estágio

Nome do arquivo

O nome do arquivo no qual será realizado o OCR; ele deve ser carregado no estágio antes da execução do OCR. Os atributos do FlowFile pode ser referenciado por meio da linguagem de expressão.

Tamanho máximo do atributo

O tamanho máximo dos resultados do OCR que podem ser gravados em um atributo. Se os resultados do OCR excederem esse valor, o FlowFile será encaminhado para a falha.

Modo OCR

Especifica como o texto e a estrutura do documento devem ser extraídos. No modo “OCR”, somente o conteúdo de texto bruto é extraído, ignorando a formatação e as estruturas de tabela. No modo “LAYOUT”, a saída preserva as estruturas da tabela como markdown.

Estratégia de saída

Determina o destino da saída de resposta

Atributo de resultados

O nome do atributo no qual você deve escrever a resposta OCR.

Esquema

O esquema Snowflake que contém o estágio

Serviço de conexão Snowflake

Serviço de conexão de banco de dados para acessar o Snowflake

Estágio

O estágio Snowflake onde os PDFs serão armazenados temporariamente. O estágio deve ter a criptografia do lado do servidor ativada. Os atributos do FlowFile pode ser referenciado por meio da linguagem de expressão

Relações

Nome

Descrição

empty

Os FlowFiles para os quais os resultados do OCR estão vazios

failure

FlowFiles que não podem ser processados são encaminhados para essa relação

success

Os FlowFiles processados com sucesso (com resultados não vazios do OCR) são encaminhados para essa relação

Grava atributos

Nome

Descrição

mime.type

O tipo MIME do conteúdo de saída (text/plain quando a estratégia de saída for FLOW_FILE)

snowflake.error.information

Contém informações de erro se a operação do Snowflake Cortex OCR retornar um erro

Consulte também