PerformSnowflakeCortexOCR 2025.5.31.15¶
Pacote¶
com.snowflake.openflow.runtime | runtime-snowflake-processors-nar
Descrição¶
Realiza o reconhecimento óptico de caracteres (OCR) em documentos PDF usando as funções do Snowflake Cortex ML. Os documentos devem ser preparados em um estágio interno do Snowflake com a criptografia do lado do servidor ativada. O processador extrai o conteúdo de texto de PDFs e pode gerar os resultados como conteúdo de FlowFile ou como um atributo.
Requisito de entrada¶
REQUIRED
Oferece suporte a propriedades dinâmicas confidenciais¶
falso
Propriedades¶
Propriedade |
Descrição |
---|---|
Banco de dados |
O banco de dados Snowflake que contém o estágio |
Nome do arquivo |
O nome do arquivo no qual será realizado o OCR; ele deve ser carregado no estágio antes da execução do OCR. Os atributos do FlowFile pode ser referenciado por meio da linguagem de expressão. |
Tamanho máximo do atributo |
O tamanho máximo dos resultados do OCR que podem ser gravados em um atributo. Se os resultados do OCR excederem esse valor, o FlowFile será encaminhado para a falha. |
Modo OCR |
Especifica como o texto e a estrutura do documento devem ser extraídos. No modo “OCR”, somente o conteúdo de texto bruto é extraído, ignorando a formatação e as estruturas de tabela. No modo “LAYOUT”, a saída preserva as estruturas da tabela como markdown. |
Estratégia de saída |
Determina o destino da saída de resposta |
Atributo de resultados |
O nome do atributo no qual você deve escrever a resposta OCR. |
Esquema |
O esquema Snowflake que contém o estágio |
Serviço de conexão Snowflake |
Serviço de conexão de banco de dados para acessar o Snowflake |
Estágio |
O estágio Snowflake onde os PDFs serão armazenados temporariamente. O estágio deve ter a criptografia do lado do servidor ativada. Os atributos do FlowFile pode ser referenciado por meio da linguagem de expressão |
Relações¶
Nome |
Descrição |
---|---|
empty |
Os FlowFiles para os quais os resultados do OCR estão vazios |
failure |
FlowFiles que não podem ser processados são encaminhados para essa relação |
success |
Os FlowFiles processados com sucesso (com resultados não vazios do OCR) são encaminhados para essa relação |
Grava atributos¶
Nome |
Descrição |
---|---|
mime.type |
O tipo MIME do conteúdo de saída (text/plain quando a estratégia de saída for FLOW_FILE) |
snowflake.error.information |
Contém informações de erro se a operação do Snowflake Cortex OCR retornar um erro |