Cortex AI 함수: 문서¶
Snowflake는 Cortex AI 함수와 같은 고급 AI 기반 문서 인텔리전스 기능을 제공합니다. 이러한 함수는 간단한 SQL을 사용하여 분석, 자동화, 인텔리전스 애플리케이션을 강화하기 위해 다양한 문서 유형에서 정보를 처리, 구문 분석, 분류 및 추출하는 데 도움이 됩니다. 문서 함수는 다음 작업에 도움이 됩니다.
**문서를 구문 분석**하여 비정형 텍스트와 레이아웃을 검색 가능하고 분석 가능한 정형 콘텐츠로 변환합니다.
문서에서 **정형 정보를 추출**합니다(엔터티, 테이블 또는 필드).
**문서 유형을 분류**하여 다운스트림 워크플로 및 분석을 수행합니다.
Cortex 문서 처리 함수를 결합하여 검색 증강 생성(RAG) 파이프라인, 인텔리전스 검색 및 챗봇 시스템, 대규모 문서 분석을 구축합니다. 다음 그림은 Cortex 문서 처리 함수가 구성 요소를 혼합하고 일치시켜 맞춤형 솔루션을 구축할 수 있는 구성 가능한 프레임워크를 형성하는 방법을 보여줍니다.
문서 함수¶
문서 처리를 위한 코어 Cortex AI 함수는 다음과 같습니다.
AI_PARSE_DOCUMENT: 레이아웃과 컨텍스트를 유지하면서 디지털 네이티브 또는 스캔 문서를 서식 있는 텍스트로 변환합니다. 선택적으로 문서에서 이미지를 추출합니다. 의미 체계 검색, RAG 파이프라인, 요약 워크플로에 적합합니다. 전체 문서 내용을 이해해야 하는 문서 분석에 적합합니다.
AI_EXTRACT: 문서에서 고품질의 정형 정보 추출을 제공합니다. 텍스트, 테이블, 확인란, 필기 및 기타 시각적 요소를 이해합니다. 스키마를 기반으로 정형 데이터 추출을 전문으로 합니다.
기타 Cortex AI 함수는 문서 처리 워크플로에 유용합니다. 문서 페이지의 이미지를 이러한 함수에 직접 전달하거나 위의 기본 문서 함수 중 하나를 사용하여 텍스트를 추출하고 함수 중 하나를 사용하여 해당 텍스트를 처리할 수 있습니다.
AI_COMPLETE: 가장 일반적으로 사용되는 AI 함수인 AI_COMPLETE는 사용자가 제공한 프롬프트를 기반으로 텍스트 완성을 생성하므로 문서에서 텍스트를 추출하거나 변환하는 등 다양한 작업에 사용할 수 있습니다.
AI_CLASSIFY: 텍스트 내용을 사용자가 정의한 클래스(예: 청구서, 계약서 또는 보고서)로 분류합니다.
다음 텍스트 처리 AI 함수를 사용하여 문서에서 추출된 텍스트를 추가로 분석하거나 변환할 수 있습니다.
AI_SENTIMENT: 텍스트 내용의 감정을 분석합니다.
AI_TRANSLATE: 언어 간에 텍스트 내용을 번역합니다.
SUMMARIZE: 텍스트 내용의 간결한 요약을 생성합니다.
사용 사례¶
문서 처리를 위한 Cortex AI 함수는 다양한 사용 사례를 해결하기 위해 함께 사용하거나 개별적으로 사용하도록 설계되었으며, 다음 두 가지 사용 사례에 적합합니다.
챗봇 및 엔터프라이즈 검색 서비스를 위한 RAG 파이프라인 구축¶
AI_PARSE_DOCUMENT에서 처리한 문서는 Cortex Search Service에 의해 인덱싱할 수 있으며, 검색 증강 생성(RAG) 엔진 역할을 수행하여 사용자 쿼리에 대한 언어 모델 응답을 개선할 수 있습니다. 이 시나리오에서는 Cortex Search Service를 사용하여 쿼리와 관련된 문서를 찾은 다음 이러한 문서를 더 상황에 맞는 응답을 생성하기 위한 프롬프트의 일부로 AI_COMPLETE에 전달합니다.
워크플로 및 분석을 간소화하기 위한 문서 처리 파이프라인 구축하기¶
Cortex 문서 처리 AI 함수는 모듈식 구성 요소를 사용하여 지능적이고 유연하며 확장 가능한 문서 처리 파이프라인을 구축하는 데 도움이 됩니다. 이러한 파이프라인은 다양한 형식의 문서를 수집하고 실행 가능한 데이터로 변환하여 다음과 같은 워크플로를 구축할 수 있도록 합니다.
스키마 기반 추출: 자연어 스키마를 적용하여 문서 세트에서 단일 엔터티부터 복잡한 테이블 형식 데이터에 이르기까지 다양한 엔터티를 추출합니다.
문서에 대한 Q&A: 자연어로 된 문서에 대해 질문합니다.
텍스트 및 레이아웃 추출: 문서 텍스트(레이아웃 포함 또는 제외)를 캡처하여 엔터티를 추출하고, 요약을 생성하고, 다른 AI 함수를 사용하여 분석을 수행합니다.
분류: 데이터를 수집할 때 문서 유형(예: “송장”, “계약”, “보고서”)을 결정하여 각 유형을 적절한 처리 워크플로로 라우팅합니다.
사용자 지정 추출 및 분류 모델을 공유하는 모델 레지스트리를 구축합니다. 모델 레지스트리는 조직에 특정한 사용자 지정 사용 사례에 맞게 미세 조정된 문서 추출 모델을 저장합니다. 팀 전체에서 이러한 모델을 재사용하면 시간과 노력을 절약할 수 있습니다.