Document AI¶
Document AI 란 무엇입니까?¶
Document AI 는 독자적인 대용량 언어 모델(LLM)인 Arctic-TILT을 사용해 문서에서 데이터를 추출하는 Snowflake AI 기능입니다. Document AI 는 다양한 형식의 문서를 처리하고 텍스트가 많은 단락과 로고, 필기 텍스트(서명), 체크 표시와 같은 그래픽 형식의 내용에서 정보를 추출합니다. Document AI 를 사용하면 청구서이나 재무제표와 같은 특정 유형의 새 문서를 지속적으로 처리하기 위한 파이프라인을 준비할 수 있습니다.
Document AI 는 제로샷 추출과 미세 조정을 모두 제공합니다. 제로샷이란 기초 모델이 이전에 문서를 본 적이 없더라도 문서 유형에 특정한 정보를 찾아 추출할 수 있음을 의미합니다. 이는 기초 모델이 다양한 문서로 이루어진 대량의 데이터를 기반으로 훈련되었기 때문에 모델이 처리되는 문서의 유형을 광범위하게 이해한다는 것을 의미합니다.
또한 사용 사례와 관련된 문서에 대해 모델을 훈련하여 결과를 개선하기 위해 Snowflake Arctic-TILT 모델을 미세 조정할 수 있습니다. 미세 조정된 모델(사용된 훈련 데이터 포함)은 본인만 사용할 수 있으며 다른 Snowflake 고객과 공유되지 않습니다.
Document AI 사용 시점¶
Document AI 가 가장 적합한 경우는 다음과 같습니다.
문서의 비정형 데이터를 테이블의 정형 데이터로 변환하려고 합니다.
특정 유형의 새 문서를 지속적으로 처리하기 위한 파이프라인을 만들려고 합니다.
해당 분야의 지식이 있는 비즈니스 사용자는 모델을 준비하고, SQL을 사용하는 데이터 엔지니어는 새 문서 처리를 자동화하는 파이프라인을 준비합니다.
Document AI 작동 방법¶
Document AI 작업은 다음의 두 단계로 나뉩니다.
Document AI 모델 빌드 준비하기
모델 빌드는 단일 유형의 문서 또는 사용 사례를 나타내는 것으로 생각할 수 있습니다. 예를 들어, 청구서 문서에서 정보를 추출하기 위한 모델 빌드입니다. Document AI 모델 빌드에는 모델, 추출할 데이터 값, 모델을 테스트하고 훈련하기 위해 업로드된 문서가 포함됩니다.
Snowsight의 Document AI 사용자 인터페이스를 통해 모델 빌드를 준비합니다. 인터페이스를 사용하면 모델 빌드를 생성하고, 모델을 테스트하고 훈련시키기 위해 설명서를 업로드하고, 자연어로 질문을 통해 데이터 값(추출할 정보)을 정의하고, 모델을 평가하고, 모델 빌드를 게시하거나 모델을 미세 조정하여 결과를 개선할 수 있습니다.
자세한 내용은 Document AI 모델 빌드 준비 섹션을 참조하십시오.
문서에서 정보 추출하기
모델 빌드가 준비되면 <model_build_name>!PREDICT 메서드를 사용하는 추출 쿼리를 실행하여 문서에서 정보 추출을 시작할 수 있습니다. 그런 다음 추출 쿼리를 사용하여 스트림 및 작업을 지속적으로 처리하는 파이프라인을 만들 수 있습니다.
자세한 내용은 Document AI 를 사용하여 정보 추출 섹션을 참조하십시오.
참고
<model_build_name>!PREDICT 메서드를 사용하여 처리할 문서는 내부 스테이지 또는 외부 스테이지에 저장해야 합니다.
Document AI 를 시작하려면 자습서: Document AI를 사용하여 문서 처리 파이프라인 만들기 섹션을 참조하십시오.
Document AI 모델 버전 기록¶
2024년 8월 6일 이후에 생성된 모든 모델 빌드는 새 버전의 Arctic-TILT 모델을 사용합니다.
모델 버전 릴리스 날짜 |
모델 버전 개선 사항 |
---|---|
|
|
|
법적 고지¶
입력 및 출력의 데이터 분류는 다음 테이블과 같습니다.
입력 데이터 분류 |
출력 데이터 분류 |
지정 |
---|---|---|
Usage Data |
Customer Data |
Covered AI Features [1] |
자세한 내용은 Snowflake AI 및 ML 섹션을 참조하십시오.