Document AI 모델 빌드 준비

이 항목에서는 Document AI 모델 빌드를 준비하는 방법을 설명합니다.

Document AI 모델 빌드는 Snowsight 에서 생성하고 관리할 수 있습니다. Document AI 모델 빌드는 단일 유형의 문서를 나타냅니다(예: 청구서 문서에서 정보를 추출하기 위한 모델 빌드). Document AI 모델 빌드에는 모델, 추출할 데이터 값, 모델을 테스트하고 훈련하기 위해 업로드된 문서가 포함됩니다.

Document AI 모델 빌드는 DOCUMENT_INTELLIGENCE 클래스의 인스턴스입니다. Snowflake는 SNOWFLAKE.ML 스키마에 DOCUMENT_INTELLIGENCE 클래스를 제공합니다. 클래스에 대한 자세한 내용은 Snowflake 클래스 섹션을 참조하십시오.

Snowsight 에서, Document AI 모델 빌드 뷰는 다음 탭으로 나뉩니다.

  • Build Details: 문서 수, 추출할 데이터 값 수, 모델 정확도, 추출 쿼리 등 모델 빌드에 대한 정보를 확인합니다.

  • Documents: 모델을 테스트하고 훈련하기 위해 업로드된 문서 목록을 검토합니다.

  • Values: 추출할 데이터 값 목록을 봅니다.

Document AI 의 역할 및 권한에 대한 자세한 내용은 Document AI 설정하기 섹션을 참조하십시오.

Document AI 모델 빌드 만들기

  1. SNOWFLAKE.DOCUMENT_INTELLIGENCE_CREATOR 역할이 부여된 계정 역할을 사용하여 Snowsight 에 로그인합니다.

  2. 탐색 메뉴에서 AI & ML » Document AI 를 선택합니다.

  3. 웨어하우스를 선택합니다.

    기존 모델 빌드 목록이 나타납니다.

  4. + Build 를 선택합니다.

  5. 대화 상자가 나타나면 모델 빌드의 이름을 입력하고 해당 위치(데이터베이스 및 스키마)를 선택한 다음 Create 를 선택합니다.

    모델 빌드가 생성되었습니다.

참고

  • Document AI는 데이터베이스 및 스키마의 식별자 주위에 큰따옴표를 지원하지 않습니다.

  • Document AI 는 모델 빌드가 위치한 데이터베이스 또는 스키마 변경을 지원하지 않습니다.

Document AI 모델 빌드 삭제

주의

Document AI 모델 빌드를 삭제하면 모델과 모델 훈련에 사용된 모든 업로드된 문서가 삭제됩니다. 모델 빌드를 삭제하기 전에 해당 모델 빌드가 문서 처리 파이프라인의 일부가 아닌지 확인합니다. 문서 처리 파이프라인에 사용된 모델 빌드를 삭제하면 파이프라인이 실패합니다.

Snowflake는 모델 빌드 데이터를 보관하지 않으므로 삭제된 모델 빌드와 훈련 데이터는 복구할 수 없습니다. 다시 만들어야 합니다.

모델 빌드에 업로드된 문서를 포함하여 Document AI 모델 빌드를 삭제하려면:

  1. Snowsight 에 로그인합니다.

  2. 탐색 메뉴에서 AI & ML » Document AI 를 선택합니다.

  3. 웨어하우스를 선택합니다.

  4. 모델 빌드 이름 옆의 (더 보기) 메뉴를 선택한 다음 Delete 를 선택합니다.

  5. 삭제를 확인하려면 Delete Build 대화 상자에서 Delete 를 선택합니다.

Document AI 모델 빌드에 문서 업로드

Document AI 모델을 테스트하고 훈련시키려면 Snowsight 에서 모델 빌드에 문서를 수동으로 추가합니다.

참고

모델 빌드에 문서를 업로드하기 전에 해당 문서가 Document AI 를 위한 문서 준비 에 나열된 요구 사항을 충족하는지 확인합니다.

기존 Document AI 모델 빌드에 문서를 업로드하려면:

  1. Snowsight 에 로그인합니다.

  2. 탐색 메뉴에서 AI & ML » Document AI 를 선택합니다.

  3. 웨어하우스를 선택합니다.

  4. 모델 빌드 목록에서 문서를 추가할 빌드의 이름을 선택합니다.

  5. Build Details 탭을 선택합니다.

  6. Upload documents 를 선택합니다.

  7. Browse 를 선택하거나 문서를 대화 상자로 끌어서 놓습니다.

  8. Upload 를 선택합니다.

문서를 업로드한 후에는 Documents 탭에서 문서 상태를 볼 수 있습니다.

문서의 상태는 다음 중 하나일 수 있습니다.

  • 처리 중: 문서가 OCR에 의해 처리되고 있습니다.

  • 검토할 내용: OCR 프로세스가 성공적으로 완료되었으며 이제 문서를 검토할 수 있습니다.

  • 진행 중: 검토가 진행 중입니다. 즉, 이 문서에 대해 정의된 값이 하나 이상 있다는 의미입니다.

  • 승인: 문서를 검토하고 모든 값을 승인했습니다.

  • 오류: OCR 중에 오류가 발생했습니다.

Document AI 모델 빌드에서 문서 삭제

주의

훈련에 사용된 문서는 삭제할 수 없습니다.

문서를 삭제하면 해당 문서에서 검토된 데이터 값도 삭제됩니다.

Document AI 모델 빌드에서 문서를 삭제하려면:

  1. Snowsight 에 로그인합니다.

  2. 탐색 메뉴에서 AI & ML » Document AI 를 선택합니다.

  3. 웨어하우스를 선택합니다.

  4. 모델 빌드 목록에서 모델 빌드의 이름을 선택합니다.

  5. Documents 탭을 선택합니다.

  6. 문서 이름 옆의 (더 보기) 메뉴를 선택한 다음 Delete 를 선택합니다.

  7. 삭제를 확인하려면 Delete Document 대화 상자에서 Delete 를 선택합니다.

Document AI 모델 빌드에 대한 값 정의

데이터 값은 문서에서 추출할 정보입니다. 값은 값 이름과 자연어로 묻는 질문으로 구성됩니다. 모델에 맞게 문제를 최적화하는 방법에 대한 자세한 내용은 Document AI 를 사용한 정보 추출을 위한 질문 최적화 섹션을 참조하십시오.

Document AI 모델 빌드에 대한 값을 정의하려면:

  1. Snowsight 에 로그인합니다.

  2. 탐색 메뉴에서 AI & ML » Document AI 를 선택합니다.

  3. 웨어하우스를 선택합니다.

  4. 모델 빌드 목록에서 값을 정의할 모델 빌드의 이름을 선택합니다.

  5. Build Details 탭을 선택합니다.

  6. Define values 를 선택합니다.

  7. Documents review 뷰에서 + Value 를 선택합니다.

  8. 각 값에 대해 값 이름과 질문을 입력합니다.

이 프로시저의 결과로, 모델은 질문에 대한 답변과 신뢰도 점수를 제공합니다. 신뢰도 점수는 모델이 답이 옳다고 얼마나 확신하는지를 나타냅니다. 예를 들어, 신뢰도 점수가 0.9 이면 정답이 맞을 확률이 90%라는 뜻입니다

답변을 검토하고 결과를 평가

Document AI 모델을 사용하여 정보를 추출하거나 미세 조정을 통해 모델을 훈련하기로 결정하기 전에 모델이 제공하는 답변을 검토해야 합니다.

답변을 검토할 때 다음과 같은 상황이 발생할 수 있습니다.

반환된 답변

사용자 작업

정답

확인 표시를 선택합니다. 완전히 올바른 답변만 확인합니다.

오답

올바른 값을 직접 입력합니다.

값을 수동으로 변경한 후 모델에서 제공된 값을 검토하려면 아래쪽 화살표를 선택합니다.

답변 목록

목록에서 답을 제거하거나 답을 더 추가하려면 (더 보기) 메뉴를 선택합니다.

없음

문서에 답변이 포함되어 있으면 값을 수동으로 입력합니다.

문서에 답변이 포함되어 있지 않으면 확인 표시를 선택하여 비어 있는 답변을 확인합니다.

Document AI 모델 평가

Document AI 모델(기본 모델 또는 미세 조정된 모델)을 평가하려면 정확도를 분석합니다. 정확도는 모델이 정답을 제공하는 빈도를 나타냅니다. 정확도가 높을수록 모델의 추출 능력이 더 우수함을 나타냅니다. 정확도를 확인하려면 모든 질문에 대한 답변을 검토합니다.

정확도를 보려면:

  1. Snowsight 에 로그인합니다.

  2. 탐색 메뉴에서 AI & ML » Document AI 를 선택합니다.

  3. 웨어하우스를 선택합니다.

  4. 모델 빌드 목록에서 평가할 모델 빌드의 이름을 선택합니다.

  5. Build Details 탭을 선택하면 Model accuracy 가 표시됩니다.

Document AI 모델이 질문에 안정적으로 답변하고 정확도가 만족스러운 경우 모델 빌드를 게시합니다. Document AI 모델 빌드 게시 섹션을 참조하십시오.

Document AI 모델의 결과를 개선하려면 모델을 훈련시킵니다. Document AI 모델 훈련시키기 섹션을 참조하십시오.

훈련 후 Document AI 모델을 평가하려면 새로 업로드한 문서를 검토합니다.

Document AI 모델 빌드 게시

  1. Snowsight 에 로그인합니다.

  2. 탐색 메뉴에서 AI & ML » Document AI 를 선택합니다.

  3. 웨어하우스를 선택합니다.

  4. 모델 빌드 목록에서 게시할 모델 빌드의 이름을 선택합니다.

  5. Build Details 탭을 선택합니다.

  6. Model accuracy 에서 Publish version 를 선택합니다.

  7. 이때 나타나는 대화 상자에서 Publish 를 선택하여 확인합니다.

모델 빌드를 게시한 후에는 추출 쿼리 를 볼 수 있습니다.

모델을 훈련시키거나 모델 빌드를 게시한 후에 새로운 데이터 값을 추가한 경우(새로운 질문을 한 경우) 모델 빌드를 다시 게시해야 합니다.

Document AI 모델 훈련시키기

결과가 만족스럽지 않은 경우 Document AI 모델을 훈련시켜 결과를 개선할 수 있습니다.

Snowflake에서는 훈련에 앞서 최소 20개 문서에 대한 결과를 검토할 것을 권장합니다.

모델의 품질을 평가하려면 문서를 두 세트로 나눕니다. 한 세트의 문서를 검토하고, 검토되지 않은 문서를 사용하여 훈련 후 모델을 평가합니다.

모델 훈련을 시작하려면:

  1. Snowsight 에 로그인합니다.

  2. 탐색 메뉴에서 AI & ML » Document AI 를 선택합니다.

  3. 웨어하우스를 선택합니다.

  4. 모델 빌드 목록에서 훈련시킬 모델 빌드의 이름을 선택합니다.

  5. Build Details 탭을 선택합니다.

  6. Model accuracy 에서 Train model 를 선택합니다.

  7. 이때 나타나는 대화 상자에서 Start training 를 선택하여 확인합니다.

훈련이 완료되면 알림이 표시됩니다.

이제 Document AI 모델을 다시 평가할 수 있습니다. 훈련 후 미세 조정된 모델의 정확도를 확인하려면 두 번째 문서 세트를 검토합니다. 만족스러운 결과를 얻으려면 모델을 여러 번 미세 조정할 수 있습니다.

모델을 훈련시키고 훈련 후에 새로운 데이터 값을 추가하지 않은 경우(새로운 질문을 하지 않은 경우) 모델 빌드를 게시할 필요가 없습니다.

참고

여러 모델 빌드에 대해 동시에 여러 훈련을 시작할 수 있습니다. 훈련은 큐에 등록되어 있으며, 동시에 3개 이상의 훈련을 실행할 수 없습니다.

훈련 시간 추정

Document AI 모델의 훈련 시간은 추출할 값의 수와 문서의 페이지 수에 따라 달라집니다.

다음 테이블은 각 문서의 페이지 수에 따라 훈련에 필요한 최소 개수인 20개 문서와 10개 값의 배치에 대한 예상 훈련 시간을 나열합니다.

각 문서의 페이지 수

20개 문서에 대한 예상 교육 시간(시간)

1

0.5

10

1.5

25

4

50

8

75

12.5

100

16.5

125

20.5

참고

테이블에는 예상되는 훈련 시간이 나와 있습니다. 실제로 훈련에 필요한 시간은 다를 수 있습니다. 일반적으로 값의 개수나 문서의 개수를 두 배로 늘리면 훈련 시간도 두 배로 늘어납니다.

최대 훈련 시간은 48시간입니다. 데이터 양이 이 한도를 초과하면 훈련시킬 수 없습니다.