Cortex Search Service 쿼리하기

Cortex Search Service를 생성하면 서비스에 쿼리를 제공하기 위해 REST API 엔드포인트가 프로비저닝됩니다. Cortex Search Service를 쿼리하는 데는 3가지 옵션이 있습니다.

Snowflake Python APIs

Cortex Search Service는 Snowflake Python APIs 의 버전 0.8.0 이상을 사용하여 쿼리할 수 있습니다. Snowflake Python APIs 에 대한 자세한 내용은 Snowflake Python APIs: Python으로 Snowflake 오브젝트 관리하기 섹션을 참조하십시오.

Snowflake Python APIs 라이브러리 설치

먼저 PyPI에서 최신 버전의 Snowflake Python APIs 패키지를 설치 관리자에 설치합니다. PyPI에서 이 패키지를 설치하는 방법에 대한 지침은 Snowflake Python APIs 라이브러리 설치 섹션을 참조하십시오.

pip install snowflake -U
Copy

Snowflake에 연결하기

Snowpark Session 또는 Python Connector Connection 을 사용하여 Snowflake에 연결하고 Root 오브젝트를 생성합니다. Snowflake에 연결하는 방법에 대한 자세한 지침은 Snowflake Python APIs 을 사용하여 Snowflake에 연결 섹션을 참조하십시오. 다음 예제에서는 Snowpark Session 오브젝트와 Python 사전을 사용하여 구성합니다.

import os
from snowflake.core import Root
from snowflake.snowpark import Session

CONNECTION_PARAMETERS = {
    "account": os.environ["snowflake_account_demo"],
    "user": os.environ["snowflake_user_demo"],
    "password": os.environ["snowflake_password_demo"],
    "role": "test_role",
    "database": "test_database",
    "warehouse": "test_warehouse",
    "schema": "test_schema",
}

session = Session.builder.configs(CONNECTION_PARAMETERS).create()
root = Root(session)
Copy

서비스 쿼리

다음 구문을 사용하여 서비스를 쿼리합니다.

# fetch service
my_service = (root
  .databases["<service_database>"]
  .schemas["<service_schema>"]
  .cortex_search_services["<service_name>"]
)

# query service
resp = my_service.search(
  query="<query>",
  columns=["<col1>", "<col2>"],
  filter={"@eq": {"<column>": "<value>"} },
  limit=5
)
print(resp.to_json())
Copy

참고

Cortex Search Service를 쿼리하려면 Snowflake Python APIs 라이브러리 버전 0.8.0 이상이 필요합니다.

Rest API

Cortex Search는 Snowflake REST APIs 의 제품군에서 REST API 엔드포인트를 노출합니다. Cortex Search Service에 대해 생성된 REST 엔드포인트는 다음과 같은 구조로 되어 있습니다.

https://<account_url>/api/v2/databases/<db_name>/schemas/<schema_name>/cortex-search-services/<service_name>:query
Copy

여기서

  • <account_url>: 사용자의 Snowflake 계정 URL입니다. 계정 URL을 찾는 방법은 계정의 조직 및 계정 이름 찾기 섹션을 참조하십시오.

  • <db_name>: 서비스가 있는 데이터베이스입니다.

  • <schema_name>: 서비스가 있는 스키마입니다.

  • <service_name>: 서비스의 이름입니다.

  • :query: 서비스를 호출하는 메서드입니다. 이 경우에는 query 메서드입니다.

자세한 내용은 Cortex Search Service 에 대한 REST API 참조를 참조하십시오. 다음은 서비스를 쿼리할 때 사용하는 매개 변수와 필터 구문을 설명합니다.

매개 변수

매개 변수

설명

query

사용자의 검색어는 서비스의 텍스트 열을 검색하는 데 사용됩니다.

columns

응답에서 각 관련 결과에 대해 반환할 열의 쉼표로 구분된 목록입니다. 이러한 열은 서비스의 소스 쿼리에 포함되어야 합니다.

filter

ATTRIBUTES 열의 데이터를 기준으로 결과를 필터링하기 위한 필터 오브젝트입니다. 필터 구문 섹션을 참조하십시오.

limit

응답에서 반환할 결과의 최대 개수입니다.
허용되는 최대값은 1000입니다.
기본값은 10입니다.

REST API 인증 구성

Snowflake REST APIs 는 프로그래밍 방식의 액세스 토큰(PATs), JSON 웹 토큰(JWTs)을 사용한 키 페어 인증, OAuth 를 통한 인증을 지원합니다. 자세한 내용은 Snowflake를 사용하여 Snowflake REST APIs 인증하기 섹션을 참조하십시오.

서비스 쿼리의 예

curl: 을 사용하여 서비스를 쿼리하려면

curl --location https://<ACCOUNT_URL>/api/v2/databases/<DB_NAME>/schemas/<SCHEMA_NAME>/cortex-search-services/<SERVICE_NAME>\:query \
--header 'Content-Type: application/json' \
--header 'Accept: application/json' \
--header "Authorization: Bearer $PAT" \
--data '{
  "query": "<search_query>",
  "columns": ["col1", "col2"],
  "filter": <filter>
  "limit": <limit>
}'
Copy

참고

JWT 인증을 사용하여 REST API를 쿼리할 때는 사용자의 기본 역할이 사용됩니다. 따라서 서비스를 쿼리하는 사용자의 기본 역할은 서비스가 상주하는 데이터베이스 및 스키마와 서비스 자체에 대한 USAGE 권한이 있어야 합니다. 쿼리하는 사용자 역할에는 반드시 소스 쿼리의 데이터에 대한 권한이 필요한 것은 아닙니다. 사용자 역할에 대한 자세한 내용은 사용자 역할 섹션을 참조하십시오.

SQL 시스템 함수를 사용한 서비스 미리 보기

SNOWFLAKE.CORTEX.SEARCH_PREVIEW 함수를 사용하면 워크시트나 Snowflake Notebook 셀과 같은 SQL 환경 내에서 Cortex Search Service에 대한 개별 쿼리의 결과를 미리 볼 수 있습니다. 이 함수를 사용하면 서비스가 올바르게 채워지고 합리적인 결과가 제공되는지 빠르게 유효성 검사할 수 있습니다.

다음 예제에서는 preview query 쿼리 문자열로 서비스를 미리 보고 결과를 VARIANT 오브젝트로 구문 분석합니다.

SELECT PARSE_JSON(
  SNOWFLAKE.CORTEX.SEARCH_PREVIEW(
      'my_search_service',
      '{
         "query": "preview query",
         "columns":[
            "col1",
            "col2"
         ],
         "filter": {"@eq": {"col1": "filter value"} },
         "limit":10
      }'
  )
)['results'] as results;
Copy

중요

  • 이 함수는 문자열 리터럴 쿼리에서만 작동합니다. 텍스트 데이터 배치는 허용하지 않습니다.

  • 이 함수는 REST 또는 Python APIs 보다 지연 시간이 더 많이 발생합니다. 테스트/검증 목적으로만 사용하도록 설계되었습니다. 짧은 지연 시간이 필요한 최종 사용자 애플리케이션에서 검색 쿼리를 제공하는 데는 이 함수를 사용하지 마십시오.

필터 구문

Cortex Search는 CREATE CORTEX SEARCH SERVICE 명령에 지정된 ATTRIBUTES 열에 대한 필터링을 지원합니다.

Cortex Search은 네 가지 일치하는 연산자를 지원합니다.

이러한 일치 연산자는 다양한 논리 연산자로 구성될 수 있습니다.

  • @and

  • @or

  • @not

다음 사용법 노트가 적용됩니다.

  • 소스 쿼리에서 NaN (‘숫자 아님’) 값에 대한 일치는 특수한 값 에 설명된 대로 처리됩니다.

  • 19자리 이상의 고정소수점 숫자 (선행 0은 제외)는 @eq, @gte 또는 @lte 에서 작동하지 않으며, 이러한 연산자에서는 반환되지 않습니다(@not 을 사용하면 전체 쿼리에서 반환될 수는 있음).

  • TIMESTAMPDATE 필터는 YYYY-MM-DD, 타임존 인식 날짜의 경우 YYYY-MM-DD+HH:MM 와 같은 형식의 값을 허용합니다. 시간대 오프셋을 지정하지 않으면 날짜는 UTC 로 해석됩니다.

이러한 연산자를 1개의 필터 오브젝트로 결합할 수 있습니다.

  • 문자열과 같은 열 string_colvalue 값과 같은 행을 필터링합니다.

    { "@eq": { "string_col": "value" } }
    
    Copy
  • ARRAY 열 array_col 에 값 value 가 포함된 행을 필터링합니다.

    { "@contains": { "array_col": "arr_value" } }
    
    Copy
  • NUMERIC 열 numeric_col 이 10.5에서 12.5(포함) 사이인 행을 필터링합니다.

    { "@and": [
      { "@gte": { "numeric_col": 10.5 } },
      { "@lte": { "numeric_col": 12.5 } }
    ]}
    
    Copy
  • TIMESTAMP 열 timestamp_col2024-11-192024-12-19 (포함) 사이에 있는 행을 필터링합니다.

    { "@and": [
      { "@gte": { "timestamp_col": "2024-11-19" } },
      { "@lte": { "timestamp_col": "2024-12-19" } }
    ]}
    
    Copy
  • 논리 연산자를 사용하여 필터 구성:

    // Rows where the "array_col" column contains "arr_value" and the "string_col" column equals "value":
    {
        "@and": [
          { "@contains": { "array_col": "arr_value" } },
          { "@eq": { "string_col": "value" } }
        ]
    }
    
    // Rows where the "string_col" column does not equal "value"
    {
      "@not": { "@eq": { "string_col": "value" } }
    }
    
    // Rows where the "array_col" column contains at least one of "val1", "val2", or "val3"
    {
      "@or": [
          { "@contains": { "array_col": "val1" } },
          { "@contains": { "array_col": "val1" } },
          { "@contains": { "array_col": "val1" } }
      ]
    }
    
    Copy

숫자 부스트 및 시간 감소

숫자 또는 타임스탬프 메타데이터를 기반으로 부패 검색 결과를 부스트하거나 적용할 수 있습니다. 이 기능은 쿼리 시점에 문서의 관련성을 판단하는 데 도움이 되는 결과별 메타데이터(예: 인기도 또는 최근 신호)가 구조화되어 있을 때 유용합니다. 쿼리를 작성할 때 두 가지 범주의 순위 신호를 지정할 수 있습니다.

타입

설명

적용 가능한 열 유형

메타데이터 필드 예제(예시)

숫자 부스트

관심도나 활동이 많은 결과를 높이는 숫자 메타데이터입니다.

숫자 데이터 타입

clicks, likes, comments

시간 감쇠

날짜 또는 시간 메타데이터를 사용하면 보다 최신의 결과를 확인할 수 있습니다. 최근 신호의 영향력은 시간이 지남에 따라 감소합니다.

날짜 및 시간 데이터 타입

created_timestamp, last_opened_timestamp, action_date

부스트 및 감쇠 메타데이터는 Cortex Search Service가 생성되는 소스 테이블의 열에서 가져옵니다. 쿼리를 생성할 때 부스팅 또는 감쇠에 사용할 메타데이터 열을 지정하지만, 해당 열은 Cortext Search 서비스를 생성할 때 반드시 포함되어야 합니다.

부스트 또는 감쇠 신호로 서비스 쿼리하기

Cortex Search Service를 쿼리할 때 scoring_config.functions 필드의 numeric_booststime_decays 필드에서 부스팅 또는 감쇠에 사용할 열을 선택 사항으로 지정합니다. 각 부스트 또는 쇠퇴에 대한 가중치를 지정할 수도 있습니다.

{
  "scoring_config": {
    "functions": {
      "numeric_boosts": [
        {
          "column": "<column_name>",
          "weight": <weight>
        },
        // ...
      ],
      "time_decays": [
        {
          "column": "<column_name>",
          "weight": <weight>,
          "limit_hours": <limit_hours>
        },
        // ...
      ]
    }
  }
}
Copy

속성:

  • numeric_boosts (array, 선택 사항):

    • <numeric_boost_object> (object, 선택 사항):

      • column_name (string): 부스트가 적용될 숫자 열을 지정합니다.

      • weight (float): 순위 프로세스에서 부스트된 열에 할당된 가중치 또는 중요도를 지정합니다. 여러 열을 지정한 경우 가중치가 높을수록 필드의 영향력이 커집니다.

  • time_decays (array, 선택 사항):

    • <time_decay_object> (object, 선택 사항):

      • column_name (string): 감쇠를 적용할 시간 또는 날짜 열을 지정합니다.

      • weight (float): 순위 프로세스에서 쇠퇴한 열에 할당된 가중치 또는 중요도를 지정합니다. 여러 열을 지정한 경우 가중치가 높을수록 필드의 영향력이 커집니다.

      • limit_hours (float): 문서의 관련성이나 중요도에 영향을 미치기 시작하는 경계를 설정합니다. 예를 들어, limit_hours 값이 240이면 now 타임스탬프에서 과거 240시간(10일) 이상의 타임스탬프가 있는 문서는 크게 부스트되지 않는 반면, 최근 240시간 이내의 타임스탬프가 있는 문서는 더 크게 부스트되어야 함을 나타냅니다.

      • now (string, 선택 사항): ISO-8601 형식 yyyy-MM-dd'T'HH:mm:ss.SSSXXX 로 감쇠를 계산하는 선택적 참조 타임스탬프. 예: "2025-02-19T14:30:45.123-08:00". 지정하지 않으면 기본값은 현재 타임스탬프입니다.

참고

숫자 부스트는 반환된 필드에 가중 평균으로 적용되며, 디케이는 로그 평활화 함수를 활용하여 최근 값이 낮은 값을 강등합니다.

가중치는 지정된 부스트 또는 감쇠 필드에 상대적입니다. boosts 또는 decays 배열 내에 단일 필드만 제공되는 경우 가중치 값은 상관없습니다.

필드가 2개 이상 제공된 경우 가중치는 서로를 기준으로 적용됩니다. 예를 들어, 가중치가 10인 필드는 가중치가 5인 필드보다 레코드의 순위에 두 배 더 많은 영향을 미칩니다.

샘플 데이터 및 Cortex Search Service 만들기

이 예제에서는 business_documents 라는 테이블에 타임스탬프 열 2개(last_modified, created_timestamp)와 정수 열 2개(likes, columns)를 사용하여 검색 결과의 부스트 및 감쇠에 사용할 수 있습니다.

CREATE OR REPLACE TABLE business_documents (
    document_contents VARCHAR,
    last_modified_timestamp TIMESTAMP,
    created_timestamp TIMESTAMP,
    likes INT,
    comments INT
);

INSERT INTO business_documents (document_contents, last_modified_timestamp, created_timestamp, likes, comments)
VALUES
    ('Quarterly financial report for Q1 2024: Revenue increased by 15%, with expenses stable. Highlights include strategic investments in marketing and technology.',
     '2024-01-12 10:00:00', '2024-01-10 09:00:00', 10, 20),

    ('IT manual for employees: Instructions for usage of internal technologies, including hardware and software guides and commonly asked tech questions.',
     '2024-02-10 15:00:00', '2024-02-05 14:30:00', 85, 10),

    ('Employee handbook 2024: Updated policies on remote work, health benefits, and company culture initiatives. Includes new guidelines on hybrid working models.',
     '2024-02-10 15:00:00', '2024-02-05 14:30:00', 85, 10),

    ('Marketing strategy document: Target audience segmentation for upcoming product launch. Detailed plans for social media, influencer partnerships, and content creation.',
     '2024-03-15 12:00:00', '2024-03-12 11:15:00', 150, 32),

    ('Product roadmap 2024: Key milestones for tech product development, including the launch of new features, bug fixes, and performance improvements.',
     '2024-04-22 17:30:00', '2024-04-20 16:00:00', 200, 45),

    ('Annual performance review process guidelines: Procedures for managers to conduct employee evaluations, set goals, and provide constructive feedback.',
     '2024-05-02 09:30:00', '2024-05-01 08:45:00', 60, 5);
Copy

그런 다음, business_documents 테이블의 document_contents 열에 business_documents_css 이라는 이름의 Cortex Search Service를 만듭니다.

CREATE OR REPLACE CORTEX SEARCH SERVICE business_documents_css
    ON document_contents
    WAREHOUSE = <warehouse_name>
    TARGET_LAG = '1 minute'
AS SELECT * FROM business_documents;
Copy

숫자 부스트로 서비스 쿼리하기

아래 쿼리는 likescomments 열 모두에 숫자 부스트를 적용하며, comments 값에 부스트 가중치를 likes 값에 비해 두 배로 적용합니다. 이 쿼리는 SQL SEARCH_PREVIEW 함수 를 사용하여 “technology”를 검색합니다.

SELECT
    index,
    value['DOCUMENT_CONTENTS']::string as DOCUMENT_CONTENTS,
    value['LIKES']::int as LIKES,
    value['COMMENTS']::int as COMMENTS,
FROM TABLE(FLATTEN(PARSE_JSON(SNOWFLAKE.CORTEX.SEARCH_PREVIEW(
    'business_documents_css',
    '{
      "query": "technology",
      "columns": ["DOCUMENT_CONTENTS", "LIKES", "COMMENTS"],
      "scoring_config": {
        "functions": {
          "numeric_boosts": [
            {"column": "comments", "weight": 2},
            {"column": "likes", "weight": 1}
          ]
        }
      }
    }'
))['results'] ))
Copy

결과에서 참고하십시오.

  • 부스트를 사용하면 "Product roadmap 2024:..." 문서가 쿼리 "technology" 와의 관련성이 약간 낮지만 좋아요와 설명이 많기 때문에 최상위 결과가 됩니다

  • 부스트가 없는 경우 쿼리의 최상위 결과는 "IT manual for employees:..." 입니다

시간 감쇠를 사용하여 서비스 쿼리하기

다음 쿼리는 LAST_MODIFIED_TIMESTAMP 열을 기준으로 시간 감쇠를 적용합니다. 여기서,

  • now 타임스탬프에 비해 더 최근의 LAST_MODIFIED_TIMESTAMP 값을 가진 문서가 부스트됩니다

  • now 타임스탬프에서 240시간보다 큰 LAST_MODIFIED_TIMESTAMP 값을 가진 문서는 약간의 부스팅을 받습니다

SELECT
  value['DOCUMENT_CONTENTS']::string as DOCUMENT_CONTENTS,
  value['LAST_MODIFIED_TIMESTAMP']::timestamp as LAST_MODIFIED_TIMESTAMP
FROM TABLE(FLATTEN(PARSE_JSON(SNOWFLAKE.CORTEX.SEARCH_PREVIEW(
    'business_documents_css',
    '{
      "query": "technology",
      "columns": ["DOCUMENT_CONTENTS", "LAST_MODIFIED_TIMESTAMP", "CREATED_TIMESTAMP", "LIKES", "COMMENTS"],
      "scoring_config": {
          "functions": {
              "time_decays": [
                {"column": "LAST_MODIFIED_TIMESTAMP", "weight": 1, "limit_hours": 240, "now": "2024-04-23T00:00:00.000-08:00"}
              ]
            }
        }
    }'
))['results'] ));
Copy

결과에서 참고하십시오.

  • 감쇠를 사용하면 "Product roadmap 2024:..." 문서는 "technology" 쿼리와의 관련성이 약간 낮지만, now 타임스탬프에 가장 최근의 것이므로 최상위 결과가 됩니다

  • 감쇠가 없는 경우 쿼리의 최상위 결과는 "IT manual for employees:..." 입니다

순위 재조정

기본적으로 Cortex Search Service에 대한 쿼리는 의미 체계 순위 재지정 을 활용하여 검색 결과 관련성을 개선합니다. 순위 재지정은 결과 관련성을 측정 가능하게 높일 수 있지만, 쿼리 대기 시간도 눈에 띄게 증가할 수 있습니다. 비즈니스 사용 사례에서 더 빠른 쿼리 속도를 위해 순위 재지정이 제공하는 품질 이점을 희생할 수 있다고 판단되면 모든 Cortex Search 쿼리에서 순위 재지정 기능을 사용하지 않도록 설정할 수 있습니다.

참고

순위 재지정을 비활성화하면 쿼리 지연 시간이 평균 100~300밀리초 단축되지만, 정확한 지연 시간 단축 정도와 품질 저하 정도는 워크로드에 따라 달라집니다. 쿼리에서 순위 재지정 기능을 비활성화할지 여부를 결정하기 전에 순위 재지정 기능이 있는 경우와 없는 경우의 결과를 나란히 평가하십시오.

순위 재지정 없이 Cortex Search Service 쿼리하기

다음 형식의 scoring_config.reranker 필드에서 쿼리 시 개별 쿼리에 대한 순위 재지정을 비활성화할 수 있습니다.

{
  "scoring_config": {
      "reranker": "none"
}
Copy

속성:

  • reranker (string, 선택 사항): 순위 재지정을 꺼야 하는 경우 “없음”으로 설정할 수 있는 매개 변수입니다. 제외되거나 null인 경우 기본 순위 재지정이 사용됩니다.

순위 재지정 없이 검색 서비스 쿼리하기(Python)

다음 코드는 Python API 을 사용하여 순위 재지정 단계 없이 서비스를 쿼리합니다.

resp = business_documents_css.search(
  query="technology",
  columns=["DOCUMENT_CONTENTS", "LAST_MODIFIED_TIMESTAMP"],
  limit=5,
  scoring_config={
    "reranker": "none"
  }
)
Copy

순위 재지정을 사용하여 서비스를 쿼리하려면 순위 재지정이 기본 동작이므로 scoring_config 오브젝트에서 "reranker": "none" 매개 변수를 생략하십시오.

순위 재지정 없이 서비스 쿼리하기 (SQL)

다음 SQL 문은 SEARCH_PREVIEW 함수 를 사용하여 순위 재지정 단계 없이 서비스를 쿼리합니다.

SELECT
    value['DOCUMENT_CONTENTS'], value['LAST_MODIFIED_TIMESTAMP']
FROM TABLE(FLATTEN(PARSE_JSON(SNOWFLAKE.CORTEX.SEARCH_PREVIEW(
    'business_documents_css',
    '{
      "query": "technology",
      "columns": ["DOCUMENT_CONTENTS", "LAST_MODIFIED_TIMESTAMP"],
      "scoring_config": {
        "reranker": "none"
      }
    }'
))['results'] ));
Copy

액세스 제어 요구 사항

Cortex Search Service를 쿼리하는 역할은 결과를 검색하기 위해 다음 권한이 있어야 합니다.

권한

오브젝트

USAGE

Cortex Search Service

USAGE

Cortex Search Service가 있는 데이터베이스

USAGE

Cortex Search Service가 있는 스키마

소유자 권한으로 쿼리하기

Cortex Search Service는 소유자의 권한 으로 검색을 수행하며 소유자의 권한으로 실행되는 다른 Snowflake 오브젝트와 동일한 보안 모델을 따릅니다.

특히, 이는 서비스의 소스 쿼리에서 참조되는 기본 오브젝트(예: 테이블 및 뷰)에 대한 해당 역할의 권한에 관계없이 Cortex Search Service를 쿼리할 수 있는 충분한 권한을 가진 모든 역할이 서비스가 인덱싱한 모든 데이터를 쿼리할 수 있다는 것을 의미합니다.

예를 들어, 행 수준 마스킹 정책이 있는 테이블을 참조하는 Cortex Search Service의 경우, 해당 서비스의 쿼리 사용자는 쿼리 사용자의 역할이 소스 테이블에서 해당 행을 읽을 수 없더라도 소유자의 역할에 읽기 권한이 있는 행의 검색 결과를 볼 수 있습니다.

예를 들어, 다른 Snowflake 사용자에게 Cortex Search Service에서 USAGE 권한이 있는 역할을 부여할 때는 주의를 기울이십시오.

알려진 제한 사항

Cortex Search Service 쿼리에는 다음과 같은 제한이 적용됩니다.

  • 응답 크기: 검색 쿼리에서 Cortex Search Service로 반환되는 응답 페이로드의 총 크기는 다음 제한을 초과하지 않아야 합니다.