Cortex Search Service 쿼리하기¶
Cortex Search Service를 생성하면 서비스에 쿼리를 제공하기 위해 REST API 엔드포인트가 프로비저닝됩니다. Cortex Search Service를 쿼리하는 데는 3가지 옵션이 있습니다.
Python API 사용
REST API 사용
Snowflake Python APIs¶
Cortex Search Service는 Snowflake Python APIs 의 버전 0.8.0 이상을 사용하여 쿼리할 수 있습니다. Snowflake Python APIs 에 대한 자세한 내용은 Snowflake Python APIs: Python으로 Snowflake 오브젝트 관리하기 섹션을 참조하십시오.
Snowflake Python APIs 라이브러리 설치¶
먼저 PyPI에서 최신 버전의 Snowflake Python APIs 패키지를 설치 관리자에 설치합니다. PyPI에서 이 패키지를 설치하는 방법에 대한 지침은 Snowflake Python APIs 라이브러리 설치 섹션을 참조하십시오.
pip install snowflake -U
Snowflake에 연결하기¶
Snowpark Session
또는 Python Connector Connection
을 사용하여 Snowflake에 연결하고 Root
오브젝트를 생성합니다. Snowflake에 연결하는 방법에 대한 자세한 지침은 Snowflake Python APIs 을 사용하여 Snowflake에 연결 섹션을 참조하십시오. 다음 예제에서는 Snowpark Session
오브젝트와 Python 사전을 사용하여 구성합니다.
import os
from snowflake.core import Root
from snowflake.snowpark import Session
CONNECTION_PARAMETERS = {
"account": os.environ["snowflake_account_demo"],
"user": os.environ["snowflake_user_demo"],
"password": os.environ["snowflake_password_demo"],
"role": "test_role",
"database": "test_database",
"warehouse": "test_warehouse",
"schema": "test_schema",
}
session = Session.builder.configs(CONNECTION_PARAMETERS).create()
root = Root(session)
서비스 쿼리¶
다음 구문을 사용하여 서비스를 쿼리합니다.
# fetch service
my_service = (root
.databases["<service_database>"]
.schemas["<service_schema>"]
.cortex_search_services["<service_name>"]
)
# query service
resp = my_service.search(
query="<query>",
columns=["<col1>", "<col2>"],
filter={"@eq": {"<column>": "<value>"} },
limit=5
)
print(resp.to_json())
참고
Cortex Search Service를 쿼리하려면 Snowflake Python APIs 라이브러리 버전 0.8.0 이상이 필요합니다.
Rest API¶
Cortex Search는 Snowflake REST APIs 의 제품군에서 REST API 엔드포인트를 노출합니다. Cortex Search Service에 대해 생성된 REST 엔드포인트는 다음과 같은 구조로 되어 있습니다.
https://<account_url>/api/v2/databases/<db_name>/schemas/<schema_name>/cortex-search-services/<service_name>:query
여기서
<account_url>
: 사용자의 Snowflake 계정 URL입니다. 계정 URL을 찾는 방법은 계정의 조직 및 계정 이름 찾기 섹션을 참조하십시오.<db_name>
: 서비스가 있는 데이터베이스입니다.<schema_name>
: 서비스가 있는 스키마입니다.<service_name>
: 서비스의 이름입니다.:query
: 서비스를 호출하는 메서드입니다. 이 경우에는query
메서드입니다.
자세한 내용은 Cortex Search Service 에 대한 REST API 참조를 참조하십시오. 다음은 서비스를 쿼리할 때 사용하는 매개 변수와 필터 구문을 설명합니다.
매개 변수¶
매개 변수 |
설명 |
---|---|
|
사용자의 검색어는 서비스의 텍스트 열을 검색하는 데 사용됩니다. |
|
응답에서 각 관련 결과에 대해 반환할 열의 쉼표로 구분된 목록입니다. 이러한 열은 서비스의 소스 쿼리에 포함되어야 합니다. |
|
|
|
응답에서 반환할 결과의 최대 개수입니다.
허용되는 최대값은 1000입니다.
기본값은 10입니다.
|
REST API 인증 구성¶
Snowflake REST APIs 는 프로그래밍 방식의 액세스 토큰(PATs), JSON 웹 토큰(JWTs)을 사용한 키 페어 인증, OAuth 를 통한 인증을 지원합니다. 자세한 내용은 Snowflake를 사용하여 Snowflake REST APIs 인증하기 섹션을 참조하십시오.
서비스 쿼리의 예¶
curl: 을 사용하여 서비스를 쿼리하려면
curl --location https://<ACCOUNT_URL>/api/v2/databases/<DB_NAME>/schemas/<SCHEMA_NAME>/cortex-search-services/<SERVICE_NAME>\:query \
--header 'Content-Type: application/json' \
--header 'Accept: application/json' \
--header "Authorization: Bearer $PAT" \
--data '{
"query": "<search_query>",
"columns": ["col1", "col2"],
"filter": <filter>
"limit": <limit>
}'
참고
JWT 인증을 사용하여 REST API를 쿼리할 때는 사용자의 기본 역할이 사용됩니다. 따라서 서비스를 쿼리하는 사용자의 기본 역할은 서비스가 상주하는 데이터베이스 및 스키마와 서비스 자체에 대한 USAGE 권한이 있어야 합니다. 쿼리하는 사용자 역할에는 반드시 소스 쿼리의 데이터에 대한 권한이 필요한 것은 아닙니다. 사용자 역할에 대한 자세한 내용은 사용자 역할 섹션을 참조하십시오.
SQL 시스템 함수를 사용한 서비스 미리 보기¶
SNOWFLAKE.CORTEX.SEARCH_PREVIEW 함수를 사용하면 워크시트나 Snowflake Notebook 셀과 같은 SQL 환경 내에서 Cortex Search Service에 대한 개별 쿼리의 결과를 미리 볼 수 있습니다. 이 함수를 사용하면 서비스가 올바르게 채워지고 합리적인 결과가 제공되는지 빠르게 유효성 검사할 수 있습니다.
예¶
다음 예제에서는 preview query
쿼리 문자열로 서비스를 미리 보고 결과를 VARIANT 오브젝트로 구문 분석합니다.
SELECT PARSE_JSON(
SNOWFLAKE.CORTEX.SEARCH_PREVIEW(
'my_search_service',
'{
"query": "preview query",
"columns":[
"col1",
"col2"
],
"filter": {"@eq": {"col1": "filter value"} },
"limit":10
}'
)
)['results'] as results;
중요
이 함수는 문자열 리터럴 쿼리에서만 작동합니다. 텍스트 데이터 배치는 허용하지 않습니다.
이 함수는 REST 또는 Python APIs 보다 지연 시간이 더 많이 발생합니다. 테스트/검증 목적으로만 사용하도록 설계되었습니다. 짧은 지연 시간이 필요한 최종 사용자 애플리케이션에서 검색 쿼리를 제공하는 데는 이 함수를 사용하지 마십시오.
필터 구문¶
Cortex Search는 CREATE CORTEX SEARCH SERVICE 명령에 지정된 ATTRIBUTES 열에 대한 필터링을 지원합니다.
Cortex Search은 네 가지 일치하는 연산자를 지원합니다.
ARRAY 포함:
@contains
NUMERIC 또는 DATE/TIMESTAMP 보다 크거나 같아야 함:
@gte
NUMERIC 또는 DATE/TIMESTAMP 보다 작거나 같아야 함:
@lte
이러한 일치 연산자는 다양한 논리 연산자로 구성될 수 있습니다.
@and
@or
@not
다음 사용법 노트가 적용됩니다.
소스 쿼리에서
NaN
(‘숫자 아님’) 값에 대한 일치는 특수한 값 에 설명된 대로 처리됩니다.19자리 이상의 고정소수점 숫자 (선행 0은 제외)는
@eq
,@gte
또는@lte
에서 작동하지 않으며, 이러한 연산자에서는 반환되지 않습니다(@not
을 사용하면 전체 쿼리에서 반환될 수는 있음).TIMESTAMP
및DATE
필터는YYYY-MM-DD
, 타임존 인식 날짜의 경우YYYY-MM-DD+HH:MM
와 같은 형식의 값을 허용합니다. 시간대 오프셋을 지정하지 않으면 날짜는 UTC 로 해석됩니다.
이러한 연산자를 1개의 필터 오브젝트로 결합할 수 있습니다.
예¶
문자열과 같은 열
string_col
은value
값과 같은 행을 필터링합니다.{ "@eq": { "string_col": "value" } }
ARRAY 열
array_col
에 값value
가 포함된 행을 필터링합니다.{ "@contains": { "array_col": "arr_value" } }
NUMERIC 열
numeric_col
이 10.5에서 12.5(포함) 사이인 행을 필터링합니다.{ "@and": [ { "@gte": { "numeric_col": 10.5 } }, { "@lte": { "numeric_col": 12.5 } } ]}
TIMESTAMP 열
timestamp_col
이2024-11-19
과2024-12-19
(포함) 사이에 있는 행을 필터링합니다.{ "@and": [ { "@gte": { "timestamp_col": "2024-11-19" } }, { "@lte": { "timestamp_col": "2024-12-19" } } ]}
논리 연산자를 사용하여 필터 구성:
// Rows where the "array_col" column contains "arr_value" and the "string_col" column equals "value": { "@and": [ { "@contains": { "array_col": "arr_value" } }, { "@eq": { "string_col": "value" } } ] } // Rows where the "string_col" column does not equal "value" { "@not": { "@eq": { "string_col": "value" } } } // Rows where the "array_col" column contains at least one of "val1", "val2", or "val3" { "@or": [ { "@contains": { "array_col": "val1" } }, { "@contains": { "array_col": "val1" } }, { "@contains": { "array_col": "val1" } } ] }
숫자 부스트 및 시간 감소¶
숫자 또는 타임스탬프 메타데이터를 기반으로 부패 검색 결과를 부스트하거나 적용할 수 있습니다. 이 기능은 쿼리 시점에 문서의 관련성을 판단하는 데 도움이 되는 결과별 메타데이터(예: 인기도 또는 최근 신호)가 구조화되어 있을 때 유용합니다. 쿼리를 작성할 때 두 가지 범주의 순위 신호를 지정할 수 있습니다.
타입 |
설명 |
적용 가능한 열 유형 |
메타데이터 필드 예제(예시) |
---|---|---|---|
숫자 부스트 |
관심도나 활동이 많은 결과를 높이는 숫자 메타데이터입니다. |
|
|
시간 감쇠 |
날짜 또는 시간 메타데이터를 사용하면 보다 최신의 결과를 확인할 수 있습니다. 최근 신호의 영향력은 시간이 지남에 따라 감소합니다. |
|
부스트 및 감쇠 메타데이터는 Cortex Search Service가 생성되는 소스 테이블의 열에서 가져옵니다. 쿼리를 생성할 때 부스팅 또는 감쇠에 사용할 메타데이터 열을 지정하지만, 해당 열은 Cortext Search 서비스를 생성할 때 반드시 포함되어야 합니다.
부스트 또는 감쇠 신호로 서비스 쿼리하기¶
Cortex Search Service를 쿼리할 때 scoring_config.functions
필드의 numeric_boosts
및 time_decays
필드에서 부스팅 또는 감쇠에 사용할 열을 선택 사항으로 지정합니다. 각 부스트 또는 쇠퇴에 대한 가중치를 지정할 수도 있습니다.
{
"scoring_config": {
"functions": {
"numeric_boosts": [
{
"column": "<column_name>",
"weight": <weight>
},
// ...
],
"time_decays": [
{
"column": "<column_name>",
"weight": <weight>,
"limit_hours": <limit_hours>
},
// ...
]
}
}
}
속성:
numeric_boosts
(array, 선택 사항):<numeric_boost_object>
(object, 선택 사항):column_name
(string): 부스트가 적용될 숫자 열을 지정합니다.weight
(float): 순위 프로세스에서 부스트된 열에 할당된 가중치 또는 중요도를 지정합니다. 여러 열을 지정한 경우 가중치가 높을수록 필드의 영향력이 커집니다.
time_decays
(array, 선택 사항):<time_decay_object>
(object, 선택 사항):column_name
(string): 감쇠를 적용할 시간 또는 날짜 열을 지정합니다.weight
(float): 순위 프로세스에서 쇠퇴한 열에 할당된 가중치 또는 중요도를 지정합니다. 여러 열을 지정한 경우 가중치가 높을수록 필드의 영향력이 커집니다.limit_hours
(float): 문서의 관련성이나 중요도에 영향을 미치기 시작하는 경계를 설정합니다. 예를 들어,limit_hours
값이 240이면now
타임스탬프에서 과거 240시간(10일) 이상의 타임스탬프가 있는 문서는 크게 부스트되지 않는 반면, 최근 240시간 이내의 타임스탬프가 있는 문서는 더 크게 부스트되어야 함을 나타냅니다.now
(string, 선택 사항): ISO-8601 형식yyyy-MM-dd'T'HH:mm:ss.SSSXXX
로 감쇠를 계산하는 선택적 참조 타임스탬프. 예:"2025-02-19T14:30:45.123-08:00"
. 지정하지 않으면 기본값은 현재 타임스탬프입니다.
참고
숫자 부스트는 반환된 필드에 가중 평균으로 적용되며, 디케이는 로그 평활화 함수를 활용하여 최근 값이 낮은 값을 강등합니다.
가중치는 지정된 부스트 또는 감쇠 필드에 상대적입니다. boosts
또는 decays
배열 내에 단일 필드만 제공되는 경우 가중치 값은 상관없습니다.
필드가 2개 이상 제공된 경우 가중치는 서로를 기준으로 적용됩니다. 예를 들어, 가중치가 10인 필드는 가중치가 5인 필드보다 레코드의 순위에 두 배 더 많은 영향을 미칩니다.
예¶
샘플 데이터 및 Cortex Search Service 만들기
이 예제에서는 business_documents
라는 테이블에 타임스탬프 열 2개(last_modified
, created_timestamp
)와 정수 열 2개(likes
, columns
)를 사용하여 검색 결과의 부스트 및 감쇠에 사용할 수 있습니다.
CREATE OR REPLACE TABLE business_documents (
document_contents VARCHAR,
last_modified_timestamp TIMESTAMP,
created_timestamp TIMESTAMP,
likes INT,
comments INT
);
INSERT INTO business_documents (document_contents, last_modified_timestamp, created_timestamp, likes, comments)
VALUES
('Quarterly financial report for Q1 2024: Revenue increased by 15%, with expenses stable. Highlights include strategic investments in marketing and technology.',
'2024-01-12 10:00:00', '2024-01-10 09:00:00', 10, 20),
('IT manual for employees: Instructions for usage of internal technologies, including hardware and software guides and commonly asked tech questions.',
'2024-02-10 15:00:00', '2024-02-05 14:30:00', 85, 10),
('Employee handbook 2024: Updated policies on remote work, health benefits, and company culture initiatives. Includes new guidelines on hybrid working models.',
'2024-02-10 15:00:00', '2024-02-05 14:30:00', 85, 10),
('Marketing strategy document: Target audience segmentation for upcoming product launch. Detailed plans for social media, influencer partnerships, and content creation.',
'2024-03-15 12:00:00', '2024-03-12 11:15:00', 150, 32),
('Product roadmap 2024: Key milestones for tech product development, including the launch of new features, bug fixes, and performance improvements.',
'2024-04-22 17:30:00', '2024-04-20 16:00:00', 200, 45),
('Annual performance review process guidelines: Procedures for managers to conduct employee evaluations, set goals, and provide constructive feedback.',
'2024-05-02 09:30:00', '2024-05-01 08:45:00', 60, 5);
그런 다음, business_documents
테이블의 document_contents
열에 business_documents_css
이라는 이름의 Cortex Search Service를 만듭니다.
CREATE OR REPLACE CORTEX SEARCH SERVICE business_documents_css
ON document_contents
WAREHOUSE = <warehouse_name>
TARGET_LAG = '1 minute'
AS SELECT * FROM business_documents;
숫자 부스트로 서비스 쿼리하기
아래 쿼리는 likes
및 comments
열 모두에 숫자 부스트를 적용하며, comments
값에 부스트 가중치를 likes
값에 비해 두 배로 적용합니다. 이 쿼리는 SQL SEARCH_PREVIEW 함수 를 사용하여 “technology”를 검색합니다.
SELECT
index,
value['DOCUMENT_CONTENTS']::string as DOCUMENT_CONTENTS,
value['LIKES']::int as LIKES,
value['COMMENTS']::int as COMMENTS,
FROM TABLE(FLATTEN(PARSE_JSON(SNOWFLAKE.CORTEX.SEARCH_PREVIEW(
'business_documents_css',
'{
"query": "technology",
"columns": ["DOCUMENT_CONTENTS", "LIKES", "COMMENTS"],
"scoring_config": {
"functions": {
"numeric_boosts": [
{"column": "comments", "weight": 2},
{"column": "likes", "weight": 1}
]
}
}
}'
))['results'] ))
결과에서 참고하십시오.
부스트를 사용하면
"Product roadmap 2024:..."
문서가 쿼리"technology"
와의 관련성이 약간 낮지만 좋아요와 설명이 많기 때문에 최상위 결과가 됩니다부스트가 없는 경우 쿼리의 최상위 결과는
"IT manual for employees:..."
입니다
시간 감쇠를 사용하여 서비스 쿼리하기
다음 쿼리는 LAST_MODIFIED_TIMESTAMP
열을 기준으로 시간 감쇠를 적용합니다. 여기서,
now
타임스탬프에 비해 더 최근의LAST_MODIFIED_TIMESTAMP
값을 가진 문서가 부스트됩니다now
타임스탬프에서 240시간보다 큰LAST_MODIFIED_TIMESTAMP
값을 가진 문서는 약간의 부스팅을 받습니다
SELECT
value['DOCUMENT_CONTENTS']::string as DOCUMENT_CONTENTS,
value['LAST_MODIFIED_TIMESTAMP']::timestamp as LAST_MODIFIED_TIMESTAMP
FROM TABLE(FLATTEN(PARSE_JSON(SNOWFLAKE.CORTEX.SEARCH_PREVIEW(
'business_documents_css',
'{
"query": "technology",
"columns": ["DOCUMENT_CONTENTS", "LAST_MODIFIED_TIMESTAMP", "CREATED_TIMESTAMP", "LIKES", "COMMENTS"],
"scoring_config": {
"functions": {
"time_decays": [
{"column": "LAST_MODIFIED_TIMESTAMP", "weight": 1, "limit_hours": 240, "now": "2024-04-23T00:00:00.000-08:00"}
]
}
}
}'
))['results'] ));
결과에서 참고하십시오.
감쇠를 사용하면
"Product roadmap 2024:..."
문서는"technology"
쿼리와의 관련성이 약간 낮지만,now
타임스탬프에 가장 최근의 것이므로 최상위 결과가 됩니다감쇠가 없는 경우 쿼리의 최상위 결과는
"IT manual for employees:..."
입니다
순위 재조정¶
기본적으로 Cortex Search Service에 대한 쿼리는 의미 체계 순위 재지정 을 활용하여 검색 결과 관련성을 개선합니다. 순위 재지정은 결과 관련성을 측정 가능하게 높일 수 있지만, 쿼리 대기 시간도 눈에 띄게 증가할 수 있습니다. 비즈니스 사용 사례에서 더 빠른 쿼리 속도를 위해 순위 재지정이 제공하는 품질 이점을 희생할 수 있다고 판단되면 모든 Cortex Search 쿼리에서 순위 재지정 기능을 사용하지 않도록 설정할 수 있습니다.
참고
순위 재지정을 비활성화하면 쿼리 지연 시간이 평균 100~300밀리초 단축되지만, 정확한 지연 시간 단축 정도와 품질 저하 정도는 워크로드에 따라 달라집니다. 쿼리에서 순위 재지정 기능을 비활성화할지 여부를 결정하기 전에 순위 재지정 기능이 있는 경우와 없는 경우의 결과를 나란히 평가하십시오.
순위 재지정 없이 Cortex Search Service 쿼리하기¶
다음 형식의 scoring_config.reranker
필드에서 쿼리 시 개별 쿼리에 대한 순위 재지정을 비활성화할 수 있습니다.
{
"scoring_config": {
"reranker": "none"
}
속성:
reranker
(string, 선택 사항): 순위 재지정을 꺼야 하는 경우 “없음”으로 설정할 수 있는 매개 변수입니다. 제외되거나 null인 경우 기본 순위 재지정이 사용됩니다.
예¶
순위 재지정 없이 검색 서비스 쿼리하기(Python)
다음 코드는 Python API 을 사용하여 순위 재지정 단계 없이 서비스를 쿼리합니다.
resp = business_documents_css.search(
query="technology",
columns=["DOCUMENT_CONTENTS", "LAST_MODIFIED_TIMESTAMP"],
limit=5,
scoring_config={
"reranker": "none"
}
)
팁
순위 재지정을 사용하여 서비스를 쿼리하려면 순위 재지정이 기본 동작이므로 scoring_config
오브젝트에서 "reranker": "none"
매개 변수를 생략하십시오.
순위 재지정 없이 서비스 쿼리하기 (SQL)
다음 SQL 문은 SEARCH_PREVIEW 함수 를 사용하여 순위 재지정 단계 없이 서비스를 쿼리합니다.
SELECT
value['DOCUMENT_CONTENTS'], value['LAST_MODIFIED_TIMESTAMP']
FROM TABLE(FLATTEN(PARSE_JSON(SNOWFLAKE.CORTEX.SEARCH_PREVIEW(
'business_documents_css',
'{
"query": "technology",
"columns": ["DOCUMENT_CONTENTS", "LAST_MODIFIED_TIMESTAMP"],
"scoring_config": {
"reranker": "none"
}
}'
))['results'] ));
액세스 제어 요구 사항¶
Cortex Search Service를 쿼리하는 역할은 결과를 검색하기 위해 다음 권한이 있어야 합니다.
권한
오브젝트
USAGE
Cortex Search Service
USAGE
Cortex Search Service가 있는 데이터베이스
USAGE
Cortex Search Service가 있는 스키마
소유자 권한으로 쿼리하기¶
Cortex Search Service는 소유자의 권한 으로 검색을 수행하며 소유자의 권한으로 실행되는 다른 Snowflake 오브젝트와 동일한 보안 모델을 따릅니다.
특히, 이는 서비스의 소스 쿼리에서 참조되는 기본 오브젝트(예: 테이블 및 뷰)에 대한 해당 역할의 권한에 관계없이 Cortex Search Service를 쿼리할 수 있는 충분한 권한을 가진 모든 역할이 서비스가 인덱싱한 모든 데이터를 쿼리할 수 있다는 것을 의미합니다.
예를 들어, 행 수준 마스킹 정책이 있는 테이블을 참조하는 Cortex Search Service의 경우, 해당 서비스의 쿼리 사용자는 쿼리 사용자의 역할이 소스 테이블에서 해당 행을 읽을 수 없더라도 소유자의 역할에 읽기 권한이 있는 행의 검색 결과를 볼 수 있습니다.
예를 들어, 다른 Snowflake 사용자에게 Cortex Search Service에서 USAGE 권한이 있는 역할을 부여할 때는 주의를 기울이십시오.
알려진 제한 사항¶
Cortex Search Service 쿼리에는 다음과 같은 제한이 적용됩니다.
응답 크기: 검색 쿼리에서 Cortex Search Service로 반환되는 응답 페이로드의 총 크기는 다음 제한을 초과하지 않아야 합니다.
REST API 및 Python API: 10메가바이트(MB)
SQL SEARCH_PREVIEW 함수: 300킬로바이트(KB)