카테고리:

문자열 및 이진 함수 (대규모 언어 모델)

COUNT_TOKENS(SNOWFLAKE.CORTEX)

인자에 지정된 대규모 언어 모델이나 작업별 함수에 대한 프롬프트에 있는 토큰 수를 반환합니다. 이 함수는 미세 조정된 모델을 지원하지 않습니다.

구문

SNOWFLAKE.CORTEX.COUNT_TOKENS( <model_name> , <input_text> )

SNOWFLAKE.CORTEX.COUNT_TOKENS( <function_name> , <input_text> )
Copy

인자

필수:

model_name

토큰 수를 계산할 때 기준으로 사용할 모델의 이름입니다. 다음 값 중 하나를 지정합니다.

  • snowflake-arctic

  • mistral-large

  • reka-flash

  • reka-core

  • mixtral-8x7b

  • llama2-70b-chat

  • llama3-8b

  • llama3-70b

  • mistral-7b

  • gemma-7b

  • snowflake-arctic-embed-m

  • e5-base-v2

  • nv-embed-qa-4

function_name

작업별 함수 중 하나의 이름입니다. 다음 값 중 하나를 지정합니다.

  • extract_answer

  • sentiment

  • summarize

  • translate

함수 이름은 소문자여야 합니다.

input_text

토큰 수를 계산할 입력 텍스트입니다.

반환

지정된 모델이나 함수를 기반으로 입력 텍스트의 토큰 수인 INT , INTEGER , BIGINT , SMALLINT , TINYINT , BYTEINT 타입을 반환합니다.

사용법 노트

  • 함수 이름이 지정된 경우 토큰 수는 함수에서 사용하는 모델을 기반으로 합니다.

  • 함수 이름을 지정할 때는 소문자를 사용하십시오.

snowflake-arctic 모델을 기반으로 프롬프트 what is a large language model? 의 토큰 수를 가져옵니다.

SELECT SNOWFLAKE.CORTEX.COUNT_TOKENS( 'snowflake-arctic', 'what is a large language model?' );
Copy
+---+
| 6 |
+---+

SUMMARIZE 함수에 사용된 모델을 기반으로 mytableprompt 열에 있는 각 프롬프트의 토큰 수를 가져옵니다.

SELECT SNOWFLAKE.CORTEX.COUNT_TOKENS('SUMMARIZE', prompt) FROM mydb.myschema.mytable LIMIT 10;
Copy
+-----------+
| 1 |  1932 |
+-----------+
| 2 |  2379 |
+-----------+
| 3 |  2185 |
+-----------+
| 4 |  1195 |
+-----------+
| 5 |  2908 |
+-----------+
| 6 |  2601 |
+-----------+
| 7 |  2122 |
+-----------+
| 8 |  1720 |
+-----------+
| 9 |  2512 |
+-----------+
| 10 | 1510 |
+-----------+

번역하려는 텍스트의 토큰 수를 가져옵니다.

SELECT SNOWFLAKE.CORTEX.COUNT_TOKENS('translate', 'Dies ist ein kurzer Text.');
Copy
+---+
| 9 |
+---+