Snowflake Notebooks 의 오류 문제 해결

다음 시나리오는 Snowflake Notebooks 사용 시 발생할 수 있는 문제를 해결하는 데 도움이 될 수 있습니다.

총 노트북 수가 Snowsight 의 제한을 초과합니다.

계정의 총 Notebooks 수가 6000개를 초과하고 노트북 목록을 새로 고치면 다음 오류가 발생합니다.

Result size for streamlit list exceeded the limit. Streamlit list was truncated.

사용자는 여전히 새 노트북을 만들 수 있지만, 계정에서 더 이상 사용하지 않는 노트북은 삭제하는 것이 좋습니다.

패키지 업데이트 시 Notebooks(Warehouse Runtime) 오류 발생

Snowflake는 더 이상 지원되지 않는 이전 snowflake-ml 패키지를 사용 중단했습니다. 이러한 패키지는 패키지 선택기에서 제거되었으며 Snowflake Anaconda 채널에서 사용할 수 없습니다. snowflake-ml 을 사용 중이고 노트북에서 패키지를 추가, 제거 또는 업데이트하려고 하면 snowflake-ml 에 더 이상 액세스할 수 없기 때문에 해당 노트북은 실패합니다.

문제를 방지하려면 Snowflake ML에 적합한 패키지인 snowflake-ml-python 으로 전환합니다.

플롯 오류

st.plotly_chart(fig, render_mode='svg')

WebGL is not supported by your browser - visit https://get.webgl.org for more info.

데이터 포인트가 1,000개가 넘으면 Plotly는 웹글로 전환합니다.

AttributeError: NoneType

노트북에서 셀 이름을 기존 변수와 같은 이름으로 바꾸면 다음 오류가 발생합니다.

AttributeError: ‘NoneType’ object has no attribute ‘sql’

예를 들어, Python 셀 cell1 에 다음이 있습니다.

session = get_active_session() #establishing a Snowpark session
Copy

그런 다음 cell2 이름을 “session”으로 변경하고 cell3 에서 “session”을 참조하면 Notebooks가 Snowpark 세션이 아닌 “session”(셀 이름)을 참조하려고 시도하여 오류가 발생합니다.

조기 연결 취소

노트북 세션은 저장 프로시저로 실행됩니다. 시간 제한은 Warehouse Runtime에서 30분, Container Runtime에서 60분입니다. 시간 제한 전에 노트북 연결이 예기치 않게 끊어지는 경우 또는 웨어하우스 소유자가 STATEMENT_TIMEOUT_IN_SECONDS 매개 변수를 특정 값(예: 5분)으로 설정하여 노트북 세션을 포함한 모든 문이 웨어하우스에서 실행될 수 있는 시간을 제한했을 수 있습니다. 이 매개 변수는 웨어하우스 또는 계정 수준에서 설정되며, 웨어하우스와 세션 모두에 대해 설정된 경우 0이 아닌 가장 낮은 값이 적용됩니다.

노트북을 더 오래 실행하려면 기본 웨어하우스 SYSTEM$STREAMLIT_NOTEBOOK$WAREHOUSE 를 사용하거나 STATEMENT_TIMEOUT_IN_SECONDS 매개 변수를 더 긴 기간으로 변경하면 됩니다.

유휴 시간 설정에 대한 자세한 내용은 유휴 시간 및 재접속 섹션을 참조하십시오.

다시 연결하지 못함

브라우저에서 쿠키를 활성화하지 않은 경우, 노트북 세션이 아직 활동 중일 때(비활성화로 인해 시간 초과되기 전)에는 자동으로 다시 연결할 수 없습니다. 노트북을 다시 열면 오류 메시지가 표시됩니다.

Notebook connection lost and cannot reconnect. Restart or end session.

세션을 다시 시작하면 현재 EXECUTE NOTEBOOK 쿼리가 종료되고 새 세션이 시작됩니다. 세션을 종료하면 현재 EXECUTE NOTEBOOK 쿼리가 종료됩니다.

두 작업 중 하나를 수행하지 않으면 현재 EXECUTE NOTEBOOK 쿼리가 Query History 에 표시된 웨어하우스에서 계속 실행됩니다.

방화벽으로 인해 접속할 수 없습니다.

노트북을 시작하려고 하면 다음 팝업이 나타납니다.

Something went wrong. Unable to connect. A firewall or ad blocker might be preventing you from connecting.

*.snowflake.app*.snowflake.com 이 네트워크(내용 필터링 시스템 포함)의 허용 목록에 있고 Snowflake에 연결할 수 있는지 확인합니다. 이러한 도메인이 허용 목록에 있으면 앱이 아무런 제한 없이 Snowflake 서버와 통신할 수 있습니다. 그러나 네트워크 정책이 하위 경로를 차단하는 경우 이러한 도메인을 추가해도 충분하지 않을 수 있습니다. 이 문제가 발생하면 네트워크 관리자에게 문의하십시오.

또한 Snowflake 백엔드 연결 문제를 방지하려면 네트워크 구성에서 WebSockets이 차단되어 있지 않은지 확인합니다.

누락된 패키지

노트북 환경에 설치되지 않은 패키지를 사용하려고 하면 셀 출력에 다음 메시지가 나타납니다.

ModuleNotFoundError: Line 2: Module Not Found: snowflake.core. To import packages from Anaconda, install them first using the package
selector at the top of the page.

노트북에서 사용할 Python 패키지 가져오기 페이지의 지침에 따라 필요한 패키지를 가져옵니다.

기존 노트북에서 누락된 패키지

노트북의 새로운 버전이 계속해서 출시되고 노트북은 최신 버전으로 자동 업그레이드됩니다. 일부 경우 오래된 노트북을 업그레이드할 때 노트북 환경의 패키지가 업그레이드와 호환되지 않는 경우가 있습니다. 이로 인해 노트북이 시작되지 않을 수 있습니다.

다음은 Libpython 패키지가 누락된 경우의 오류 메시지 예제입니다.

SnowflakeInternalException{signature=std::vector<sf::RuntimePathLinkage> sf::{anonymous}::buildRuntimeFileSet(const sf::UdfRuntime&, std::string_view, const std::vector<sf::udf::ThirdPartyLibrariesInfo>&, bool):"libpython_missing", internalMsg=[XP_WORKER_FAILURE: Unexpected error signaled by function 'std::vector<sf::RuntimePathLinkage> sf::{anonymous}::buildRuntimeFileSet(const sf::UdfRuntime&, std::string_view, const std::vector<sf::udf::ThirdPartyLibrariesInfo>&, bool)'
Assert "libpython_missing"[{"function": "std::vector<sf::RuntimePathLinkage> sf::{anonymous}::buildRuntimeFileSet(const sf::UdfRuntime&, std::string_view, const std::vector<sf::udf::ThirdPartyLibrariesInfo>&, bool)", "line": 1307, "stack frame ptr": "0xf2ff65553120",  "libPythonOnHost": "/opt/sfc/deployments/prod1/ExecPlatform/cache/directory_cache/server_2921757878/v3/python_udf_libs/.data/4e8f2a35e2a60eb4cce3538d6f794bd7881d238d64b1b3e28c72c0f3d58843f0/lib/libpython3.9.so.1.0"}]], userMsg=Processing aborted due to error 300010:791225565; incident 9770775., reporter=unknown, dumpFile= file://, isAborting=true, isVerbose=false}

이 오류를 해결하려면 다음 단계를 시도해 보십시오.

  • 웹페이지를 새로 고치고 노트북을 다시 시작합니다.

  • 문제가 지속되면 패키지 선택기를 열고 설치된 모든 패키지가 유효한지 확인하십시오. 각 패키지의 드롭다운에서 사용 가능한 버전을 확인할 수 있습니다. 패키지의 최신 버전을 선택하면 일반적으로 오류가 해결됩니다.

읽기 전용 파일 시스템 문제

일부 Python 라이브러리는 로컬 사용자 디렉터리에 데이터를 다운로드하거나 캐시합니다. 그러나 기본 사용자 디렉터리 /home/udf 는 읽기 전용입니다. 이 문제를 해결하려면 경로를 쓰기 가능한 위치인 /tmp 로 설정합니다. 쓰기 디렉터리를 설정하는 데 사용되는 환경 변수는 사용하는 라이브러리에 따라 달라질 수 있습니다. 다음은 이 문제를 유발하는 것으로 알려진 라이브러리 목록입니다.

  • matplotlib

  • HuggingFace

  • catboost

matplotlib 예

Matplotlib를 사용할 때 이 경고가 표시될 수 있습니다.

Matplotlib created a temporary cache directory at /tmp/matplotlib-2fk8582w because the default path (/home/udf/.config/matplotlib) is
not a writable directory; it is highly recommended to set the MPLCONFIGDIR environment variable to a writable directory, in particular
to speed up the import of Matplotlib and to better support multiprocessing.

MPLCONFIGDIR 변수를 /tmp/ 로 설정하는 다음 코드를 사용하여 이 경고를 해결합니다.

import os
os.environ["MPLCONFIGDIR"] = '/tmp/'
import matplotlib.pyplot as plt
Copy

Huggingface 예

허깅페이스를 사용할 때 이 경고가 표시될 수 있습니다.

Readonly file system: `/home/udf/.cache`

다음 코드는 이 오류를 제거하기 위해 HF_HOMESENTENCE_TRANSFORMERS_HOME 변수를 /tmp/ 로 설정합니다.

import os
os.environ['HF_HOME'] = '/tmp'
os.environ['SENTENCE_TRANSFORMERS_HOME'] = '/tmp'

from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Snowflake/snowflake-arctic-embed-xs")
Copy

df.collect() 사용 시 출력 메시지가 너무 큼

df.collect() 를 실행하면 셀 출력에 다음 메시지가 표시됩니다.

MessageSizeError: Data of size 522.0 MB exceeds the message size limit of 200.0 MB.
This is often caused by a large chart or dataframe. Please decrease the amount of data sent to the browser,
or increase the limit by setting the config option server.maxMessageSize.
Click here to learn more about config options.
Note that increasing the limit may lead to long loading times and large memory consumption of the client's browser and the Streamlit server.

Snowflake Notebooks 는 다음과 같은 경우 대규모 데이터 세트의 셀 출력 결과를 자동으로 잘라냅니다.

  • 모든 SQL 셀 결과.

  • Python 셀이 snowpark.Dataframe 인 경우의 결과입니다.

위 셀의 문제점은 df.collect()snowpark.Dataframe 대신 List 를 반환한다는 것입니다. 목록은 자동으로 잘리지 않습니다. 이 문제를 해결하려면 DataFrame의 결과를 직접 출력합니다.

df
Copy

Snowpark DataFrames에서 df.to_pandas() 를 사용할 때 노트북이 충돌합니다.

df.to_pandas() 를 실행할 때 모든 데이터가 메모리에 로드되며, 데이터 크기가 연결된 노트북 웨어하우스의 메모리 제한을 초과하면 노트북 세션이 종료될 수 있습니다.

예 1: Snowpark 테이블을 pandas DataFrame으로 내보내기

data = session.table("BIG_TABLE")
df = data.to_pandas() # This may lead to memory error
Copy

예제 1의 해결 방법

다음 예제는 Snowpark pandas가 있는 테이블에서 읽을 수 있도록 코드를 다시 작성하는 방법을 보여줍니다.

# Import Snowpark pandas
import modin.pandas as pd
import snowflake.snowpark.modin.plugin
# Create a Snowpark pandas DataFrame from BIG_TABLE
df = pd.read_snowflake("BIG_TABLE")
# Keep working with your data using the pandas API
df.dropna()
Copy

예 2: Large 결과가 포함된 SQL 셀 참조하기

SQL cell1 이라는 셀에 다음 코드가 있는 경우 출력 결과는 500M 행입니다.

SELECT * from BIG_TABLE
Copy

그런 다음 결과를 pandas(DataFrame)로 가져올 때 데이터가 너무 커서 메모리에 맞지 않아 노트북이 충돌합니다.

df = cell1.to_pandas() # This may lead to memory error
Copy

일반적으로 대규모 데이터 세트의 경우, Snowflake는 df.to_pandas() 를 사용하지 않는 것이 좋습니다. 대신, pandas로 데이터를 작업하려면 Snowpark pandas API 및 Snowpark에 최적화된 데이터 웨어하우스 를 사용하십시오. Snowpark pandas API 를 사용하면 SQL 에서 수행한 쿼리를 사용하여 Snowflake의 데이터에서 직접 pandas 코드를 실행할 수 있습니다. 이렇게 하면 노트북의 메모리에 맞지 않는 데이터에 대해 pandas 코드를 실행할 수 있습니다.

예제 2의 해결 방법

위의 두 번째 셀 참조 예제에서는 SQL 셀 결과를 먼저 Snowpark DataFrame 으로 변환할 수 있습니다. 그런 다음 Snowpark pandas로 변환할 수 있습니다.

SELECT * from BIG_TABLE
snowpark_df = cell1.to_df()
df = snowpark_df.to_snowpark_pandas()
# Keep working with your data using the Snowpark pandas API
Copy

자세한 내용은 노트북의 pandas on Snowflake 를 참조하십시오.

VPN 분할 터널링으로 인해 연결할 수 없습니다

VPN 이 분할 터널링을 사용하도록 구성된 경우 네트워크 정책 허용 목록에 *.snowflake.com*.snowflake.app 을 모두 추가해야 합니다.

패키지 버전 충돌

기본 이미지에서 패키지 버전을 로딩하는 비대화형 노트북을 실행한 다음 새 버전을 설치하려고 시도하면 새 버전이 로딩되지 않습니다. 패키지 버전이 기본 이미지와 일치하는지 확인합니다. 대화형 노트북에서는 새 버전을 사용하려면 노트북을 다시 시작하라는 메시지가 표시됩니다.

예약된 SPCS 노트북을 실행하지 못함

Container Runtime에서 예약된 노트북을 실행하기 전에 이미지 리포지토리를 만들어야 합니다. 이미지 리포지토리가 누락된 경우 다음 오류가 표시됩니다.

Failed to retrieve image.

이미지 리포지토리를 생성하는 방법에 대한 자세한 내용은 CREATE IMAGE REPOSITORY 섹션을 참조하십시오.

로그 메시지가 출력에 표시되지 않음

로그 메시지가 노트북 출력에 나타나지 않는 경우 로그가 stdout 으로 전송되는지 확인하십시오. 다음은 로그를 올바르게 구성하는 방법의 예입니다.

import logging
import sys

# Create a logger
logger = logging.getLogger()

# Set the log level
logger.setLevel(logging.DEBUG)

# Create a stream handler that writes to sys.stdout
stdout_handler = logging.StreamHandler(sys.stdout)

# Set the log format (optional)
formatter = logging.Formatter('%(levelname)s: %(message)s')
stdout_handler.setFormatter(formatter)

# Add the handler to the logger
logger.addHandler(stdout_handler)

# Test the logging output
logger.warning("This is a warning message.")
Copy

오류를 강조 표시하려면 비슷한 방법을 사용하여 stderr 로 오류를 보낼 수 있습니다. 또는 Snowflake Notebooks에서 Streamlit으로 작업하는 경우, 기본 제공 함수를 사용해 보다 명확한 형식을 지정할 수 있습니다.

import streamlit as st st.warning("This is a warning message.")
st.write("This is a normal message.")
st.error("This is an error message.")
Copy

노트북을 실행할 수 없습니다

CREATE NOTEBOOK 을 사용해 노트북을 생성하면 노트북의 버전 단계에서 자동으로 라이브 버전이 생성되지 않습니다. 라이브 버전을 먼저 설정하지 않고 EXECUTE NOTEBOOK 을 사용해 노트북을 실행하려고 하거나 노트북을 생성했는데 삭제되는 경우 다음과 같은 오류가 발생합니다.

Live version is not found.

이 오류를 해결하려면 다음 명령을 사용하여 초기 라이브 버전을 설정하십시오.

ALTER NOTEBOOK <name> ADD LIVE VERSION FROM LAST;
Copy