Snowflake Notebooks 의 오류 문제 해결¶
다음 시나리오는 Snowflake Notebooks 사용 시 발생할 수 있는 문제를 해결하는 데 도움이 될 수 있습니다.
총 노트북 수가 Snowsight 의 제한을 초과합니다.¶
계정의 총 Notebooks 수가 6000개를 초과하고 노트북 목록을 새로 고치면 다음 오류가 발생합니다.
Result size for streamlit list exceeded the limit. Streamlit list was truncated.
사용자는 여전히 새 노트북을 만들 수 있지만, 계정에서 더 이상 사용하지 않는 노트북은 삭제하는 것이 좋습니다.
패키지 업데이트 시 Notebooks(웨어하우스 런타임) 오류 발생¶
Snowflake는 더 이상 지원되지 않는 이전 snowflake-ml
패키지를 사용 중단했습니다. 이러한 패키지는 패키지 선택기에서 제거되었으며 Snowflake Anaconda 채널에서 사용할 수 없습니다. snowflake-ml
을 사용 중이고 노트북에서 패키지를 추가, 제거 또는 업데이트하려고 하면 snowflake-ml
에 더 이상 액세스할 수 없기 때문에 해당 노트북은 실패합니다.
문제를 방지하려면 Snowflake ML에 적합한 패키지인 snowflake-ml-python
으로 전환합니다.
플롯 오류¶
st.plotly_chart(fig, render_mode='svg')
WebGL is not supported by your browser - visit https://get.webgl.org for more info.
데이터 포인트가 1,000개가 넘으면 Plotly는 웹글로 전환합니다.
AttributeError: NoneType
¶
노트북에서 셀 이름을 기존 변수와 같은 이름으로 바꾸면 다음 오류가 발생합니다.
AttributeError: ‘NoneType’ object has no attribute ‘sql’
예를 들어, Python 셀 cell1
에 다음이 있습니다.
session = get_active_session() #establishing a Snowpark session
그런 다음 cell2
이름을 “session”으로 변경하고 cell3
에서 “session”을 참조하면 Notebooks가 Snowpark 세션이 아닌 “session”(셀 이름)을 참조하려고 시도하여 오류가 발생합니다.
조기 연결 취소¶
노트북 세션은 저장 프로시저로 실행됩니다. 시간 제한은 웨어하우스 런타임에서 30분, 컨테이너 런타임에서 60분입니다. 시간 제한 전에 노트북이 예기치 않게 연결이 끊기는 경우, ACCOUNTADMIN 또는 웨어하우스 소유자가 STATEMENT_TIMEOUT_IN_SECONDS 매개 변수를 특정 값(예: 5분)으로 설정해 노트북 세션을 포함한 모든 문이 웨어하우스에서 실행될 수 있는 시간을 제한했을 수 있습니다. 이 매개 변수는 웨어하우스 또는 계정 수준에서 설정되며, 웨어하우스와 세션 모두에 대해 설정된 경우 0이 아닌 가장 낮은 값이 적용됩니다.
유휴 시간 설정에 대한 자세한 내용은 유휴 시간 및 재접속 섹션을 참조하십시오.
다시 연결하지 못함¶
브라우저에서 쿠키를 활성화하지 않은 경우, 노트북 세션이 아직 활동 중일 때(비활성화로 인해 시간 초과되기 전)에는 자동으로 다시 연결할 수 없습니다. 노트북을 다시 열면 오류 메시지가 표시됩니다.
Notebook connection lost and cannot reconnect. Restart or end session.
세션을 다시 시작하면 현재 EXECUTE NOTEBOOK 쿼리가 종료되고 새 세션이 시작됩니다. 세션을 종료하면 현재 EXECUTE NOTEBOOK 쿼리가 종료됩니다.
두 작업 중 하나를 수행하지 않으면 현재 EXECUTE NOTEBOOK 쿼리가 Query History 에 표시된 웨어하우스에서 계속 실행됩니다.
방화벽으로 인해 접속할 수 없습니다.¶
노트북을 시작하려고 하면 다음 팝업이 나타납니다.
Something went wrong. Unable to connect. A firewall or ad blocker might be preventing you from connecting.
*.snowflake.app
이 콘텐츠 필터링 시스템을 포함한 네트워크의 허용 목록에 있는지, Snowflake에 연결할 수 있는지 확인하십시오. 이 도메인이 허용 목록에 있으면 앱이 아무런 제한 없이 Snowflake 서버와 통신할 수 있습니다.
또한 Snowflake 백엔드 연결 문제를 방지하려면 네트워크 구성에서 WebSockets이 차단되어 있지 않은지 확인합니다.
누락된 패키지¶
노트북 환경에 설치되지 않은 패키지를 사용하려고 하면 셀 출력에 다음 메시지가 나타납니다.
ModuleNotFoundError: Line 2: Module Not Found: snowflake.core. To import packages from Anaconda, install them first using the package
selector at the top of the page.
노트북에서 사용할 Python 패키지 가져오기 페이지의 지침에 따라 필요한 패키지를 가져옵니다.
기존 노트북에서 누락된 패키지¶
노트북의 새로운 버전이 계속해서 출시되고 노트북은 최신 버전으로 자동 업그레이드됩니다. 일부 경우 오래된 노트북을 업그레이드할 때 노트북 환경의 패키지가 업그레이드와 호환되지 않는 경우가 있습니다. 이로 인해 노트북이 시작되지 않을 수 있습니다.
다음은 Libpython
패키지가 누락된 경우의 오류 메시지 예제입니다.
SnowflakeInternalException{signature=std::vector<sf::RuntimePathLinkage> sf::{anonymous}::buildRuntimeFileSet(const sf::UdfRuntime&, std::string_view, const std::vector<sf::udf::ThirdPartyLibrariesInfo>&, bool):"libpython_missing", internalMsg=[XP_WORKER_FAILURE: Unexpected error signaled by function 'std::vector<sf::RuntimePathLinkage> sf::{anonymous}::buildRuntimeFileSet(const sf::UdfRuntime&, std::string_view, const std::vector<sf::udf::ThirdPartyLibrariesInfo>&, bool)'
Assert "libpython_missing"[{"function": "std::vector<sf::RuntimePathLinkage> sf::{anonymous}::buildRuntimeFileSet(const sf::UdfRuntime&, std::string_view, const std::vector<sf::udf::ThirdPartyLibrariesInfo>&, bool)", "line": 1307, "stack frame ptr": "0xf2ff65553120", "libPythonOnHost": "/opt/sfc/deployments/prod1/ExecPlatform/cache/directory_cache/server_2921757878/v3/python_udf_libs/.data/4e8f2a35e2a60eb4cce3538d6f794bd7881d238d64b1b3e28c72c0f3d58843f0/lib/libpython3.9.so.1.0"}]], userMsg=Processing aborted due to error 300010:791225565; incident 9770775., reporter=unknown, dumpFile= file://, isAborting=true, isVerbose=false}
이 오류를 해결하려면 다음 단계를 시도해 보십시오.
웹페이지를 새로 고치고 노트북을 다시 시작합니다.
문제가 지속되면 패키지 선택기를 열고 설치된 모든 패키지가 유효한지 확인하십시오. 각 패키지의 드롭다운에서 사용 가능한 버전을 확인할 수 있습니다. 패키지의 최신 버전을 선택하면 일반적으로 오류가 해결됩니다.
읽기 전용 파일 시스템 문제¶
일부 Python 라이브러리는 로컬 사용자 디렉터리에 데이터를 다운로드하거나 캐시합니다. 그러나 기본 사용자 디렉터리 /home/udf
는 읽기 전용입니다. 이 문제를 해결하려면 경로를 쓰기 가능한 위치인 /tmp
로 설정합니다. 쓰기 디렉터리를 설정하는 데 사용되는 환경 변수는 사용하는 라이브러리에 따라 달라질 수 있습니다. 다음은 이 문제를 유발하는 것으로 알려진 라이브러리 목록입니다.
matplotlib
HuggingFace
catboost
matplotlib 예¶
Matplotlib를 사용할 때 이 경고가 표시될 수 있습니다.
Matplotlib created a temporary cache directory at /tmp/matplotlib-2fk8582w because the default path (/home/udf/.config/matplotlib) is
not a writable directory; it is highly recommended to set the MPLCONFIGDIR environment variable to a writable directory, in particular
to speed up the import of Matplotlib and to better support multiprocessing.
MPLCONFIGDIR
변수를 /tmp/
로 설정하는 다음 코드를 사용하여 이 경고를 해결합니다.
import os
os.environ["MPLCONFIGDIR"] = '/tmp/'
import matplotlib.pyplot as plt
Huggingface 예¶
허깅페이스를 사용할 때 이 경고가 표시될 수 있습니다.
Readonly file system: `/home/udf/.cache`
다음 코드는 이 오류를 제거하기 위해 HF_HOME
및 SENTENCE_TRANSFORMERS_HOME
변수를 /tmp/
로 설정합니다.
import os
os.environ['HF_HOME'] = '/tmp'
os.environ['SENTENCE_TRANSFORMERS_HOME'] = '/tmp'
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Snowflake/snowflake-arctic-embed-xs")
df.collect()
사용 시 출력 메시지가 너무 큼¶
df.collect()
를 실행하면 셀 출력에 다음 메시지가 표시됩니다.
MessageSizeError: Data of size 522.0 MB exceeds the message size limit of 200.0 MB.
This is often caused by a large chart or dataframe. Please decrease the amount of data sent to the browser,
or increase the limit by setting the config option server.maxMessageSize.
Click here to learn more about config options.
Note that increasing the limit may lead to long loading times and large memory consumption of the client's browser and the Streamlit server.
Snowflake Notebooks 는 다음과 같은 경우 대규모 데이터 세트의 셀 출력 결과를 자동으로 잘라냅니다.
모든 SQL 셀 결과.
Python 셀이
snowpark.Dataframe
인 경우의 결과입니다.
위 셀의 문제점은 df.collect()
가 snowpark.Dataframe
대신 List
를 반환한다는 것입니다. 목록은 자동으로 잘리지 않습니다. 이 문제를 해결하려면 DataFrame의 결과를 직접 출력합니다.
df
Snowpark DataFrames에서 df.to_pandas()
를 사용할 때 노트북이 충돌합니다.¶
df.to_pandas()
를 실행할 때 모든 데이터가 메모리에 로드되며, 데이터 크기가 연결된 노트북 웨어하우스의 메모리 제한을 초과하면 노트북 세션이 종료될 수 있습니다.
예 1: Snowpark 테이블을 pandas DataFrame으로 내보내기¶
data = session.table("BIG_TABLE")
df = data.to_pandas() # This may lead to memory error
예제 1의 해결 방법¶
다음 예제는 Snowpark pandas가 있는 테이블에서 읽을 수 있도록 코드를 다시 작성하는 방법을 보여줍니다.
# Import Snowpark pandas
import modin.pandas as pd
import snowflake.snowpark.modin.plugin
# Create a Snowpark pandas DataFrame from BIG_TABLE
df = pd.read_snowflake("BIG_TABLE")
# Keep working with your data using the pandas API
df.dropna()
예 2: Large 결과가 포함된 SQL 셀 참조하기¶
SQL cell1
이라는 셀에 다음 코드가 있는 경우 출력 결과는 500M 행입니다.
SELECT * from BIG_TABLE
그런 다음 결과를 pandas(DataFrame)로 가져올 때 데이터가 너무 커서 메모리에 맞지 않아 노트북이 충돌합니다.
df = cell1.to_pandas() # This may lead to memory error
일반적으로 대규모 데이터 세트의 경우, Snowflake는 df.to_pandas()
를 사용하지 않는 것이 좋습니다. 대신, pandas로 데이터를 작업하려면 Snowpark pandas API 및 Snowpark에 최적화된 데이터 웨어하우스 를 사용하십시오. Snowpark pandas API 를 사용하면 SQL 에서 수행한 쿼리를 사용하여 Snowflake의 데이터에서 직접 pandas 코드를 실행할 수 있습니다. 이렇게 하면 노트북의 메모리에 맞지 않는 데이터에 대해 pandas 코드를 실행할 수 있습니다.
예제 2의 해결 방법¶
위의 두 번째 셀 참조 예제에서는 SQL 셀 결과를 먼저 Snowpark DataFrame 으로 변환할 수 있습니다. 그런 다음 Snowpark pandas로 변환할 수 있습니다.
SELECT * from BIG_TABLE
snowpark_df = cell1.to_df()
df = snowpark_df.to_snowpark_pandas()
# Keep working with your data using the Snowpark pandas API
자세한 내용은 노트북의 pandas on Snowflake 를 참조하십시오.
VPN 분할 터널링으로 인해 연결할 수 없습니다¶
VPN 이 분할 터널링을 사용하도록 구성된 경우 네트워크 정책 허용 목록에 *.snowflake.com
및 *.snowflake.app
을 모두 추가해야 합니다.