Snowflake Notebooks 의 오류 문제 해결¶
다음 시나리오는 Snowflake Notebooks 사용 시 발생할 수 있는 문제를 해결하는 데 도움이 될 수 있습니다.
노트북 총 개수 한도 초과¶
계정의 총 Notebooks 수가 6000개를 초과하고 노트북 목록을 새로 고치면 다음 오류가 발생합니다.
Result size for streamlit list exceeded the limit. Streamlit list was truncated.
사용자는 여전히 새 노트북을 생성할 수 있지만, Snowflake는 계정에서 더 이상 사용하지 않는 노트북을 삭제할 것을 권장합니다.
Snowflake.core 패키지 충돌¶
Snowpark Python APIs를 사용하려면 패키지 선택기에서 snowflake.core
를 사용합니다. snowflake.core
및 snowflake
를 모두 추가했지만 다른 버전에 추가하면 패키지 충돌 오류가 반환됩니다.
패키지 업데이트 시 Notebooks(웨어하우스 런타임) 오류 발생¶
Snowflake는 더 이상 지원되지 않는 이전 snowflake-ml
패키지를 사용 중단했습니다. 이러한 패키지는 패키지 선택기에서 제거되었으며 Snowflake Anaconda 채널에서 사용할 수 없습니다. snowflake-ml
을 사용 중이고 노트북에서 패키지를 추가, 제거 또는 업데이트하려고 하면 snowflake-ml
에 더 이상 액세스할 수 없기 때문에 해당 노트북은 실패합니다.
문제를 방지하려면 Snowflake ML에 적합한 패키지인 snowflake-ml-python
으로 전환합니다.
AttributeError: NoneType
¶
노트북에서 셀 이름을 기존 변수와 같은 이름으로 바꾸면 다음 오류가 발생합니다.
AttributeError: ‘NoneType’ object has no attribute ‘sql’
예를 들어, Python 셀 cell1
에 다음이 있습니다.
session = get_active_session() #establishing a Snowpark session
그런 다음 cell2
이름을 “session”으로 변경하고 cell3
에서 “session”을 참조하면 Notebooks가 Snowpark 세션이 아닌 “session”(셀 이름)을 참조하려고 시도하여 오류가 발생합니다.
조기 연결 취소¶
노트북 세션은 저장 프로시저로 실행됩니다. 1시간 시간 제한 전에 노트북이 예기치 않게 연결이 끊기는 경우, ACCOUNTADMIN 또는 웨어하우스 소유자가 STATEMENT_TIMEOUT_IN_SECONDS 매개 변수를 특정 값(예: 5분)으로 설정하여 노트북 세션을 포함한 모든 문이 웨어하우스에서 실행될 수 있는 시간을 제한했을 수 있습니다. 이 매개 변수는 웨어하우스 또는 계정 수준에서 설정되며, 웨어하우스와 세션 모두에 대해 설정된 경우 0이 아닌 가장 낮은 값이 적용됩니다. 노트북을 더 오래 실행하려면 기본 웨어하우스 SYSTEM$STREAMLIT_NOTEBOOK$WAREHOUSE 를 사용하거나 STATEMENT_TIMEOUT_IN_SECONDS 매개 변수를 더 긴 기간으로 변경하면 됩니다.
방화벽으로 인해 접속할 수 없습니다.¶
노트북을 시작하려고 하면 다음 팝업이 나타납니다.
Something went wrong. Unable to connect. A firewall or ad blocker might be preventing you from connecting.
*.snowflake.app
이 네트워크의 허용 목록에 있고 Snowflake에 연결할 수 있는지 확인하십시오. 이 도메인이 허용 목록에 있으면 앱이 아무런 제한 없이 Snowflake 서버와 통신할 수 있습니다.
또한 Snowflake 백엔드 연결 문제를 방지하려면 네트워크 구성에서 WebSockets이 차단되어 있지 않은지 확인합니다.
활성 웨어하우스가 선택되지 않았습니다.¶
이 오류를 해결하려면 USE WAREHOUSE 명령으로 세션의 웨어하우스를 지정하거나 노트북에서 웨어하우스를 선택합니다. 노트북을 위한 웨어하우스를 선택하는 방법에 대한 단계는 Snowflake Notebooks 실행을 위한 웨어하우스 추천 섹션을 참조하십시오.
또한 노트북이 사용하는 웨어하우스, 데이터베이스 또는 스키마에 액세스할 수 있는 권한이 없는 역할을 사용하는 경우에도 이 오류가 표시됩니다. 계속해서 작업을 수행할 수 있도록 이러한 리소스에 액세스할 수 있는 역할로 전환해야 합니다.
누락된 패키지¶
노트북 환경에 설치되지 않은 패키지를 사용하려고 하면 셀 출력에 다음 메시지가 나타납니다.
ModuleNotFoundError: Line 2: Module Not Found: snowflake.core. To import packages from Anaconda, install them first using the package
selector at the top of the page.
노트북에서 사용할 Python 패키지 가져오기 페이지의 지침에 따라 필요한 패키지를 가져옵니다.
기존 노트북에서 누락된 패키지¶
노트북의 새로운 버전이 계속해서 출시되고 노트북은 최신 버전으로 자동 업그레이드됩니다. 일부 경우 오래된 노트북을 업그레이드할 때 노트북 환경의 패키지가 업그레이드와 호환되지 않는 경우가 있습니다. 이로 인해 노트북이 시작되지 않을 수 있습니다.
다음은 Libpython
패키지가 누락된 경우의 오류 메시지 예제입니다.
SnowflakeInternalException{signature=std::vector<sf::RuntimePathLinkage> sf::{anonymous}::buildRuntimeFileSet(const sf::UdfRuntime&, std::string_view, const std::vector<sf::udf::ThirdPartyLibrariesInfo>&, bool):"libpython_missing", internalMsg=[XP_WORKER_FAILURE: Unexpected error signaled by function 'std::vector<sf::RuntimePathLinkage> sf::{anonymous}::buildRuntimeFileSet(const sf::UdfRuntime&, std::string_view, const std::vector<sf::udf::ThirdPartyLibrariesInfo>&, bool)'
Assert "libpython_missing"[{"function": "std::vector<sf::RuntimePathLinkage> sf::{anonymous}::buildRuntimeFileSet(const sf::UdfRuntime&, std::string_view, const std::vector<sf::udf::ThirdPartyLibrariesInfo>&, bool)", "line": 1307, "stack frame ptr": "0xf2ff65553120", "libPythonOnHost": "/opt/sfc/deployments/prod1/ExecPlatform/cache/directory_cache/server_2921757878/v3/python_udf_libs/.data/4e8f2a35e2a60eb4cce3538d6f794bd7881d238d64b1b3e28c72c0f3d58843f0/lib/libpython3.9.so.1.0"}]], userMsg=Processing aborted due to error 300010:791225565; incident 9770775., reporter=unknown, dumpFile= file://, isAborting=true, isVerbose=false}
이 오류를 해결하려면 다음 단계를 시도해 보십시오.
웹페이지를 새로 고치고 노트북을 다시 시작합니다.
문제가 지속되면 다음 단계는 패키지 선택기를 열고 설치된 모든 패키지가 여전히 유효한지 확인하는 것입니다. 각 패키지의 드롭다운에서 사용 가능한 버전을 볼 수 있습니다. 패키지의 최신 버전을 선택하면 일반적으로 오류가 해결됩니다.
읽기 전용 파일 시스템 문제¶
일부 Python 라이브러리는 로컬 사용자 디렉터리에 데이터를 다운로드하거나 캐시합니다. 그러나 기본 사용자 디렉터리 /home/udf
는 읽기 전용입니다. 이 문제를 해결하려면 경로를 쓰기 가능한 위치인 /tmp
로 설정합니다. 쓰기 디렉터리를 설정하는 데 사용되는 환경 변수는 사용하는 라이브러리에 따라 달라질 수 있습니다. 다음은 이 문제를 유발하는 것으로 알려진 라이브러리 목록입니다.
matplotlib
HuggingFace
catboost
matplotlib 예¶
matplotlib을 사용하려고 하면 다음과 같은 경고가 표시됩니다.
Matplotlib created a temporary cache directory at /tmp/matplotlib-2fk8582w because the default path (/home/udf/.config/matplotlib) is
not a writable directory; it is highly recommended to set the MPLCONFIGDIR environment variable to a writable directory, in particular
to speed up the import of Matplotlib and to better support multiprocessing.
다음 코드는 MPLCONFIGDIR
변수를 /tmp/
로 설정하여 이 경고를 해결합니다.
import os
os.environ["MPLCONFIGDIR"] = '/tmp/'
import matplotlib.pyplot as plt
Huggingface 예¶
Huggingface를 사용하려고 하면 다음과 같은 경고가 표시됩니다.
Readonly file system: `/home/udf/.cache`
다음 코드는 이 오류를 제거하기 위해 HF_HOME
및 SENTENCE_TRANSFORMERS_HOME
변수를 /tmp/
로 설정합니다.
import os
os.environ['HF_HOME'] = '/tmp'
os.environ['SENTENCE_TRANSFORMERS_HOME'] = '/tmp'
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Snowflake/snowflake-arctic-embed-xs")
df.collect()
사용 시 출력 메시지가 너무 큼¶
df.collect()
를 실행하면 셀 출력에 다음 메시지가 표시됩니다.
MessageSizeError: Data of size 522.0 MB exceeds the message size limit of 200.0 MB.
This is often caused by a large chart or dataframe. Please decrease the amount of data sent to the browser,
or increase the limit by setting the config option server.maxMessageSize.
Click here to learn more about config options.
Note that increasing the limit may lead to long loading times and large memory consumption of the client's browser and the Streamlit server.
Snowflake Notebooks 는 다음과 같은 경우 대규모 데이터 세트의 셀 출력 결과를 자동으로 잘라냅니다.
모든 SQL 셀 결과.
Python 셀이
snowpark.Dataframe
인 경우의 결과입니다.
위 셀의 문제점은 df.collect()
가 snowpark.Dataframe
대신 List
를 반환한다는 것입니다. 목록은 자동으로 잘리지 않습니다. 이 문제를 해결하려면 DataFrame의 결과를 직접 출력합니다.
df
Snowpark DataFrames에서 df.to_pandas()
를 사용할 때 노트북이 충돌합니다.¶
df.to_pandas()
를 실행할 때 모든 데이터가 메모리에 로드되며, 데이터 크기가 연결된 노트북 웨어하우스의 메모리 제한을 초과하면 노트북 세션이 종료될 수 있습니다.
data = session.table("BIG_TABLE")
df = data.to_pandas() # This may lead to memory error
일반적으로 대규모 데이터 세트의 경우 Snowflake는 df.to_pandas()
를 사용하지 않을 것을 권장합니다. 대신 pandas로 데이터를 작업하려면 Snowpark pandas API를 사용합니다. Snowpark pandas API 를 사용하면 컴퓨팅이 SQL로 푸시된 상태에서 pandas 코드를 Snowflake의 데이터에서 직접 실행할 수 있으므로 메모리에 맞는 데이터에 대해서만 작업해야 하는 제약이 없습니다.
아래 예제는 Snowpark pandas를 사용하여 테이블에서 읽는 코드를 다시 작성하는 방법을 보여줍니다.
# Import Snowpark pandas
import modin.pandas as pd
import snowflake.snowpark.modin.plugin
# Create a Snowpark pandas DataFrame from BIG_TABLE
df = pd.read_snowflake("BIG_TABLE")
# Keep working with your data using the pandas API
df.dropna()
자세한 내용은 노트북의 Snowpark pandas 섹션을 참조하십시오.