24 de abril de 2025 — Container Runtime para ML em clusters de vários nós — Versão preliminar¶
A Snowflake anuncia a versão preliminar do Container Runtime para ML em clusters de vários nós, um novo recurso que permite que você dimensione suas cargas de trabalho de ML em vários nós de computação nos Snowflake Notebooks.
O Container Runtime para ML em clusters de vários nós permite que você:
Dimensione as cargas de trabalho de ML: ajuste dinamicamente o número de nós em seu pool de computação para atender às necessidades de recursos de suas tarefas de ML.
Execute treinamento distribuído: treine modelos de ML em conjuntos de dados maiores usando estruturas distribuídas como PyTorch, LightGBM e XGBoost.
Gerencie os recursos do cluster: aumente facilmente a escala para tarefas com uso intensivo de recursos e diminua a escala quando forem necessários menos recursos.
Controle as operações de dimensionamento: configure o dimensionamento assíncrono, os limites de tempo limite e os requisitos mínimos de nó para atender às necessidades de seu fluxo de trabalho.
Os principais benefícios do Container Runtime para ML em clusters de vários nós incluem:
Desempenho aprimorado: processe conjuntos de dados maiores e acelere o treinamento de modelos complexos por meio da paralelização.
Eficiência de recursos: amplie ou reduza os recursos com base nos requisitos da carga de trabalho sem provisionar novos pools de computação.
Flexibilidade: suporte para operações de escalonamento síncronas ou assíncronas para corresponder ao seu fluxo de trabalho de desenvolvimento.
Simplicidade: APIs simples para escalonamento de clusters e monitoramento de nós ativos com configuração mínima.
Para começar a usar o Container Runtime para ML em clusters de vários nós, consulte Container Runtime para ML em clusters de vários nós.