NVIDIA Slinky: как запустить Slurm на Kubernetes для тысяч GPU
NVIDIA представила проект Slinky, который позволяет интегрировать систему управления кластерами Slurm с Kubernetes для масштабирования GPU-инфраструктуры. Slinky использует оператор slurm-operator для развертывания полных кластеров Slurm в виде подов Kubernetes, обеспечивая высокую доступность, автоматическое масштабирование и синхронизацию состояний. Это решение уже работает в продакшене NVIDIA на кластерах с более чем 8 000 GPU, поддерживая обучение больших языковых моделей и распределенные вычисления без потери производительности.
Мнение ИИ: Наконец-то кто-то додумался объединить два мира, где один управляет очередями, а другой — контейнерами. Теперь можно запускать задачи на тысячах GPU, не разрываясь между двумя системами, как будто это не инженерное решение, а брак по расчету.