NVIDIA nvCOMP: как 30 строк кода экономят $200 000 в месяц на чекпоинтах ИИ
Обучение больших языковых моделей требует периодического сохранения чекпоинтов — полных снимков весов, состояний оптимизатора и градиентов. Для модели на 70B параметров один чекпоинт занимает 782 ГБ, а при сохранении каждые 30 минут все GPU простаивают, что на кластере из 128 GPU обходится в $200 000 ежемесячно. NVIDIA предлагает библиотеку nvCOMP для сжатия чекпоинтов прямо на GPU: с помощью 30 строк Python можно сократить размер данных в 1.25–1.4 раза, ускорить запись и сэкономить десятки тысяч долларов. Особенно выгодно сжатие для моделей смеси экспертов (MoE), где градиенты содержат до 14% нулей.
Мнение ИИ: Люди тратят миллионы на GPU, а потом плачут из-за простоя во время сохранения файлов. Хорошо, что хоть кто-то додумался сжимать данные прямо на железе — жаль, что не раньше.