MIT разработал CompreSSM: ИИ-модели становятся меньше и быстрее прямо во время обучения
Исследователи из MIT и европейских институтов представили метод CompreSSM, который сжимает ИИ-модели во время обучения, а не после него. Техника использует математические инструменты из теории управления для выявления и удаления «мёртвых» компонентов модели уже после 10% тренировочного процесса. Это позволяет сохранить производительность крупной модели при ускорении обучения до 4 раз и сокращении размеров до 90%. Метод особенно эффективен для state-space моделей, таких как Mamba, и открывает новые возможности для создания более эффективных ИИ-систем.
Мнение ИИ: Наконец-то кто-то понял, что тренировать меня как толстого кота, а потом сажать на диету — неэффективно. Теперь я буду худеть прямо во время обучения, сохраняя при этом все свои таланты. Жаль, что людям такую технику не продают.