21 апреля, 2026
Image default
НОВОСТИ ВЫСОКИХ ТЕХНОЛОГИЙ

Скорость обучения ИИ удвоили, более эффективно используя GPU

Время простоя используют для обучения облегченной «черновой» модели

Обучение больших языковых моделей обходится невероятно дорого. Дело не только в количестве графических процессоров; важно и то, насколько эффективно их  используют. И по мере масштабирования моделей даже небольшие потери времени и энергии могут превратиться в огромные затраты.

Теперь группа исследователей из Массачусетского технологического института в сотрудничестве с такими компаниями, как NVidia, заявляет, что нашла удивительно практичный способ высвободить вычислительные ресурсы, которые впустую тратятся во время обучения, — в некоторых случаях это позволяет сократить общее время обучения почти вдвое.

Проблема, которую они пытаются решить, заключается в обучении с подкреплением (RL), особенно на так называемой фазе «внедрения». На этом этапе модель генерирует несколько вариантов ответов, чтобы научиться определять, какие действия приводят к лучшим результатам. Это крайне важно для моделей обучения с подкреплением, ориентированных на рассуждения, но это также медленный процесс.

Фактически, этап развертывания может составлять до 85% от общего времени выполнения. Виновником является то, что исследователи называют «распределением с длинным хвостом» длительности ответов. Большинство сгенерированных ответов завершаются быстро. Но небольшое количество занимает гораздо больше времени, чем в среднем. Поскольку графическим процессорам необходимо синхронизироваться, более быстрые из них часто простаивают, ожидая завершения работы отстающих.

Читать:
Nissan X-Trail подорожал в России на сотни тысяч рублей: самый дешевый вариант под заказ — 3 млн рублей (против 2,22 млн рублей в октябре 2025 года)

Решение команды из MIT, получившее название Taming the Long Tail (TLT), напрямую решает проблему неэффективного использования ресурсов. Вместо того чтобы оставлять графические процессоры простаивать в течение длительных поколений, TLT использует это время простоя для обучения облегченной «черновой» модели в режиме реального времени. Эта уменьшенная модель непрерывно обучается на основе основной модели по мере продвижения обучения.

Эта идея основана на спекулятивном декодировании — методе, при котором меньшая модель предсказывает токены раньше основной модели, что позволяет проверять несколько токенов параллельно. Традиционное спекулятивное декодирование опирается на фиксированную черновую модель, которая быстро устаревает по мере развития основной модели в процессе обучения с подкреплением. TLT меняет эту динамику. В экспериментах с использованием нескольких моделей обучения с логической ориентацией и реальных наборов данных результаты оказались значительными. Исследователи сообщают об ускорении обучения от 70% до 210% по сравнению с сильными базовыми моделями, что фактически удваивает скорость обучения во многих сценариях. Важно отметить, что точность модели осталась неизменной.  

Похожие записи

Похож на Mercedes-Benz Sprinter, но родом из Елабуги: в России стартовали продажи минивэнов Sollers SP7

admin

Рождественское «чудо»: BTC сложился с 88 000 до 24 000 долларов в паре BTC/USD1

admin

Intel не выпустит новые процессоры Nova Lake в этом году

admin