虎嗅

Русский перевод: Новая архитектурная модель HRM-Text установила инновационный рекорд: 1 миллиард параметров и стоимость в 1000 долларов США. Даже лауреаты Тьюринговской премии лично приняли участие в её разработке.

原文:新架构模型HRM-Text创新纪录,1B参数、1000美元,图灵奖得主都亲自下场了

Краткое содержание анализа

HRM-Text – это искусственный интеллект с 1 миллиардом параметров, для обучения которого потребовалось всего 1500 долларов (при использовании 16 карт H100 в течение менее двух дней). Однако этот модель превзошел многие другие модели с объемом параметров от 2 до 7 миллиардов в таких бенчмарках, как математические задачи (MATH – 56,2 балла) и простые арифметические операции (GSM8K – 84,5 баллов). Ключевой инновацией HRM-Text является отказ от традиционного подхода к созданию больших моделей, основанного на накоплении количества параметров, данных и вычислительных ресурсов. Благодаря переработке архитектуры модели (многорівневого рекуррентного обчисления) и целей обучения (сосредоточенности на ответах на конкретных вопросах) ей удалось успешно пройти предварительное обучение с использованием крайне ограниченного количества данных (лишь 40 миллиардов уникальных токенов, что в 225 раз меньше, чем у Llama3.2). HRM-Text представлен как пример концептуальной проверки возможностей инноваций в архитектуре моделей при ограниченных ресурсах; даже лауреат Тьюринговской премии Йошуа Бенгио занялся подобными исследованиями, что открывает новые перспективы для развития больших моделей.

Подробный анализ

1. Почему маленькие модели могут превзойти большие? – не за счет количества ресурсов, а за счет эффективности

Традиционная концепция больших ИИ-моделей заключается в том, что чем больше параметров, данных и вычислительных мощностей, тем выше их производительность. Однако HRM-Text демонстрирует обратное: с 1 миллиардом параметров, всего за 1500 долларов и при использовании незначительного объема данных он достиг хороших результатов. Секрет заключается в оптимизации процесса обработки информации – модель выполняет больше эффективных внутренних вычислений перед выводом результата, а не просто увеличивает количество параметров. Это похоже на работу опытного повара, который из одних и тех же ингредиентов создает более качественное блюдо.

2. Инновации в архитектуре модели

Обычные модели на основе алгоритма Transformer работают по принципу конвейера: данные последовательно обрабатываются каждым уровнем сети. HRM-Text использует механизм повторяющихся итераций:

  • Модель состоит из двух модулей: высокого уровня H (медленно обновляемый, отвечающего за обработку глобального контекста) и низкого уровня L (быстро обновляемый, отвечающего за корректировку результатов).
  • Перед каждым выводом модель несколько раз обновляет свое внутреннее состояние (например, перед ответом на вопрос происходит 6 итераций модуля L и 2 итерации модуля H). Это позволяет модели тщательнее обдумать ответ.

Для предотвращения сбоев при многократных итерациях используются два метода:

  • MagicNorm – для контроля колебаний данных в процессе вычислений;
  • Постепенная проверка результатов – на начальном этапе обучения модель отвечает только за последние шаги обработки, а затем функция проверки распространяется и на более ранние этапы.

3. Цели обучения

В отличие от обычных моделей, HRM-Text обучается не на предсказании всех возможных вариантов ответа (включая сам вопрос), а исключительно на правильном решении конкретной задачи. Например, для модели предоставляется лишь математическая задача; ей не нужно учиться формулировать вопросы, а лишь находить правильные решения. Кроме того, используется алгоритм PrefixLM для полного понимания контекста задачи (включая инструкции), что повышает эффективность обучения.

4. Недостатки и перспективы

HRM-Text хорошо справляется с задачами, требующими логического мышления (например, математическими задачами), но уступает более крупным моделям в тестах, требующих обширных знаний. Причина в ограниченном объеме данных и количестве параметров. Будущее развитие модели направлено на разделение функций: рассчитывать логические процессы будет сама модель, а знания будут поставляться из внешних баз данных или систем поиска информации. Команда уже достигла некоторых результатов в этом направлении, но они пока не опубликованы.

5. Значение для индустрии

HRM-Text открывает новые возможности для развития ИИ-моделей: если раньше соревнование велись по количеству параметров и вычислительной мощности, теперь становится очевидно, что оптимизация алгоритмов также может значительно повысить эффективность. Это открывает новые пути для исследований и разработок, позволяя меньшим командам внести свой вклад в развитие ИИ без необходимости значительных инвестиций.

Вывод

HRM-Text не предназначен для замены больших моделей, а демонстрирует возможность создания более эффективных решений при использовании ограниченных ресурсов. Его ценность заключается в том, что он показывает: для улучшения производительности не обязательно использовать большие объемы данных и вычислительных мощностей – инновации в архитектуре моделей также могут привести к значительным результатам. Это важный шаг на пути к отказу от установки единственного критерия оценки эффективности ИИ-моделей – их размера.