1. /
  2. Новости IT
  3. /
  4. «Вспомнить всё»:...
lm2-large-memory-models

«Вспомнить всё»: учёные представили новую архитектуру языковых моделей с расширенной памятью

Время на прочтение: 2 минут
Содержание

Главное:

  • Исследователи представили новую языковую модель LM2 с большими возможностями памяти.
  • LM2 демонстрирует улучшение точности на 37,1% по сравнению с предыдущими моделями.
  • Добавленный модуль памяти позволяет модели обрабатывать длинные контексты более эффективно.

Что такое LM2 и его особенности

В недавнем исследовании, опубликованном 9 февраля на arXiv, команда ученых из Convergence Labs представила новую архитектуру языковых моделей под названием LM2, которая значительно улучшает возможности традиционных трансформеров. В отличие от своих предшественников, LM2 адресует проблему обработки длинного контекста, добавляя к стандартному механизму внимания отдельный модуль памяти. Это нововведение позволяет модели более эффективно отбирать ключевую информацию и обновлять ее в процессе работы.

Ключевым аспектом новой архитектуры является кросс-аттеншен, используемый между модулем памяти и входными данными. Динамические гейты управления (запись, забывание и извлечение данных) позволяют адаптировать хранимую информацию по мере необходимости, что обеспечивает большую гибкость в обработке данных. По сути, LM2 делает модель более устойчивой к длинным контекстам, сохраняя при этом ее основную работоспособность.

Результаты тестирования LM2

Проведенные тесты на двух ключевых наборах данных — BABILong и MMLU — подтвердили эффективность новой модели. На сложном бенчмарке BABILong, который предназначен для многоступенчатых рассуждений, LM2 достигла прироста точности на 37,1% по сравнению с предыдущими архитектурами. На тесте MMLU, который измеряет обширные знания, модель показала улучшение на 5%. Эти результаты демонстрируют, что LM2 не только эффективно справляется с задачами, требующими глубокого понимания контекста, но и сохраняет высокие показатели на более общих тестах.

Будущее ИИ и архитектурные изменения

Разработка LM2 является важным шагом в эволюции искусственного интеллекта. Современные инвестиции в новые архитектуры показывают, что прорывы в области ИИ будут происходить не только за счет увеличения параметров, но и благодаря полному изменению архитектурных подходов. Это открывает новые горизонты и перспективы для дальнейших исследований и применения ИИ в различных сферах.

Среди текущих трендов можно выделить обучение ИИ без человеческого участия на синтетических данных, что также обогащает процесс разработки новых моделей. Безусловно, нас ждут еще множество интересных открытий на пересечении новых архитектурных изменений и автоматизации обучения. Мы находимся на пороге возможной "тихой революции", которая может изменить правила игры в области искусственного интеллекта.

Еще статьи