1. /
  2. Новости IT
  3. /
  4. Уменьшение контроля,...
issledovanie_gonkongskogo_universiteta_i_kaliforniyskogo_universiteta_v_berkli.png

Уменьшение контроля, увеличение продуктивности: ИИ модели самостоятельно обрабатывают информацию.

Время на прочтение: 2 минут
Содержание

Главное:

  • Исследования показали, что языковые модели лучше обобщают данные, если они не зависят от ручной разметки.
  • Обучение с подкреплением (RL) оказывается более эффективным по сравнению с подходом дообучения с учителем (SFT).
  • Сбор данных с ручной разметкой замедляет развитие для многих компаний и лабораторий.

Новое понимание обучения AI

Совсем недавно Гонконгский и Калифорнийский университеты в Беркли провели совместное исследование, которое бросает вызов традиционному представлению о том, как нужно обучать нейросети и языковые модели. Результаты исследований показали, что языковые модели (LLM) и визуальные языковые модели (VLM) показывают лучшие результаты, когда им предоставляется возможность самостоятельно находить решения, а не полагаться на многочисленные примеры с ручной разметкой. Это открытие может существенно изменить методы обучения и развития моделей, ставя под сомнение одно из главных убеждений сообщества — о необходимости большого количества размеченных данных.

Исследователи отмечают, что традиционный подход дообучения с учителем (SFT), который включает в себя обучение моделей на заранее размеченных данных, может не только замедлить развитие технологий, но и снижать способность моделей к обобщению. Компании, которые вынуждены собирать такие данные, сталкиваются с высокими затратами и временными задержками, что негативно сказывается на их конкурентоспособности на быстро меняющемся рынке искусственного интеллекта.

Преимущества обучения с подкреплением

Одним из важных результатов исследования стало то, что технологии обучения с подкреплением (RL) показали более высокую степень обобщения по сравнению с традиционными подходами. Модели, обученные с помощью RL, последовательно улучшали свои способности на заданиях, которые значительно отличались от тех, на которых их обучили. Это открытие подчеркивает важность подходов, основанных на обучении, которое не требует наличия заранее размеченных примеров, что позволяет обеспечить большую гибкость и адаптивность в обучении.

Опыт показывает, что использование RL может замедлить процесс обучения в некоторых случаях, если не использовать его вместе с SFT. Без начального этапа SFT, RL может не давать желаемых результатов. Это открытие важно для дальнейшего развития искусственного интеллекта, так как комбинирование обоих подходов может привести к созданию более мощных и адаптивных моделей.

Сравнение методов и будущее AI

Основная цель исследования заключалась в сравнении двух подходов — SFT и RL — на предмет их эффективности в различных задачах. Полученные результаты подчеркивают, что модели, обученные с использованием SFT, могут преуспевать на обучающих данных, но показывают значительное снижение производительности, когда встречаются с новыми, неизученными данными. В то время как модели, обученные с использованием RL, способны лучше адаптироваться и обобщать полученную информацию.

Таким образом, исследование открывает новые горизонты в области искусственного интеллекта. Комбинирование методов обучения может привести к разработке более совершенных решений для компаний, которые стремятся оставаться конкурентоспособными в высокотехнологичной среде. Обеспечивая большую гибкость и меньшее время на сбор данных, новые методы обучения с использованием RL могут ускорить процесс разработки и внедрения инновационных технологий в различных отраслях.

Еще статьи