1. /
  2. Новости IT
  3. /
  4. МГУ и...
razrabotki-v-otkrytom-dostupe

МГУ и Яндекс представили первый открытый датасет для обучения нейросетей сложным аспектам русского языка.

Время на прочтение: 2 минут
Содержание

Главное:

  • МГУ и Яндекс создали первый открытый датасет для обучения нейросетей сложным правилам русского языка.
  • Датасет LORuGEC содержит почти 1000 примеров ошибок, связанных с 48 языковыми нормами.
  • Метод дообучения нейросетей повышает точность исправлений на 5-10% в тестах моделей Яндекса.
  • Разработка получила признание на международной конференции по компьютерной лингвистике.

Исследователи Института искусственного интеллекта МГУ и Яндекса создали новый датасет LORuGEC, который представляет собой важный шаг в направлении совершенствования языковых моделей для русского языка. Это первый открытый набор данных, который включает примеры ошибок, связанных с сложными грамматическими правилами, и разработан с целью помощи нейросетям в успешном обучении и повышении их точности при исправлении текстов.

Проблема современных языковых моделей

Как показывает практика, многие языковые модели сталкиваются с трудностями в распознавании и корректировке сложных правил русского языка, что является особенно актуальным в контексте подготовки к экзаменам и олимпиадам, где такие ошибки могут играть решающую роль. Согласно статистике, до 40% абитуриентов допускают ошибки в заданиях, где требуется знание сложных языковых норм. Датасет LORuGEC охватывает 48 различных правил русского языка и содержит почти 1000 предложений, каждое из которых иллюстрирует типичную ошибку, что является очень полезным для обучения будущих языковых моделей.

Примечательно, что метод дообучения нейросетей, анонсированный вместе с датасетом, продемонстрировал свою эффективность на моделях Яндекса, таких как YandexGPT 5 Lite и YandexGPT 5 Pro, а также на зарубежных аналогах. Тесты показали, что новая методология позволяет значительно улучшить качество исправлений, достигнув прироста точности на 5-10%. Это особенно важно, учитывая, что современные пользователи все чаще прибегают к использованию автоматизированных систем коррекции текста, и их доверие к таким инструментам зависит от их надежности и точности.

За свою инновационность, статья о данном датасете и методе дообучения была отмечена призом на воркшопе по использованию искусственного интеллекта в образовании, проходившего в рамках международной конференции по компьютерной лингвистике ACL 2025. Учитывая текущие тренды и восторженные отзывы о разработках, можно с уверенностью сказать, что LORuGEC станет важным инструментом в разработке образовательных сервисов, направленных на изучение русского языка.

В завершение отметим, что открытость данных, предоставляемых в рамках этой инициативы, подчеркивает важность сотрудничества между научным сообществом и технологическими компаниями. Доступ к таким ресурсам может вдохновить новых разработчиков и исследователей на создание еще более эффективных инструментов и сервисов, которые улучшат качество обучения и понимания русского языка в эпоху цифровых технологий.

Еще статьи