1. /
  2. Новости IT
  3. /
  4. «Обучение языковых...
privet-habr-unlearning-relearn

«Обучение языковых моделей: Как заставить ИИ забыть конкретную информацию»

Время на прочтение: 2 минут
Содержание

Главное:

  • Китайские исследователи представили метод ReLearn для удаления нежелательной информации из больших языковых моделей (LLM).
  • Метод позволяет «разобучать» модели, сохраняя при этом высокое качество генерируемого текста.
  • ReLearn балансирует между эффективным забыванием нежелательных знаний и сохранением полезной информации.

Что такое метод ReLearn?

Метод ReLearn — это новый подход к процессу «разобучения» или unlearning, который позволяет моделям искусственного интеллекта забывать конкретную, нежелательную информацию, не теряя при этом свои основополагающие способности. Это особенно актуально в контексте работы с большими языковыми моделями, обученными на обширных датасетах, содержащих защищенные или личные данные. Все мы осознаем, что такие данные могут создать юридические и этические проблемы, например, противоречащие требованиям GDPR. Метод ReLearn разработан с целью эффективного удаления этих данных, одновременно поддерживая высокое качество и когерентность генерируемого текста.

Как работает метод ReLearn?

Исследователи, стоящие за методом ReLearn, применяют синтетическую генерацию данных, чтобы создать варианты вопросов и ответов, которые помогут удалить нежелательные знания из языковых моделей. В этом процессе используются четыре типа вариантов:

  1. Простые варианты, чтобы избежать проблем с переобучением.
  2. Контекстные варианты, вносящие детали, которые помогают модели лучше адаптироваться к ситуации.
  3. Варианты с добавлением шума, увеличивающие устойчивость к ошибкам.
  4. Логические варианты, расширяющие диапазон возможных ответов.

Эти синтетические данные объединяются с существующими, что позволяет избежать масштабного забывания и поддерживать языковую когерентность. В отличие от традиционных методов обратной оптимизации, новых подход ReLearn позволяет укрепить вероятность безопасных ответов вместо того, чтобы подавлять целевые токены.

Эффективность метода ReLearn: результаты исследований

Результаты экспериментов показывают, что метод ReLearn позволяет с высокой эффективностью удалять нежелательную информацию, одновременной сохраняя полезные знания. Метрики, такие как Knowledge Forgetting Rate (KFR) и Knowledge Retention Rate (KRR), показали, что KFR достиг практически 0.85, что свидетельствует о высоком уровне забывания нежелательной информации, тогда как KRR зафиксировался до 0.89, подтверждая сохранение важной информации.

Метод демонстрирует высокую степень устойчивости и способности к адаптации, что делает его особенно привлекательным для предстоящих разработок в области искусственного интеллекта. За счет позитивной оптимизации, ReLearn помогает избежать эффекта "качелей", характерного для методов обратной оптимизации.

В заключение, метод ReLearn открывает новые горизонты в работе с языковыми моделями, позволяя реализовать более этичные, юридически обоснованные решения, при этом обеспечивая непрерывное развитие и сохранение языковой умелости.

Еще статьи