1. /
  2. Новости IT
  3. /
  4. «Независимые бенчмарки...
независимые-тесты-openai-o1-решение-задач

«Независимые бенчмарки показывают уровень Deepseek v3 по сравнению с OpenAI o1»

Время на прочтение: 2 минут
Содержание

Главное:

  • Независимые тесты показали, что модель o1 от OpenAI справляется только с 30% программных задач.
  • Sonnet 3.5 от Anthropic достигла 53% успешных решений, что ставит под сомнение преимущество модели o1.
  • Методы тестирования могут существенно влиять на результаты, вызывая дальнейшие вопросы о точности заявлений OpenAI.

Неожиданный разрыв в результатах тестирования AI

Недавнее исследование, проведенное Александро Квадроном, поставило под сомнение заявленные результаты производительности модели o1 от OpenAI. В отличие от заявленных 48,9% успешных решений программных задач, тесты Квадрона показали, что реальная эффективность этой модели составляет всего 30%. Подобное несоответствие вызывает возмущение и заставляет задаться вопросами о методах измерения возможностей AI в целом.

Исследования в области искусственного интеллекта продолжают прогрессировать, а важность точной оценки возможностей моделей возрастает. Напомню, что различные методы тестирования могут создавать серьезные различия в результатах. OpenAI использовала свою собственную методологию под названием "Agentless", которая предоставляет AI четкие инструкции. В тот же время Квадрон применял метод "OpenHands", дающий модели больше свободы в выборе подхода к решению задач. Это поднимает важный вопрос о том, насколько объективно подобное тестирование отражает истинные качества искусственного интеллекта.

Сравнение с конкурентами

Конкуренты OpenAI, такие как модель Sonnet 3.5 от Anthropic, продемонстрировали более высокие результаты. Эта модель справилась с 53% задач, что говорит о том, что даже более доступные модели, такие как Deepseek v3, достигли уровня, сопоставимого с o1. Это подчеркивает сложность рынка AI и необходимость тщательного анализа и сравнения различных моделей. На фоне растущей конкуренции становится очевидным, что компании должны более откровенно делиться данными о своих продуктах, особенно когда речь идет о таких важных аспектах, как производительность и возможности.

Дополнительные исследования также подтверждают недостатки модели o1, указывая на ее затруднения в плане рассуждений и обобщений. Это может иметь серьезные последствия для восприимчивости пользователей и инвесторов к таким моделям, как o1, особенно учитывая, что успешное выступление на фоне конкурентов напрямую влияет на финансовое состояние компаний.

Значение прозрачности в тестировании AI

Столкновение различных методов тестирования подчеркивает важность осознания того, что результаты бенчмарков могут быть предвзятыми. Логан Килпатрик, переходя из OpenAI в Google AI Studio, не подозревает компанию в нечестности, но подчеркивает, что необходимость лучших методов верификации и открытости в процедурах тестирования критична для дальнейших шагов в развитии AI. Это связано с тем, что надежные результаты служат основой для PR-кампаний и влияют на инвестиции, выделяемые для разработки более совершенных AI-систем.

С учетом роста важности искусственного интеллекта в различных отраслях, понимание истинных возможностей моделей становится еще более важным. Вопросы, такие как эффективность тестирования и специфика методологий, требуют внимания не только со стороны исследователей, но и со стороны бизнеса и инвесторов, что может изменить подход к разработке и применению AI в будущем.

Еще статьи