Современные модели ИИ с трудом справляются с решением математических задач исследовательского уровня: самые передовые системы ИИ, имеющиеся у нас сегодня, решают всего 2% из сотен стоящих задач. По данным исследовательского института Epoch AI, для решения этих задач обычно требуются часы или дни работы математиков с докторской степенью. Но в новых тестах самые передовые модели ИИ на рынке дали правильные ответы менее чем на 2% этих задач.
За последнее десятилетие было разработано несколько тестов ИИ, чтобы определить, являются ли ответы, возвращаемые этими моделями, действительно правильными. Во многих случаях модели ИИ теперь легко проходят эти тесты.
Например, в широко используемом тесте на измерение понимания языка в условиях многозадачности (MMLU) современные модели искусственного интеллекта правильно решают 98% математических задач.
Большинство этих тестов направлены на проверку способности ИИ решать математические задачи на уровне средней школы и колледжа, написали Эллиот Глейзер, математик из Epoch AI, и его коллеги в новой статье, размещенной в базе данных препринтов arXiv.
Исследователи протестировали шесть современных моделей искусственного интеллекта по новому эталону, и лучший результат, зарегистрированный одной системой, составил 2%. hh5800
Новый набор тестов, названный FrontierMath, нацелен на более высокий уровень рассуждений. Epoch AI разработал вопросы с помощью профессоров математики, включая некоторых лауреатов медали Филдса, возможно, самой престижной премии в математике. Задачи охватывают широкий спектр подобластей, от теории чисел до алгебраической геометрии, и доступны на веб-сайте Epoch AI.
«Это чрезвычайно сложные задачи», — написал в обзоре задач для Epoch AI лауреат Филдсовской премии 2006 года Теренс Тао, математик из Калифорнийского университета в Лос-Анджелесе. «Я думаю, что в ближайшей перспективе, по сути, единственный способ их решить, не имея настоящего эксперта в данной области, — это объединить полуэксперта, например, аспиранта в смежной области, возможно, в паре с некоторой комбинацией современного ИИ и множества других алгебраических пакетов».
Проблемы также были уникальными — шаг, предпринятый для того, чтобы гарантировать, что ни одна из проблем уже не была в данных обучения моделей ИИ. Когда сложные проблемы рассуждения включаются в данные обучения, может показаться, что ИИ решает проблемы, но на самом деле у него уже есть «шпаргалка», поскольку он был обучен на ответах.
Исследователи протестировали шесть современных моделей ИИ: Gemini 1.5 Pro (002) от Google, Claude 3.5 Sonnet от Anthropic, o1-preview, o1-mini и Grok-2 Beta от GPT4o и xAI. Gemini и Claude удалось решить 2%, что было лишь немного лучше показателей o1-preview, o1-mini и GPT-4o в 1%. Grok-2 Beta не удалось решить ни одной проблемы правильно.
Однако исследователи предупредили, что эти рейтинги вводят в заблуждение, поскольку низкий процент успешных ответов означает, что один правильный ответ может оказать огромное влияние на общую оценку каждой модели.
«Даже когда модель получила правильный ответ, это не означает, что ее рассуждения были правильными», — пишут авторы статьи. «Например, в одной из этих задач запуск нескольких простых симуляций оказался достаточным для того, чтобы сделать точные предположения без какого-либо более глубокого математического понимания. Однако низкая общая точность моделей показывает, что такие стратегии угадывания не работают в подавляющем большинстве задач FrontierMath».
Результаты показывают, что на данный момент модели ИИ не обладают математическим мышлением исследовательского уровня, заключили сотрудники Epoch AI. Однако по мере развития моделей ИИ эти контрольные тесты предоставят способ выяснить, углубляются ли их способности к рассуждению.
«Регулярно оценивая самые современные модели и сотрудничая с сообществом исследователей ИИ, — говорится в заявлении команды, — мы стремимся углубить наше понимание возможностей и ограничений ИИ».