Подписывайся! Будь в курсе последних новостей
подписаться

Автор Андрей Кирхин

МОСКВА, 26 февраля /Новости науки/. Глобальный консорциум из тысячи ученых со всего мира создал сложнейший экзаменационный проект «Последний экзамен человечества» (Humanity’s Last Exam, HLE), прохождение которого стабильно проваливают современные системы искусственного интеллекта (нейросети), говорится в сообщении Texas A&M University.

Как известно, современные нейросети с относительной легкостью проходят большинство существующих академических тестов, к примеру таких, как экзамен Massive Multitask Language Understanding (MMLU).

«Последний экзамен человечества» представляет собой набор из 2,5 тысячи вопросов по математике, гуманитарным и естественным наукам, древним языкам и ряду узкоспециализированных областей знаний.

«Когда ИИ-системы начинают показывать очень высокие результаты на тестах для людей, возникает соблазн подумать, что они приближаются к уровню человеческого понимания. Но HLE напоминает нам, что интеллект — это не только распознавание шаблонов; это еще и глубина, контекст и специализированная экспертиза», - считает один из участников проекта, доцент кафедры компьютерных наук и инженерии Техасского университета Тунг Нгуен.

Вопросы для HLE писали и проверяли эксперты со всего мира в своих областях. Они следили за тем, чтобы у каждого вопроса был один однозначный, проверяемый ответ, который нельзя мгновенно найти простым поиском в интернете. Задания основаны на академических задачах экспертного уровня — от перевода древних пальмирских надписей до идентификации микроскопических анатомических структур у птиц или анализа тонких особенностей произношения библейского иврита.

Каждый вопрос проверяли на ведущих ИИ-моделях. Если какая-либо система могла ответить на него правильно, вопрос исключали. В итоге получился экзамен, специально спроектированный так, чтобы находиться чуть выше текущих возможностей ИИ.

Первые результаты показали, что даже самые продвинутые модели испытывают серьезные трудности. GPT-4o набрал 2,7%; Claude 3.5 Sonnet — 4,1%; флагманская модель OpenAI o1 достигла лишь 8%. Самые продвинутые модели, включая Gemini 3.1 Pro и Claude Opus 4.6, показали точность примерно на уровне 40–50%.

Несмотря на свое апокалиптическое название, Humanity’s Last Exam не должен восприниматься как намек на конец значимости человека. Напротив, он показывает, как много знаний по-прежнему остается уникально человеческими и какой путь ИИ-системам еще предстоит пройти.

Авторы HLE задумали его как долгосрочный, прозрачный бенчмарк для оценки продвинутых ИИ-систем. В рамках этой задачи команда авторов сделала часть экзамена доступной публично, но большую часть вопросов оставила закрытой, чтобы ИИ-модели не могли просто заучить ответы.

Работа ученых описана в статье, опубликованной в журнале Nature, документация проекта доступна на lastexam.ai.

Андрей Кирхин

Известный журналист и научный популяризатор, специализирующийся на темах космоса, технологий и инноваций. Свою карьеру он начал в крупных научных изданиях, где за несколько лет приобрёл опыт в написании сложных тем для широкой аудитории. Его работы отличаются ясностью изложения, глубиной анализа и умением находить интересные аспекты даже в самых сложных исследованиях.