Ученые создали проект «Последний экзамен человечества» для тестирования ИИ
«Последний экзамен человечества» представляет собой набор из 2,5 тысячи вопросов по математике, гуманитарным и естественным наукам, древним языкам и ряду узкоспециализированных областей знаний.
Источник: Новости науки. Человек и Ai проходят тест - иллюстрация создана с помощью нейросети.
МОСКВА, 26 февраля /Новости науки/. Глобальный консорциум из тысячи ученых со всего мира создал сложнейший экзаменационный проект «Последний экзамен человечества» (Humanity’s Last Exam, HLE), прохождение которого стабильно проваливают современные системы искусственного интеллекта (нейросети), говорится в сообщении Texas A&M University.
Как известно, современные нейросети с относительной легкостью проходят большинство существующих академических тестов, к примеру таких, как экзамен Massive Multitask Language Understanding (MMLU).
«Последний экзамен человечества» представляет собой набор из 2,5 тысячи вопросов по математике, гуманитарным и естественным наукам, древним языкам и ряду узкоспециализированных областей знаний.
«Когда ИИ-системы начинают показывать очень высокие результаты на тестах для людей, возникает соблазн подумать, что они приближаются к уровню человеческого понимания. Но HLE напоминает нам, что интеллект — это не только распознавание шаблонов; это еще и глубина, контекст и специализированная экспертиза», - считает один из участников проекта, доцент кафедры компьютерных наук и инженерии Техасского университета Тунг Нгуен.
Вопросы для HLE писали и проверяли эксперты со всего мира в своих областях. Они следили за тем, чтобы у каждого вопроса был один однозначный, проверяемый ответ, который нельзя мгновенно найти простым поиском в интернете. Задания основаны на академических задачах экспертного уровня — от перевода древних пальмирских надписей до идентификации микроскопических анатомических структур у птиц или анализа тонких особенностей произношения библейского иврита.
Каждый вопрос проверяли на ведущих ИИ-моделях. Если какая-либо система могла ответить на него правильно, вопрос исключали. В итоге получился экзамен, специально спроектированный так, чтобы находиться чуть выше текущих возможностей ИИ.
Первые результаты показали, что даже самые продвинутые модели испытывают серьезные трудности. GPT-4o набрал 2,7%; Claude 3.5 Sonnet — 4,1%; флагманская модель OpenAI o1 достигла лишь 8%. Самые продвинутые модели, включая Gemini 3.1 Pro и Claude Opus 4.6, показали точность примерно на уровне 40–50%.
Несмотря на свое апокалиптическое название, Humanity’s Last Exam не должен восприниматься как намек на конец значимости человека. Напротив, он показывает, как много знаний по-прежнему остается уникально человеческими и какой путь ИИ-системам еще предстоит пройти.
Авторы HLE задумали его как долгосрочный, прозрачный бенчмарк для оценки продвинутых ИИ-систем. В рамках этой задачи команда авторов сделала часть экзамена доступной публично, но большую часть вопросов оставила закрытой, чтобы ИИ-модели не могли просто заучить ответы.
Работа ученых описана в статье, опубликованной в журнале Nature, документация проекта доступна на lastexam.ai.
Как известно, современные нейросети с относительной легкостью проходят большинство существующих академических тестов, к примеру таких, как экзамен Massive Multitask Language Understanding (MMLU).
«Последний экзамен человечества» представляет собой набор из 2,5 тысячи вопросов по математике, гуманитарным и естественным наукам, древним языкам и ряду узкоспециализированных областей знаний.
«Когда ИИ-системы начинают показывать очень высокие результаты на тестах для людей, возникает соблазн подумать, что они приближаются к уровню человеческого понимания. Но HLE напоминает нам, что интеллект — это не только распознавание шаблонов; это еще и глубина, контекст и специализированная экспертиза», - считает один из участников проекта, доцент кафедры компьютерных наук и инженерии Техасского университета Тунг Нгуен.
Вопросы для HLE писали и проверяли эксперты со всего мира в своих областях. Они следили за тем, чтобы у каждого вопроса был один однозначный, проверяемый ответ, который нельзя мгновенно найти простым поиском в интернете. Задания основаны на академических задачах экспертного уровня — от перевода древних пальмирских надписей до идентификации микроскопических анатомических структур у птиц или анализа тонких особенностей произношения библейского иврита.
Каждый вопрос проверяли на ведущих ИИ-моделях. Если какая-либо система могла ответить на него правильно, вопрос исключали. В итоге получился экзамен, специально спроектированный так, чтобы находиться чуть выше текущих возможностей ИИ.
Первые результаты показали, что даже самые продвинутые модели испытывают серьезные трудности. GPT-4o набрал 2,7%; Claude 3.5 Sonnet — 4,1%; флагманская модель OpenAI o1 достигла лишь 8%. Самые продвинутые модели, включая Gemini 3.1 Pro и Claude Opus 4.6, показали точность примерно на уровне 40–50%.
Несмотря на свое апокалиптическое название, Humanity’s Last Exam не должен восприниматься как намек на конец значимости человека. Напротив, он показывает, как много знаний по-прежнему остается уникально человеческими и какой путь ИИ-системам еще предстоит пройти.
Авторы HLE задумали его как долгосрочный, прозрачный бенчмарк для оценки продвинутых ИИ-систем. В рамках этой задачи команда авторов сделала часть экзамена доступной публично, но большую часть вопросов оставила закрытой, чтобы ИИ-модели не могли просто заучить ответы.
Работа ученых описана в статье, опубликованной в журнале Nature, документация проекта доступна на lastexam.ai.