Нейросети в большом количестве засоряют научные статьи вымышленными ссылками
Один из анализов почти 18 тыс. статей, принятых на три конференции по информатике, показал резкий рост ссылок, которые невозможно проследить до реальных публикаций. Если в 2024 году подозрительные ссылки были примерно в 0,3% работ, то в 2025 году — уже в 2,6%.
Источник: Adam Wójcicki.
МОСКВА, 1 апреля. /Новости науки/. Использование чат-ботов нейросетей при подготовке научных статей привело к новой проблеме: в публикациях все чаще появляются ссылки на работы, которых на самом деле не существует. По оценке Nature, только среди публикаций 2025 года таких статей могут быть уже десятки тысяч.
Поводом для нового расследования стал случай, с которым столкнулся французский информатик Гийом Кабанак. Google Scholar уведомил его, что на одну из его работ сослались в стоматологической статье. Это показалось странным, поскольку его исследования посвящены выявлению фальшивых научных публикаций и почти не связаны со стоматологией. Когда ученый посмотрел ссылку, оказалось, что она похожа на название его старого препринта, но журнал был указан неверно, а DOI не вел к оригинальной работе. Кабанак заподозрил, что ссылка была просто «придумана» искусственным интеллектом.
Как отмечают авторы обзора, речь уже идет не о случайных опечатках, которые в научных статьях встречались всегда, а о принципиально иной проблеме — полностью или частично вымышленных библиографических ссылках. Такие ошибки возникают, когда большие языковые модели, помогающие авторам искать литературу, оформлять рукописи или составлять библиографии, начинают «галлюцинировать» и выдают статьи, которых нет в реальности.
За последний год подобных случаев стало так много, что исследователи начали систематически оценивать масштаб проблемы. Один из анализов почти 18 тыс. статей, принятых на три конференции по информатике, показал резкий рост ссылок, которые невозможно проследить до реальных публикаций. Если в 2024 году подозрительные ссылки были примерно в 0,3% работ, то в 2025 году — уже в 2,6%. Другой анализ четырех научных конференций того же года дал еще более тревожную оценку: от 2% до 6% статей содержали либо перефразированные названия работ, либо ссылки на публикации, которые не удалось подтвердить по базам данных и архивам журналов.
Nature совместно с компанией Grounded AI провел собственный анализ более чем 4 тыс. публикаций 2025 года — журнальных статей, книг, глав книг и материалов конференций у пяти крупных издателей. Автоматическая система искала серьезные проблемы в ссылках: несоответствие названий, неправильные DOI, неверные журналы, отсутствующих авторов и особенно ссылки на статьи, которые должны были бы легко находиться в научных базах, но не находились вовсе.
Затем Nature вручную проверил 100 самых подозрительных публикаций. В 65 из них действительно обнаружились как минимум по одной недействительной ссылке — то есть такой, которая указывала на работу, по-видимому, вообще не существующую. Если экстраполировать эту долю на весь массив научных публикаций 2025 года, получится грубая оценка: более 110 тыс. работ из примерно 7 млн публикаций могут содержать хотя бы одну недействительную ссылку.
Исследователи подчеркивают, что это лишь приблизительная оценка, и реальная цифра может быть даже выше. Анализ касался в основном крупных издателей, у которых больше ресурсов для проверки рукописей. У меньших издательств ситуация может быть хуже. Особенно уязвимой считается информатика, где использование ИИ для написания текстов уже стало массовым.
Отдельная проблема в том, что фальшивые ссылки нередко выглядят очень правдоподобно. ИИ способен собирать их из фрагментов настоящих статей: взять фамилии авторов из одной работы, кусок названия из другой, журнал из третьей и еще добавить несуществующий DOI. В результате получается «ссылка-Франкенштейн», которая на первый взгляд кажется настоящей, но на деле ни к чему реальному не ведет.
Издатели признают, что число таких ошибок растет. Некоторые журналы уже начали отклонять рукописи из-за вымышленных ссылок. Так, редактор одного из международных журналов по политической экономии сообщила, что в январе отклонила четверть примерно из ста поступивших статей именно из-за фальшивых библиографических ссылок. Крупные издательства разрабатывают собственные инструменты проверки или тестируют внешние системы, способные автоматически сверять библиографию с научными базами.
Однако полностью автоматизировать этот процесс пока не удается. Системы проверки сами иногда ошибаются: из-за разных форматов ссылок, неполных метаданных, отсутствующих DOI или различий между базами данных и сайтами издательств они могут помечать настоящие работы как подозрительные. Поэтому ручная проверка по-прежнему остается необходимой.
Сейчас издатели и исследователи спорят, что делать с такими публикациями после выхода. Если ложная ссылка не влияет на выводы статьи и авторы могут доказать, что остальной текст надежен, материал иногда исправляют. Но во многих случаях наличие «галлюцинированных» ссылок рассматривают как признак более серьезных проблем с самой работой. Некоторые издатели уже снимают такие рукописи с рассмотрения еще до публикации, а в ряде случаев статьи и книги с вымышленными ссылками были отозваны уже после выхода.
В научной среде также идет спор, считать ли такие случаи научным проступком. Иногда авторы могут не замечать, что ИИ исказил ссылку при оформлении библиографии. Но если несуществующие публикации используются как данные, например в обзорах литературы или библиометрических исследованиях, часть специалистов предлагает рассматривать это уже как фальсификацию данных.
По мнению экспертов, проблема не ограничивается формальными ошибками. Ложные ссылки затрудняют работу другим ученым, сбивают с толку читателей, мешают проверке фактов и могут подрывать доверие к научной литературе. Именно поэтому издатели все активнее ужесточают контроль, а разработчики создают новые инструменты для автоматической проверки библиографий.
Авторы материала Nature делают вывод: фальшивые ссылки, сгенерированные ИИ, уже стали заметной проблемой современной науки, и чем шире ученые будут использовать генеративные системы без тщательной проверки, тем сильнее эта проблема будет расти.
Поводом для нового расследования стал случай, с которым столкнулся французский информатик Гийом Кабанак. Google Scholar уведомил его, что на одну из его работ сослались в стоматологической статье. Это показалось странным, поскольку его исследования посвящены выявлению фальшивых научных публикаций и почти не связаны со стоматологией. Когда ученый посмотрел ссылку, оказалось, что она похожа на название его старого препринта, но журнал был указан неверно, а DOI не вел к оригинальной работе. Кабанак заподозрил, что ссылка была просто «придумана» искусственным интеллектом.
Как отмечают авторы обзора, речь уже идет не о случайных опечатках, которые в научных статьях встречались всегда, а о принципиально иной проблеме — полностью или частично вымышленных библиографических ссылках. Такие ошибки возникают, когда большие языковые модели, помогающие авторам искать литературу, оформлять рукописи или составлять библиографии, начинают «галлюцинировать» и выдают статьи, которых нет в реальности.
За последний год подобных случаев стало так много, что исследователи начали систематически оценивать масштаб проблемы. Один из анализов почти 18 тыс. статей, принятых на три конференции по информатике, показал резкий рост ссылок, которые невозможно проследить до реальных публикаций. Если в 2024 году подозрительные ссылки были примерно в 0,3% работ, то в 2025 году — уже в 2,6%. Другой анализ четырех научных конференций того же года дал еще более тревожную оценку: от 2% до 6% статей содержали либо перефразированные названия работ, либо ссылки на публикации, которые не удалось подтвердить по базам данных и архивам журналов.
Nature совместно с компанией Grounded AI провел собственный анализ более чем 4 тыс. публикаций 2025 года — журнальных статей, книг, глав книг и материалов конференций у пяти крупных издателей. Автоматическая система искала серьезные проблемы в ссылках: несоответствие названий, неправильные DOI, неверные журналы, отсутствующих авторов и особенно ссылки на статьи, которые должны были бы легко находиться в научных базах, но не находились вовсе.
Затем Nature вручную проверил 100 самых подозрительных публикаций. В 65 из них действительно обнаружились как минимум по одной недействительной ссылке — то есть такой, которая указывала на работу, по-видимому, вообще не существующую. Если экстраполировать эту долю на весь массив научных публикаций 2025 года, получится грубая оценка: более 110 тыс. работ из примерно 7 млн публикаций могут содержать хотя бы одну недействительную ссылку.
Исследователи подчеркивают, что это лишь приблизительная оценка, и реальная цифра может быть даже выше. Анализ касался в основном крупных издателей, у которых больше ресурсов для проверки рукописей. У меньших издательств ситуация может быть хуже. Особенно уязвимой считается информатика, где использование ИИ для написания текстов уже стало массовым.
Отдельная проблема в том, что фальшивые ссылки нередко выглядят очень правдоподобно. ИИ способен собирать их из фрагментов настоящих статей: взять фамилии авторов из одной работы, кусок названия из другой, журнал из третьей и еще добавить несуществующий DOI. В результате получается «ссылка-Франкенштейн», которая на первый взгляд кажется настоящей, но на деле ни к чему реальному не ведет.
Издатели признают, что число таких ошибок растет. Некоторые журналы уже начали отклонять рукописи из-за вымышленных ссылок. Так, редактор одного из международных журналов по политической экономии сообщила, что в январе отклонила четверть примерно из ста поступивших статей именно из-за фальшивых библиографических ссылок. Крупные издательства разрабатывают собственные инструменты проверки или тестируют внешние системы, способные автоматически сверять библиографию с научными базами.
Однако полностью автоматизировать этот процесс пока не удается. Системы проверки сами иногда ошибаются: из-за разных форматов ссылок, неполных метаданных, отсутствующих DOI или различий между базами данных и сайтами издательств они могут помечать настоящие работы как подозрительные. Поэтому ручная проверка по-прежнему остается необходимой.
Сейчас издатели и исследователи спорят, что делать с такими публикациями после выхода. Если ложная ссылка не влияет на выводы статьи и авторы могут доказать, что остальной текст надежен, материал иногда исправляют. Но во многих случаях наличие «галлюцинированных» ссылок рассматривают как признак более серьезных проблем с самой работой. Некоторые издатели уже снимают такие рукописи с рассмотрения еще до публикации, а в ряде случаев статьи и книги с вымышленными ссылками были отозваны уже после выхода.
В научной среде также идет спор, считать ли такие случаи научным проступком. Иногда авторы могут не замечать, что ИИ исказил ссылку при оформлении библиографии. Но если несуществующие публикации используются как данные, например в обзорах литературы или библиометрических исследованиях, часть специалистов предлагает рассматривать это уже как фальсификацию данных.
По мнению экспертов, проблема не ограничивается формальными ошибками. Ложные ссылки затрудняют работу другим ученым, сбивают с толку читателей, мешают проверке фактов и могут подрывать доверие к научной литературе. Именно поэтому издатели все активнее ужесточают контроль, а разработчики создают новые инструменты для автоматической проверки библиографий.
Авторы материала Nature делают вывод: фальшивые ссылки, сгенерированные ИИ, уже стали заметной проблемой современной науки, и чем шире ученые будут использовать генеративные системы без тщательной проверки, тем сильнее эта проблема будет расти.