Новая модель ИИ составила атлас из 1,1 млрд белковых структур
Открытая модель ESMFold2 предсказала форму более 1,1 млрд белков и расширила карту «белковой вселенной». Атлас может помочь ученым искать новые ферменты, антитела и молекулы для будущих лекарств.
Источник: Molekuul/SPL.
МОСКВА, 1 июня. /Новости науки/. Исследователи из Biohub представили открытую систему ESMFold2 и базу ESM Atlas, в которую вошли 6,8 млрд белковых последовательностей и 1,1 млрд предсказанных трехмерных структур. Об этом сообщили Nature и Biohub.
Белки работают в клетках как строительные детали, ферменты, сигнальные молекулы и «переключатели» процессов. Их свойства зависят не только от химического состава, но и от формы. Поэтому умение быстро предсказывать структуру белка стало одной из главных задач современной биологии.
ESMFold2 решает эту задачу с помощью искусственного интеллекта. Модель относится к классу «белковых языковых моделей». Она учится на огромном наборе белковых последовательностей и ищет в них закономерности, похожие на грамматику языка. Только вместо слов здесь аминокислоты, из которых состоят белки.
Новый атлас оказался крупнее базы AlphaFold более чем на 800 млн структур. Он также превысил предыдущую версию ESM Atlas примерно на 300 млн записей. Разработчики считают, что база поможет изучать те белки, о которых у науки пока почти нет сведений. Большая часть данных пришла из метагеномики — анализа ДНК из почвы, океана и других сред, где живет множество плохо изученных микроорганизмов.
По словам научного руководителя Biohub Алекса Ривса, атлас показывает «целостность белковой биологии», особенно ее неизвестные области. Это важно, потому что в природе есть миллиарды белков, но функции многих из них не описаны.
Авторы также проверили модель не только на предсказании формы. Они использовали ESMFold2 для создания новых антител и других белков, которые должны связываться с молекулами, связанными с раком и иммунными заболеваниями. После синтеза и лабораторных испытаний значительная часть таких конструкций сработала так, как ожидала модель.
Отдельная ценность ESMFold2 — открытый доступ. Ученые смогут использовать модель и атлас без закрытой коммерческой системы. Это отличает проект от части современных инструментов для белкового дизайна, где доступ к коду, данным или вычислениям ограничен.
При этом ESMFold2 не отменяет AlphaFold и другие модели. Скорее, она усиливает конкуренцию в быстро растущей области. Разные системы могут лучше справляться с разными задачами: одни точнее предсказывают отдельные белки, другие — комплексы белков, антитела или новые молекулы для биотехнологии.
В Biohub считают, что такие модели могут ускорить поиск новых биологических механизмов. Например, с помощью атласа исследователи уже нашли структурные сходства между микробными белками защиты CRISPR и белком для редактирования генов, который ранее обнаружили у почвенного гриба.
Исследование описано в отчете Biohub. ESM Atlas включает 6,8 млрд белковых последовательностей и 1,1 млрд предсказанных структур; система основана на модели ESMFold2 и открытых инструментах для анализа белков.
Белки работают в клетках как строительные детали, ферменты, сигнальные молекулы и «переключатели» процессов. Их свойства зависят не только от химического состава, но и от формы. Поэтому умение быстро предсказывать структуру белка стало одной из главных задач современной биологии.
ESMFold2 решает эту задачу с помощью искусственного интеллекта. Модель относится к классу «белковых языковых моделей». Она учится на огромном наборе белковых последовательностей и ищет в них закономерности, похожие на грамматику языка. Только вместо слов здесь аминокислоты, из которых состоят белки.
Новый атлас оказался крупнее базы AlphaFold более чем на 800 млн структур. Он также превысил предыдущую версию ESM Atlas примерно на 300 млн записей. Разработчики считают, что база поможет изучать те белки, о которых у науки пока почти нет сведений. Большая часть данных пришла из метагеномики — анализа ДНК из почвы, океана и других сред, где живет множество плохо изученных микроорганизмов.
По словам научного руководителя Biohub Алекса Ривса, атлас показывает «целостность белковой биологии», особенно ее неизвестные области. Это важно, потому что в природе есть миллиарды белков, но функции многих из них не описаны.
Авторы также проверили модель не только на предсказании формы. Они использовали ESMFold2 для создания новых антител и других белков, которые должны связываться с молекулами, связанными с раком и иммунными заболеваниями. После синтеза и лабораторных испытаний значительная часть таких конструкций сработала так, как ожидала модель.
Отдельная ценность ESMFold2 — открытый доступ. Ученые смогут использовать модель и атлас без закрытой коммерческой системы. Это отличает проект от части современных инструментов для белкового дизайна, где доступ к коду, данным или вычислениям ограничен.
При этом ESMFold2 не отменяет AlphaFold и другие модели. Скорее, она усиливает конкуренцию в быстро растущей области. Разные системы могут лучше справляться с разными задачами: одни точнее предсказывают отдельные белки, другие — комплексы белков, антитела или новые молекулы для биотехнологии.
В Biohub считают, что такие модели могут ускорить поиск новых биологических механизмов. Например, с помощью атласа исследователи уже нашли структурные сходства между микробными белками защиты CRISPR и белком для редактирования генов, который ранее обнаружили у почвенного гриба.
Исследование описано в отчете Biohub. ESM Atlas включает 6,8 млрд белковых последовательностей и 1,1 млрд предсказанных структур; система основана на модели ESMFold2 и открытых инструментах для анализа белков.