Подписывайся! Будь в курсе последних новостей
подписаться

Автор Администратор Сайта

МОСКВА, 28 апреля. /Новости науки/. Разработчики искусственного интеллекта все чаще создают «модели мира» — системы, которые не просто генерируют текст, картинки или видео, а строят интерактивную среду с учетом физических законов. Такие модели могут ускорить обучение роботов, беспилотных машин и автоматизированных научных лабораторий, пишет Nature.

«Модели мира» должны понимать, что предмет, столкнутый со стола, упадет вниз, а автомобиль, съехавший с обрыва, не продолжит путь по воздуху. Это отличает их от многих генеративных систем, которые создают правдоподобные изображения, но не всегда верно предсказывают поведение объектов в реальности.

Интерес к таким системам быстро растет. Над ними работают Google, Nvidia, стартап Runway и компания AMI Labs, которую основал один из пионеров ИИ Ян Лекун.

В широком смысле почти любая нейросеть, обученная на данных о реальности, содержит некоторую «модель мира». Но в последние два года этим термином все чаще называют ИИ, который создает устойчивую трехмерную среду. Пользователь может перемещаться по ней почти как в видеоигре и проверять, что произойдет при разных действиях.

Один из примеров — Genie 3 от Google DeepMind. Компания представила эту систему в августе 2025 года. Она создает фотореалистичные среды по короткому текстовому описанию и позволяет исследовать их в реальном времени.

Такие модели обучают на тысячах часов видео из реального мира. Также используют точные физические симуляции, где объекты подчиняются законам механики. Компании редко раскрывают детали обучения, потому что считают их конкурентным преимуществом.

Главная польза «моделей мира» — безопасное и быстрое обучение систем, которые должны действовать в реальности. Робот может тысячи часов тренироваться в виртуальной лаборатории, прежде чем его допустят к настоящим приборам и веществам. Беспилотный автомобиль может отработать редкие и опасные ситуации без риска для людей.

«Более интересная версия модели мира — та, в которой можно совершать действия», — сказал Nature профессор Университета Британской Колумбии Джефф Клун. По его словам, такие среды могут дать почти неограниченное число сценариев для обучения программ, управляющих роботами и автомобилями.

Отдельный путь предлагает Ян Лекун. Его компания развивает архитектуру JEPA. Она должна предсказывать не каждый пиксель будущей картинки, а более общий смысл происходящего: например, движение объекта через несколько ключевых параметров — положение и ориентацию в пространстве.

Лекун считает, что такой подход может быть экономнее обычного генеративного ИИ. На лекции в Гарварде в конце 2025 года он привел пример с планетами: чтобы предсказать положение Юпитера через 100 лет, не нужно описывать все детали изображения, достаточно нескольких чисел.

Однако среди специалистов нет единого мнения. Часть исследователей считает, что новые возможности можно получить и путем масштабирования уже существующих генеративных моделей — за счет большего объема данных и вычислений. Сооснователь Runway Анастасис Германидис отметил, что в истории ИИ простые подходы часто лучше масштабируются.

Пока «модели мира» остаются молодой областью. Но если разработчики смогут сделать их точными и устойчивыми, такие системы станут важным шагом от ИИ, который говорит и рисует, к ИИ, который умеет планировать действия в физическом мире.