Гайды· 22.06.2026· 4 мин чтения

VLA-роботы забывают всё через секунду. Архитектура ELMUR с ICLR 2026 пытается это исправить

Как архитектура ELMUR с ICLR 2026 решает проблему короткой памяти VLA-роботов — и почему увеличить контекст трансформера не получится.

Материал подготовлен с помощью ИИ и проверен редактором

Современный робот с VLA-моделью внутри отлично кладёт кубики в коробки — пока задача решается по текущему кадру с камеры. Стоит добавить хоть какую-то историю событий, и модель «не помнит», что было три секунды назад. Это не баг конкретной реализации — это архитектурное ограничение, и именно с ним работает команда AIRI и МФТИ в архитектуре ELMUR, представленной на ICLR 2026.

Почему роботу вообще нужна память

Большинство задач управления роботом выглядят так: есть картинка с камеры, есть языковая инструкция, есть вектор состояния суставов — модель предсказывает следующее действие. Если объект виден и инструкция однозначна, этого достаточно. Задачи pick-and-place («возьми и положи») современные VLA-модели решают уверенно.

Проблема начинается, когда правильное действие нельзя вывести из одного текущего наблюдения. Робот должен помнить, что он уже сделал, что видел минуту назад, какой объект убрал из поля зрения. Без этого он застревает или повторяет одно и то же действие по кругу. Это и есть задача долгосрочной памяти — не «запомнить факт», а поддерживать связное представление о мире на протяжении всего эпизода.

Как устроены VLA-модели и где у них заканчивается память

VLA (Vision-Language-Action) модель — это предобученная мультимодальная модель (VLM), дообученная на робототехнических демонстрациях. На вход она получает:

изображения с нескольких камер (внешняя + камера на схвате),
вектор проприоцепции (положения и скорости суставов, состояние схвата),
языковую инструкцию вида «положи яблоко на тарелку».

На выходе — предсказанное действие: смещение рабочего органа, команда схвату, целевые положения суставов.

В основе — трансформер с механизмом внимания. И здесь начинается архитектурная ловушка: сложность внимания квадратична по длине последовательности. Удвоили контекст — вычислительная стоимость выросла в четыре раза. Для реального робота, который работает в реальном времени, наивное увеличение контекста просто не работает: либо не хватает памяти GPU, либо модель перестаёт укладываться в нужную частоту управления.

Именно поэтому у большинства VLA-моделей «память» — это несколько последних кадров. Всё, что было раньше, теряется.

Что предлагает ELMUR

ELMUR (название расшифровывается авторами в оригинальной работе) — это архитектура, которая добавляет к VLA-модели отдельный модуль долгосрочной памяти, не требующий квадратичного роста вычислений при увеличении горизонта.

Ключевая идея: вместо того чтобы хранить весь контекст в механизме внимания, архитектура сжимает историю наблюдений в компактное представление и обновляет его инкрементально. Это позволяет модели «помнить» события из начала эпизода без пропорционального роста стоимости инференса.

Практически это означает, что робот может:

отслеживать объекты, которые вышли из поля зрения камеры,
помнить порядок уже выполненных шагов в многоэтапной задаче,
не «забывать» контекст при длинных манипуляционных эпизодах.

Работа представлена на ICLR 2026 в апреле — одной из ведущих конференций по машинному обучению.

Как это соотносится с другими подходами к памяти роботов

Параллельно с ELMUR существуют и другие направления. Исследователи из MIT разработали систему DAAAM, которая строит пространственную карту окружения в реальном времени — фиксирует не только внешний вид объектов, но и их положение в пространстве. Это другой угол атаки: не сжатие временной истории, а явная карта мира.

Разница принципиальная. DAAAM отвечает на вопрос «где объект сейчас», ELMUR — на вопрос «что происходило раньше». Для сложных многоэтапных задач нужны оба типа памяти, и скорее всего будущие архитектуры будут их комбинировать.

Классическое разделение на кратковременную и долговременную память, которое в когнитивной науке восходит ещё к XIX веку, здесь работает буквально: контекст трансформера — это кратковременная память, ELMUR добавляет долговременную.

Где это ломается

Несколько честных ограничений, о которых стоит знать:

Качество сжатия истории. Любое компактное представление истории — это потеря информации. Если в сжатом представлении не оказалось нужного факта, модель всё равно «забудет» его — просто позже, чем без ELMUR.

Распределение обучающих данных. Архитектура обучается на экспертных демонстрациях. Если в демонстрациях не было длинных эпизодов с важной историей, модуль памяти просто не научится правильно её использовать. Проблема сбора данных никуда не уходит.

Реальное время. Добавление модуля памяти — это дополнительные вычисления. Насколько ELMUR укладывается в частоту управления реального манипулятора при конкретном железе — вопрос, который нужно проверять под свою задачу.

Переобобщение. VLA-модели хорошо переносят знания на новые объекты (что показал стенд Gemini Robotics на CoRL 2025 с мягкой игрушкой вне обучающего распределения). Но долгосрочная память добавляет ещё одно измерение, где может возникнуть ошибка обобщения: модель может «вспомнить» что-то нерелевантное из ранней истории эпизода.

Что попробовать дальше

Если тема памяти в робототехнике актуальна для вас:

Читайте оригинальную статью ELMUR с ICLR 2026 — авторы из AIRI и МФТИ публикуют работы открыто.
Посмотрите на OpenVLA-OFT как на базовую VLA-архитектуру, поверх которой можно экспериментировать с модулями памяти.
Следите за направлением пространственной памяти (DAAAM от MIT) — скорее всего, следующий шаг в области будет за гибридными архитектурами, которые совмещают временную и пространственную память.
Если работаете с длинными манипуляционными эпизодами прямо сейчас, стоит хотя бы замерить, на каком горизонте ваша текущая VLA-модель начинает деградировать — это даст понимание, насколько проблема памяти критична именно для вашего сценария.

Источники

Habr AI: У роботов очень короткая память. Можно ли это исправить?