Гайды· 16.06.2026· 4 мин чтения

Physical AI в 2026: что происходит в робототехнике после ICRA в Вене

Симуляция вместо реальных данных, VLA-модели и RL поверх имитации — разбираем главные тренды ICRA 2026 из Вены с конкретными работами и именами.

Материал подготовлен с помощью ИИ и проверен редактором

С 1 по 5 июня в Вене прошла ICRA 2026 — крупнейшая конференция по робототехнике и автоматизации. Из почти 5000 поданных статей приняли 1800 (чуть выше 30%) — и если смотреть на то, что прошло отбор, картина индустрии становится очень конкретной.

Почему симуляция стала центром всего

Главный нерв конференции — нехватка реальных данных для обучения роботов. Это не новость, но в 2026 году проблема стала острее: масштабирование потока данных с реальных демонстраций упёрлось в физические ограничения.

Стив Си (Steve Xie), CEO компании Lightwheel, которая создаёт симуляционные среды на заказ, сформулировал это прямо: для манипуляционной робототехники нужно в 1000 раз больше данных, чем для беспилотников. Единственный масштабируемый путь — симуляция.

Отсюда — целый воркшоп Generative Digital Twins for Real2Sim and Sim2Real Transfer in Robotics с плотной программой. Разберём, что там показали.

Что происходит с цифровыми двойниками

Хэнсуан Чжао (Hengshuang Zhao) из Гонконга открыл день обзором техник синтеза 3D-реконструкций и облаков точек для VLA-моделей (Vision-Language-Action — модели, которые соединяют восприятие, язык и управление роботом). Два проекта его команды:

PointWorld — масштабирование 3D-моделей под задачи манипуляции
PlayerOne — генерация симуляционного видео от первого лица по одной картинке

Цзяцзюнь У (Jiajun Wu) — у него в этом году 6 статей только на ICRA — выделил две рабочие парадигмы для физически правдоподобных двойников:

Самоконтролируемое обучение с дифференцируемыми симуляторами. Ключевая работа — NEUROK про генеративную кинематику.
Преобразование состояний из видеомоделей в 4D-представления через гибридные нейрофизические симуляторы. Здесь — World of Dynamic Objects и генератор сцен по одному изображению WonderPlay.

Айя Мандлекар (Ajay Mandlekar) из NVIDIA представил SimFoundry — систему автоматического создания цифровых двойников и аналогов сцен из видеоданных реального мира. Дополнительно упомянул:

SoftMimicGen — для манипулирования деформируемыми объектами
Humanoid Generation — для локомоции гуманоидов

Обе работы опираются на более раннюю MimicGen — модель генерации синтетических данных по небольшому числу реальных демонстраций.

Мэнолис Савва (Manolis Savva) закрыл блок про программную генерацию 3D-представлений тремя работами: SceneMotifCoder, SINGAPO и iTACO. Ингмар Познер (Ingmar Posner) из Оксфорда отдельно выделил SPARTAN — объектно-центричную модель мира со специальным вариантом разреженной матрицы внимания для лучшего моделирования причинно-следственных связей.

Как RL и имитационное обучение перестали конкурировать

Воркшоп Reinforcement Learning in the Era of Imitation Learning показал: противопоставление этих двух подходов устарело. Сейчас их комбинируют.

Сергей Левайн выступал онлайн и описал симбиоз:

SeRL — фреймворк для специализированных RL-алгоритмов
RLT — фреймворк для универсальных моделей
Обусловливание без классификатора (CFG, Classifier-Free Guidance) как инструмент для создания моделей pi0.6 и pi0.7

Челси Финн (Chelsea Finn) поделилась результатами итеративного офлайн-обучения с подкреплением на задачах с длинным горизонтом. Конкретный пример — варка эспрессо: процент успешных выполнений вырос с 40% до 90%.

Её аспирант Перри Донг (Perry Dong) представил алгоритмы EXPO и EXPO-FT для стабильного онлайн-дообучения диффузионных стратегий — и это на 19 минутах реальных данных.

Кто доминирует на выставке и в публикациях

Статистика по публикациям ожидаемая: большинство работ из Китая и США. Россия тоже представлена — и, по словам Александра Панова (директор лаборатории когнитивных систем AIRI), почти половина российских статей в этом году подготовлена его научной группой.

На выставке картина ещё резче: 70 компаний из Китая против примерно 20 из США, Германии и Австрии — и это при том, что конференция проходит в Европе. Китай доминирует в железе и коммерческих продуктах для Physical AI.

Конференция продолжает трансформироваться в площадку обучаемых подходов и всё активнее конкурирует с молодой CoRL (Conference on Robot Learning).

Где это ломается

Несколько честных ограничений, которые звучали на ICRA явно или между строк:

Sim2Real gap никуда не делся. Даже самые продвинутые цифровые двойники не гарантируют переноса в реальный мир без дополнительной калибровки. SimFoundry и WonderPlay снижают стоимость создания симуляций, но не закрывают разрыв полностью.

Данных для манипуляций катастрофически мало. 19 минут в EXPO — это впечатляет, но речь о конкретных, хорошо определённых задачах. На сложных сценариях с деформируемыми объектами или непредсказуемой средой цифры хуже.

Гуманоиды пока в симуляции. Humanoid Generation и локомоционные модели активно обсуждались, но большинство результатов — из контролируемых сред. Перенос на реальных роботов остаётся открытым вопросом.

Что попробовать дальше

Если хотите разобраться в теме глубже — вот конкретные точки входа:

Прочитать оригинальные работы MimicGen и SoftMimicGen (NVIDIA Research) — хорошая база для понимания генерации синтетических данных
Посмотреть на SeRL и RLT как на фреймворки для экспериментов с комбинацией RL и имитации
Следить за CoRL 2026 — конференция продолжает перетягивать часть повестки у ICRA в сторону обучаемых методов
Если интересует Sim2Real конкретно для манипуляций — LeHome от Lightwheel про деформируемые объекты стоит в очереди первым

ICRA 2026 зафиксировала: Physical AI перешёл из фазы концептов в фазу инфраструктуры. Вопрос теперь не «возможно ли это», а «сколько данных нужно и откуда их взять».

Источники

Habr AI: Репортаж с ICRA 2026 из Вены