News· 6/25/2026· 3 мин чтения

Gemini 3.5 Flash теперь сам водит мышкой — Google встроила управление компьютером прямо в модель

Google встроила Computer Use прямо в Gemini 3.5 Flash. Модель видит экран и управляет браузером, десктопом и мобильным — без отдельного агента.

AI-assisted, edited by a human reviewer

Google убрала промежуточный слой: Computer Use больше не отдельный продукт, а встроенная функция Gemini 3.5 Flash. Модель видит экран, понимает интерфейс и нажимает кнопки — в браузере, на десктопе и на мобильном устройстве. Для разработчиков это означает, что агент для автоматизации теперь собирается из одного кубика, а не из трёх.

Что изменилось по сравнению с прошлым подходом

Раньше Computer Use у Google существовал как отдельная версия на базе Gemini 2.5. Разработчику нужно было подключать её отдельно, комбинировать с основной моделью и следить за совместимостью. Теперь возможность видеть экран и управлять им встроена непосредственно в Gemini 3.5 Flash — ту же модель, которая уже умеет вызывать функции, работать с Google Search и Maps.

Результат: один API-вызов, одна модель, полный стек. Агент может открыть браузер, найти нужную страницу через Search, заполнить форму и подтвердить действие — не переключаясь между разными сервисами.

Где Gemini 3.5 Flash стоит в рейтинге и почему это важно

На бенчмарке OSWorld (стандартный тест на управление компьютером в реальных условиях) Gemini 3.5 Flash набирает 78,4 балла. Для сравнения: предыдущий Gemini 3 Flash давал 65,1, а GPT-5.4 mini — 72,1. То есть прирост относительно предшественника составляет почти 13 пунктов — это существенный скачок.

При этом конкуренты не стоят на месте. GPT-5.5 от OpenAI опережает на 0,3 балла (78,7), Sonnet 4.6 от Anthropic идёт вровень (78,4), а лидер таблицы — Anthropic Opus 4.8 с результатом 83,4. Gemini 3.1 Pro, более тяжёлая модель Google, остаётся позади с 76,2.

Вывод простой: Gemini 3.5 Flash — это быстрая и дешёвая модель, которая по качеству управления компьютером вышла в один ряд с топовыми решениями конкурентов. Это меняет экономику агентных приложений: не нужно платить за тяжёлую модель ради Computer Use.

Что это даёт разработчику прямо сейчас

Функция доступна через Gemini API и платформу Gemini Enterprise Agent Platform. Google также опубликовала демо на Browserbase и референсную реализацию на GitHub — то есть можно взять готовый шаблон и начать строить агента сегодня.

Практические сценарии, которые называет Google: тестирование программного обеспечения (агент сам кликает по интерфейсу и проверяет поведение), офисная автоматизация (заполнение форм, перенос данных между приложениями), работа с браузером и мобильными устройствами. Всё это — без RPA-инструментов (Robotic Process Automation, программ для записи и воспроизведения действий пользователя) и без написания отдельных скриптов под каждое приложение.

Где это может сломаться: безопасность и ограничения

Управление компьютером от имени модели — это и новые риски. Главная угроза — prompt injection: злоумышленник может разместить на веб-странице скрытый текст, который перехватит управление агентом и заставит его выполнить нежелательное действие.

Google применяет несколько уровней защиты. Первый — adversarial training (обучение модели распознавать атаки). Второй и третий — опциональные корпоративные настройки: требование подтверждения пользователя перед чувствительными или необратимыми действиями и автоматическая остановка задачи при обнаружении инъекции. Дополнительно Google рекомендует запускать агента в изолированной среде (sandbox), ограничивать права доступа и сохранять человека в контуре принятия решений.

Важный нюанс: две защитные опции именно опциональные. Это значит, что разработчик должен сам включить их при деплое — по умолчанию они могут быть выключены. В корпоративных сценариях это критично.

Куда движется рынок агентов

Встраивание Computer Use в базовую модель — это не просто техническое удобство. Это сигнал о том, в каком направлении идёт вся индустрия: агентные возможности перестают быть надстройкой и становятся частью фундамента. Anthropic сделала то же самое раньше с Claude, OpenAI движется в ту же сторону с Operator.

Для Google это ещё и конкурентный манёвр: Gemini 3.5 Flash позиционируется как быстрая и экономичная модель. Если она справляется с управлением компьютером на уровне GPT-5.5 при меньшей стоимости вызова — это аргумент для разработчиков, которые строят агентов в продакшене и считают токены.

Источники

The Decoder: Google bakes computer control directly into Gemini 3.5 Flash, letting the model see and operate your screen