Gemini 3.5 Flash теперь сам водит мышкой — Google встроила управление компьютером прямо в модель
Google встроила Computer Use прямо в Gemini 3.5 Flash. Модель видит экран и управляет браузером, десктопом и мобильным — без отдельного агента.

Google убрала промежуточный слой: Computer Use больше не отдельный продукт, а встроенная функция Gemini 3.5 Flash. Модель видит экран, понимает интерфейс и нажимает кнопки — в браузере, на десктопе и на мобильном устройстве. Для разработчиков это означает, что агент для автоматизации теперь собирается из одного кубика, а не из трёх.
Что изменилось по сравнению с прошлым подходом
Раньше Computer Use у Google существовал как отдельная версия на базе Gemini 2.5. Разработчику нужно было подключать её отдельно, комбинировать с основной моделью и следить за совместимостью. Теперь возможность видеть экран и управлять им встроена непосредственно в Gemini 3.5 Flash — ту же модель, которая уже умеет вызывать функции, работать с Google Search и Maps.
Результат: один API-вызов, одна модель, полный стек. Агент может открыть браузер, найти нужную страницу через Search, заполнить форму и подтвердить действие — не переключаясь между разными сервисами.
Где Gemini 3.5 Flash стоит в рейтинге и почему это важно
На бенчмарке OSWorld (стандартный тест на управление компьютером в реальных условиях) Gemini 3.5 Flash набирает 78,4 балла. Для сравнения: предыдущий Gemini 3 Flash давал 65,1, а GPT-5.4 mini — 72,1. То есть прирост относительно предшественника составляет почти 13 пунктов — это существенный скачок.
При этом конкуренты не стоят на месте. GPT-5.5 от OpenAI опережает на 0,3 балла (78,7), Sonnet 4.6 от Anthropic идёт вровень (78,4), а лидер таблицы — Anthropic Opus 4.8 с результатом 83,4. Gemini 3.1 Pro, более тяжёлая модель Google, остаётся позади с 76,2.
Вывод простой: Gemini 3.5 Flash — это быстрая и дешёвая модель, которая по качеству управления компьютером вышла в один ряд с топовыми решениями конкурентов. Это меняет экономику агентных приложений: не нужно платить за тяжёлую модель ради Computer Use.
Что это даёт разработчику прямо сейчас
Функция доступна через Gemini API и платформу Gemini Enterprise Agent Platform. Google также опубликовала демо на Browserbase и референсную реализацию на GitHub — то есть можно взять готовый шаблон и начать строить агента сегодня.
Практические сценарии, которые называет Google: тестирование программного обеспечения (агент сам кликает по интерфейсу и проверяет поведение), офисная автоматизация (заполнение форм, перенос данных между приложениями), работа с браузером и мобильными устройствами. Всё это — без RPA-инструментов (Robotic Process Automation, программ для записи и воспроизведения действий пользователя) и без написания отдельных скриптов под каждое приложение.
Где это может сломаться: безопасность и ограничения
Управление компьютером от имени модели — это и новые риски. Главная угроза — prompt injection: злоумышленник может разместить на веб-странице скрытый текст, который перехватит управление агентом и заставит его выполнить нежелательное действие.
Google применяет несколько уровней защиты. Первый — adversarial training (обучение модели распознавать атаки). Второй и третий — опциональные корпоративные настройки: требование подтверждения пользователя перед чувствительными или необратимыми действиями и автоматическая остановка задачи при обнаружении инъекции. Дополнительно Google рекомендует запускать агента в изолированной среде (sandbox), ограничивать права доступа и сохранять человека в контуре принятия решений.
Важный нюанс: две защитные опции именно опциональные. Это значит, что разработчик должен сам включить их при деплое — по умолчанию они могут быть выключены. В корпоративных сценариях это критично.
Куда движется рынок агентов
Встраивание Computer Use в базовую модель — это не просто техническое удобство. Это сигнал о том, в каком направлении идёт вся индустрия: агентные возможности перестают быть надстройкой и становятся частью фундамента. Anthropic сделала то же самое раньше с Claude, OpenAI движется в ту же сторону с Operator.
Для Google это ещё и конкурентный манёвр: Gemini 3.5 Flash позиционируется как быстрая и экономичная модель. Если она справляется с управлением компьютером на уровне GPT-5.5 при меньшей стоимости вызова — это аргумент для разработчиков, которые строят агентов в продакшене и считают токены.