
Компанія Google офіційно презентувала нову модель штучного інтелекту — Gemini 2.5 Computer Use, яка здатна взаємодіяти з веббраузером майже як людина. Модель може клікати, гортати сторінки, заповнювати форми та виконувати інші дії без прямого доступу до API.
Завдяки цьому підходу ШІ може працювати з будь-якими інтерфейсами, створеними для користувачів, відкриваючи нові можливості для автоматизації онлайн-завдань. Розробники вже отримали доступ до моделі через Google AI Studio і Vertex AI, а демонстраційні приклади роботи доступні на платформі Browserbase.
Як зазначається у блозі компанії, Gemini 2.5 Computer Use використовує візуальне розпізнавання та логічні алгоритми, щоб розуміти запити користувача і виконувати їх у браузері — від натискання кнопок до введення тексту у форми.
Технологія стане корисною для тестування вебінтерфейсів і роботи з сайтами, які не мають власного API. Подібні рішення Google уже випробовувала в експериментальних проєктах AI Mode та Project Mariner, де автономні агенти могли, наприклад, самостійно додавати товари до кошика за списком інгредієнтів.
Презентація Gemini 2.5 Computer Use відбулася одразу після Dev Day OpenAI, на якому представили оновлені можливості ChatGPT. Таким чином, Google продовжує активно конкурувати на ринку “агентних” ШІ-технологій, де системи здатні самостійно виконувати дії, що раніше потребували участі людини. Подібну функцію “computer use” раніше вже інтегрувала компанія Anthropic у свій Claude.
За даними The Verge, модель Google перевершує конкурентів у більшості тестів для веб- та мобільних платформ. Наразі вона підтримує 13 типів дій — серед них відкриття вкладок, введення тексту, перетягування елементів і натискання кнопок. Водночас її доступ наразі обмежено роботою у браузері, а не на рівні всього комп’ютера.
Демонстраційна версія Gemini 2.5 Computer Use уже виконує завдання на кшталт “зіграти у 2048” або “знайти популярні теми на Hacker News”, демонструючи гнучкість і здатність до складної взаємодії з вебінтерфейсами.
Однак на тлі технологічного прогресу залишається питання безпеки. Згідно зі звітом Common Sense Media, деякі мовні моделі, зокрема Gemini, можуть ненавмисно поширювати шкідливий контент серед дітей до 13 років. Організація закликала Google покращити вікові налаштування та провести додаткові перевірки, аби зробити технологію безпечнішою для молодшої аудиторії.
Попри це, експерти відзначають, що Gemini 2.5 Computer Use — важливий крок уперед у розвитку “розумних агентів”, які зможуть допомагати людям у повсякденній роботі з цифровими сервісами.

