Microsoft добавила в Copilot Studio мощный инструмент для автоматизации действий на компьютере

2025-04-16 427 комментарии
Microsoft представила инструмент Computer Use для Copilot Studio — он позволяет ИИ-агентам управлять компьютером как человек: нажимать кнопки, вводить текст и адаптироваться к интерфейсу без программирования

Microsoft Copilot Studio позволяет компаниям создавать собственных ИИ-ассистентов и виртуальных агентов через интуитивно понятный графический интерфейс. Сразу после создания агентов, их можно тестировать и публиковать прямо в Copilot Studio.

15 апреля Microsoft анонсировала новый инструмент в статусе исследовательского превью под названием «Computer Use». С его помощью агенты Copilot Studio могут взаимодействовать с любыми сайтами и приложениями для ПК так, словно они сами являются пользователями. Агенты теперь могут нажимать кнопки, выбирать пункты меню и вводить текст в поля как в приложениях, так и на сайтах. Этот инструмент позволяет работать в средах, где отсутствуют API для программной интеграции.

Инструмент «Computer Use» работает на базе большого языковой модели (LLM) и может автоматически адаптироваться к изменениям в интерфейсах приложений и сайтов. По словам Microsoft, в него встроены возможности логического мышления, позволяющие самостоятельно решать возникающие задачи.

Чтобы сделать инструмент подходящим для корпоративного использования, он работает на инфраструктуре Microsoft, и организациям не нужно настраивать собственные серверы. Microsoft подчеркнула, что данные клиентов остаются в пределах облака Microsoft и не используются для обучения языковых моделей.

Согласно Microsoft, что Computer Use улучшает автоматизацию бизнес-процессов следующим образом:

  • Реагирует на изменения в реальном времени: когда интерфейс меняется, инструмент продолжает работу без сбоев.
  • Прост в использовании: можно описать задачу естественным языком, без программирования, и сразу тестировать результат. В процессе доступно видео с рассуждениями агента и планируемыми действиями в интерфейсе.
  • Обладает интеллектом: агент видит, что отображается на экране, и принимает решения в реальном времени, даже в сложной или быстро меняющейся среде.
  • Полная прозрачность: разработчики могут в любой момент просмотреть историю действий, включая скриншоты и этапы логических рассуждений.

В начале этого года OpenAI представила Operator — систему, использующую модель Computer-Using Agent (CUA), которая объединяет зрительные возможности GPT-4o с продвинутым мышлением на основе обучения с подкреплением. Возможно, Microsoft использует схожую технологию в Computer Use для Copilot Studio.

Чтобы протестировать новый инструмент необходимо заполнить форму для получения приглашения от Microsoft.

© .
Комментарии и отзывы

Нашли ошибку?

Новое на сайте