👁 6
25-11-29 09:37
🖼️Microsoft переосмислює RPA: Дебют моделі Fara-7B для візуального керування інтерфейсомMicrosoft продовжує експансію у сфері "агентного ШІ", презентуючи модель Fara-7B — легковагову мультимодальну архітектуру, спеціалізовану на взаємодії з графічними інтерфейсами користувача (GUI). Головна інновація полягає у відмові від аналізу програмного коду сторінки (DOM-дерева) на користь чистого комп'ютерного зору: модель орієнтується виключно по скріншотах, імітуючи зорове сприйняття людини.Технічно Fara-7B вирішує одну з найскладніших проблем сучасних агентів — "visual grounding" (прив'язка координат до об'єктів). Завдяки оптимізованому розміру в 7 мільярдів параметрів, модель здатна працювати локально на пристрої (On-Edge), що критично важливо для корпоративної безпеки та приватності даних. Це дозволяє агенту точно ідентифікувати активні елементи, кнопки та поля вводу навіть у нестандартному або застарілому програмному забезпеченні, де відсутні класичні API для інтеграції.#AI #ШтучнийІнтелект