PaTH Attention: адаптивне позиційне кодування для трансформерів

PaTH Attention — новий метод позиційного кодування, представлений командою MIT та MIT-IBM Watson AI Lab, який робить інформацію про позицію контекстно-залежною та адаптивною, замість фіксованої ротації RoPE.

Новий спосіб підвищення можливостей великих мовних моделей

Чому це важливо

Трансформери залежать від механізму уваги для визначення важливості токенів, але сам механізм уваги не кодує порядок слів. Розташування слів критичне для мови та складних завдань зі зміною стану (наприклад, відстеження змін у фінансовому документі або логіці коду). Стандартне ротарійне позиційне кодування (RoPE) враховує лише відносну відстань між токенами і не реагує на контекст, що обмежує відстеження стану й послідовну інтерпретацію.

Як працює PaTH Attention

Ключова ідея

Натомість фіксованих обертів, PaTH моделює проміжний шлях між токенами як послідовність малих контекстно-залежних трансформацій.

Логотип телеграм спільноти - Bitcoin, інвестування, гроші - Лінивий CRYPTO інвестор
Підписуйся на канал Frontend Shinobi, щоб отримувати найсвіжіші техніки, поради та інструменти для веб-розробників. Хочеш бути в тренді? Хочеш створювати стильні сайти та веб-додатки? Тоді тобі точно сюди!
Логотип телеграм спільноти - ББС Небесна Кара
Офіційний канал Батальйону Безпілотних Систем Небесна Кара, 54 ОМБр Наше гасло: "Зло - має бути покарано! Ворог - має бути знищений!" Приєднуйтесь до нас, підримуйте нас! Більше донатів - більше контенту! Дякуємо! Зворотній зв'язок: [email protected]
Логотип телеграм спільноти - STERNENKO
Допомога ЗСУ https://www.sternenkofund.org/donate 🫶🏻Фонд @sternenkofund ❗️Нікому не пишу, не прошу гроші, поповнити рахунок чи щось купити. Усі збори на армію публічні. Російська мова у коментах заборонена.
Логотип телеграм спільноти - Сергій Притула
Посилання на канал: https://t.me/serhiyprytula Мій фейсбук - https://www.facebook.com/serhiyprytula/ Інстаграм - https://www.instagram.com/siriy_ua/ Youtube - https://www.youtube.com/prytula БАЗА МОНО - https://base.monobank.ua/89gMbvnkrTu7sR
  • Кожна трансформація базується на відображенні Хаусхолдера — як маленьке дзеркало, яке налаштовується на вміст токена.
  • Кроки кумулюються, тож вплив проміжних слів змінює інтерпретацію подальшого контенту.
  • Результат: модель отримує "позиційну пам'ять" й може відстежувати, як сутності та відносини еволюціонують уздовж послідовності.

Ефективність обчислень

Команда також розробила апаратно-ефективний алгоритм для обчислення уваги між парами токенів із меншими витратами на GPU, зберігаючи масштабованість трансформерів.

Тестування та результати

Дослідники перевірили PaTH Attention на синтетичних і реальних завданнях: довгий контекст, багатоетапна пам'ять, мислення та повне навчання LLM.

Задача Проблема RoPE Результат PaTH
Слідкування за останньою командою "write" через відволікання Втрата контекстно-залежної зміни стану Краща стійкість і коректне слідування
Багатоетапна пам'ять Обмежена реконструкція змін стану Покращене відновлення і стабільність
Мовне моделювання (перплексія) Відповідність контексту знижується Нижча perplexity, кращі висновки

PaTH послідовно показав кращу "content-aware" поведінку і вищу продуктивність у задачах, на яких не навчали модель безпосередньо.

"Наш підхід перевершив існуючі механізми уваги, зберігаючи їх ефективність" — Yoon Kim, старший автор.

Розширення: PaTH-FoX (забування для фокусування)

Дослідники інтегрували PaTH з Forgetting Transformer (FoX), щоб надати моделі здатність вибірково "забувати" застарілу або нерелевантну інформацію.

  • PaTH-FoX поєднує адаптивне позиційне кодування з механізмом ослаблення ваги контексту.
  • Це підвищує продуктивність у довгому контексті, розумінні та мовному моделюванні.

Науковий контекст і значення

PaTH — приклад нового "primitive", що розширює виразність трансформерів, одночасно зберігаючи масштабованість і ефективність апаратних обчислень.

  • Автори: Yoon Kim (EECS, MIT), Songlin Yang (провідний автор), Kaiyue Wen, Liliang Ren, Yikang Shen, Shawn Tan, Mayank Mishra, Rameswar Panda.
  • Презентація: NeurIPS (цього місяця).
  • Фінансування: MIT-IBM Watson AI Lab, програма AI2050 у Schmidt Sciences.

Можливі застосування

  1. Аналіз довгих текстів: фінансові документи, романи, юридичні тексти.
  2. Біоінформатика: розбор білків і ДНК з контекстною структурою.
  3. Складні системи зі змінами стану: логіка програм, багатокрокові інструкції, планування.

Pro tip

Включення контекстно-залежних позиційних примітивів, як PaTH, може значно підвищити здатність LLM моделювати динамічні стани без компромісу в масштабованості.

FAQ

Чим PaTH відрізняється від RoPE?

RoPE застосовує фіксовані ротації, залежні лише від відстані між токенами. PaTH використовує послідовність контекстно-залежних трансформацій (відображення Хаусхолдера), що дозволяє враховувати вміст проміжних токенів.

Чи сумісний PaTH з існуючими LLM і апаратурою?

Так. Дослідники розробили апаратно-ефективний алгоритм для GPU, і PaTH зберігає масштабованість трансформерів.

Де це вже показало себе краще?

PaTH покращив perplexity, точність у задачах відновлення та багатоетапного мислення, а також стабільність при вхідних послідовностях у десятки тисяч токенів.

Ця робота відкриває шлях до більш контент-усвідомлених трансформерів, які краще відстежують зміни стану в структурованих доменах.