PaTH Attention: адаптивне позиційне кодування для трансформерів
PaTH Attention — новий метод позиційного кодування, представлений командою MIT та MIT-IBM Watson AI Lab, який робить інформацію про позицію контекстно-залежною та адаптивною, замість фіксованої ротації RoPE.

Чому це важливо
Трансформери залежать від механізму уваги для визначення важливості токенів, але сам механізм уваги не кодує порядок слів. Розташування слів критичне для мови та складних завдань зі зміною стану (наприклад, відстеження змін у фінансовому документі або логіці коду). Стандартне ротарійне позиційне кодування (RoPE) враховує лише відносну відстань між токенами і не реагує на контекст, що обмежує відстеження стану й послідовну інтерпретацію.
Як працює PaTH Attention
Ключова ідея
Натомість фіксованих обертів, PaTH моделює проміжний шлях між токенами як послідовність малих контекстно-залежних трансформацій.
- Кожна трансформація базується на відображенні Хаусхолдера — як маленьке дзеркало, яке налаштовується на вміст токена.
- Кроки кумулюються, тож вплив проміжних слів змінює інтерпретацію подальшого контенту.
- Результат: модель отримує "позиційну пам'ять" й може відстежувати, як сутності та відносини еволюціонують уздовж послідовності.
Ефективність обчислень
Команда також розробила апаратно-ефективний алгоритм для обчислення уваги між парами токенів із меншими витратами на GPU, зберігаючи масштабованість трансформерів.
Тестування та результати
Дослідники перевірили PaTH Attention на синтетичних і реальних завданнях: довгий контекст, багатоетапна пам'ять, мислення та повне навчання LLM.
| Задача | Проблема RoPE | Результат PaTH |
|---|---|---|
| Слідкування за останньою командою "write" через відволікання | Втрата контекстно-залежної зміни стану | Краща стійкість і коректне слідування |
| Багатоетапна пам'ять | Обмежена реконструкція змін стану | Покращене відновлення і стабільність |
| Мовне моделювання (перплексія) | Відповідність контексту знижується | Нижча perplexity, кращі висновки |
PaTH послідовно показав кращу "content-aware" поведінку і вищу продуктивність у задачах, на яких не навчали модель безпосередньо.
"Наш підхід перевершив існуючі механізми уваги, зберігаючи їх ефективність" — Yoon Kim, старший автор.
Розширення: PaTH-FoX (забування для фокусування)
Дослідники інтегрували PaTH з Forgetting Transformer (FoX), щоб надати моделі здатність вибірково "забувати" застарілу або нерелевантну інформацію.
- PaTH-FoX поєднує адаптивне позиційне кодування з механізмом ослаблення ваги контексту.
- Це підвищує продуктивність у довгому контексті, розумінні та мовному моделюванні.
Науковий контекст і значення
PaTH — приклад нового "primitive", що розширює виразність трансформерів, одночасно зберігаючи масштабованість і ефективність апаратних обчислень.
- Автори: Yoon Kim (EECS, MIT), Songlin Yang (провідний автор), Kaiyue Wen, Liliang Ren, Yikang Shen, Shawn Tan, Mayank Mishra, Rameswar Panda.
- Презентація: NeurIPS (цього місяця).
- Фінансування: MIT-IBM Watson AI Lab, програма AI2050 у Schmidt Sciences.
Можливі застосування
- Аналіз довгих текстів: фінансові документи, романи, юридичні тексти.
- Біоінформатика: розбор білків і ДНК з контекстною структурою.
- Складні системи зі змінами стану: логіка програм, багатокрокові інструкції, планування.
Pro tip
Включення контекстно-залежних позиційних примітивів, як PaTH, може значно підвищити здатність LLM моделювати динамічні стани без компромісу в масштабованості.
FAQ
Чим PaTH відрізняється від RoPE?
RoPE застосовує фіксовані ротації, залежні лише від відстані між токенами. PaTH використовує послідовність контекстно-залежних трансформацій (відображення Хаусхолдера), що дозволяє враховувати вміст проміжних токенів.
Чи сумісний PaTH з існуючими LLM і апаратурою?
Так. Дослідники розробили апаратно-ефективний алгоритм для GPU, і PaTH зберігає масштабованість трансформерів.
Де це вже показало себе краще?
PaTH покращив perplexity, точність у задачах відновлення та багатоетапного мислення, а також стабільність при вхідних послідовностях у десятки тисяч токенів.
Ця робота відкриває шлях до більш контент-усвідомлених трансформерів, які краще відстежують зміни стану в структурованих доменах.
Коментарі
Немає коментарів
Додати коментар