Channel Продуктивність | Тарас Лукавий - @taras_lukavyi - №2197
Можливо, векторні бази і чанкінг скоро будуть потрібні значно рідшеДля: тих, хто цікавиться AISubQ викотили нову модель і заявляють дуже амбітну штуку: 12 мільйонів токенів контексту на sparse attention архітектурі.Ідея в тому, що звичайний transformer палить compute на всі можливі зв'язки між токенами, хоча більшість з них до сраки.SubQ каже: давайте дивитись тільки на те, що реально важливо.Якщо їхні цифри не маркетинговий кокс, то це сильно міняє гру для агентів:• 150 tok/s• до 12M токенів контексту• 1/5 вартості other leading LLMs за їхніми словами• до ~1000x менше attention compute на 12M токенівЧому це цікаво не тільки ресерчерам:Зараз коли в компанії дохєра коду, документів, PR-ів, чатів і внутрішньої вікі - починається шаманство з retrieval, chunking, reranking, vector DB, кешами і костилями.А тут потенційно з'являється інший підхід:• просто закинув пів компанії в контекст• і агент сам розгрібає цей зоопаркАле важливий нюанс:поки технічного репорту нема, я б сприймав це як дуже сильну заявку, а не вже доведений факт.Якщо вони реально довезуть quality + speed + cost на такому контексті, це може бути одна з найважливіших архітектурних змін для AI агентів за довгий час.https://subq.ai/
632
26-05-05 19:00