Source
AI vs 314rock | Навчання AI-моделі більше не коштує як квартира Завдяки революційному ...
1 390 Views/Reach
2026-05-15 10:33
Message №239
Навчання AI-моделі більше не коштує як квартира Завдяки революційному Token Superposition MethodМи всі чули: “натренувати свою LLM – це мільйони доларів і місяці роботи”. І це правда… для GPT-4 чи Llama 3 70B.Але що якщо нам потрібна невелика, своя, спеціалізована модель з нуля – наприклад, на 2 мільярди параметрів?Ось я вам приніс реальні цифри і дуже цікавий, не побоюсь цього слова «революційний» метод 👇Спочатку по базі: Повноцінний pretrain 2B-моделі на 500B токенів на хмарних GPU (H100) обійдеться приблизно в $3,000–5,000. Якщо хочеш “нормальну” якість на 2T токенів – вже $15,000–20,000.З новим методом від Nous Research - Token Superposition Training (TST):Ті самі результати за вдвічі менше часу і грошей🤌🏻Поясню як це працює: Замість того, щоб вчити модель передбачати один наступний токен - на початку навчання їй дають “пачки” токенів одразу. Це як читати текст абзацами замість по одному слову. Модель швидше вловлює патерни мови.Після 30% тренування – повертаємось до звичайного режиму. На виході отримуємо абсолютно стандартну модель, яка нічим не відрізняється від натренованої класичним способом. Але витрачаємо вдвічі менше ресурсів.Реальний виграш для 2B-моделі:500B токенів: $4,800 → $2,5502T токенів: $19,200 → $10,200А якщо тренуєш на власній відеокарті локально –замість 90 днів отримуєш 50. Нічого не змінюється в архітектурі моделі і токенізаторі, лише логіка першої фази навчання.Для тих, хто хоче будувати власні AI-рішення - це дуже і дуже хороша новинаМетод опублікований сьогодні ⏰Я рекомендую його дослідити всім хто має амбіції не тільки до навчати готові open-source моделі, а й створити свою LLM з нуля 👉🏻 https://nousresearch.com/token-superposition/