Вхід Реєстрація
Реклама
Ваше рекламне місце
Забронюйте цей слот без конкуренції на обраний період.
Купити рекламу →
Логотип телеграм спільноти - Eugene K - the BA🇺🇦
Додано 06 січ 2025

Eugene K - the BA🇺🇦

@eugenekba
Кількість підписників: 661
Фото: 180
Відео: 11
Посилання: 192
Опис:
Анонімний телеграм-канал Євгена Клюкіна. Робочі моменти, ідеї, роздуми, ексклюзиви, вільне спілкування. Адмін: @eugene27K Інфо: https://eugenekba.lovable.app/
Джерело

Eugene K - the BA🇺🇦 | Токени та токенізація: як LLM “розуміє” текст? 🧩Коли ми пишемо щось у ...

Логотип телеграм спільноти - Eugene K - the BA🇺🇦 Eugene K - the BA🇺🇦 @eugenekba
194 Охват/переглядів 2025-06-03 05:08 Повідомлення №275
Токени та токенізація: як LLM “розуміє” текст? 🧩Коли ми пишемо щось у ChatGPT чи Gemini — для моделі це не просто букви чи слова. Щоб комп’ютер міг “переварити” текст, його треба поділити на маленькі шматочки — токени.Токен — це не обов’язково слово. Часто це частинка слова, а інколи — навіть пробіл чи знак пунктуації. Наприклад, “Hello world” може бути двома токенами (“Hello” та “ world”), а “Hello, world!” — вже трьома чи навіть чотирма, бо кома чи пробіл теж рахуються окремо.👀 До речі, можна самому погратися з цим процесом і побачити, як текст перетворюється на послідовність номерів токенів: tiktokenizer.vercel.appНавіщо це потрібно?Комп’ютер працює з послідовністю чисел — кожен токен має унікальний номер. Перед навчанням усі тексти переводяться у “мову токенів”. Так значно простіше аналізувати величезні обсяги даних і знаходити закономірності у текстах.У сучасних моделях, таких як GPT-4, “словник” токенів може містити понад 100 тисяч різних символів! Завдяки цьому можна стискати текст та ефективно працювати з багатьма мовами й контекстами.Отже, ще раз токенізація — це як перетворити довгу фразу на маленькі і зручні пазли, з яких модель і “складає” нові відповіді.І вся подальша “магія” моделей відбується саме з токенами, завдяки токенам. #AIforBA