Login Sign Up
Advert
Your ad spot
Reserve this exclusive slot for the selected period.
Buy advertising →
Telegram community logo - Eugene K - the BA🇺🇦
Added 06 Jan 2025

Eugene K - the BA🇺🇦

@eugenekba
Number of subscribers: 661
Photos: 180
Videos: 11
Links: 192
Description:
Анонімний телеграм-канал Євгена Клюкіна. Робочі моменти, ідеї, роздуми, ексклюзиви, вільне спілкування. Адмін: @eugene27K Інфо: https://eugenekba.lovable.app/
Source

Eugene K - the BA🇺🇦 | Токени та токенізація: як LLM “розуміє” текст? 🧩Коли ми пишемо щось у ...

Telegram community logo - Eugene K - the BA🇺🇦 Eugene K - the BA🇺🇦 @eugenekba
194 Views/Reach 2025-06-03 05:08 Message №275
Токени та токенізація: як LLM “розуміє” текст? 🧩Коли ми пишемо щось у ChatGPT чи Gemini — для моделі це не просто букви чи слова. Щоб комп’ютер міг “переварити” текст, його треба поділити на маленькі шматочки — токени.Токен — це не обов’язково слово. Часто це частинка слова, а інколи — навіть пробіл чи знак пунктуації. Наприклад, “Hello world” може бути двома токенами (“Hello” та “ world”), а “Hello, world!” — вже трьома чи навіть чотирма, бо кома чи пробіл теж рахуються окремо.👀 До речі, можна самому погратися з цим процесом і побачити, як текст перетворюється на послідовність номерів токенів: tiktokenizer.vercel.appНавіщо це потрібно?Комп’ютер працює з послідовністю чисел — кожен токен має унікальний номер. Перед навчанням усі тексти переводяться у “мову токенів”. Так значно простіше аналізувати величезні обсяги даних і знаходити закономірності у текстах.У сучасних моделях, таких як GPT-4, “словник” токенів може містити понад 100 тисяч різних символів! Завдяки цьому можна стискати текст та ефективно працювати з багатьма мовами й контекстами.Отже, ще раз токенізація — це як перетворити довгу фразу на маленькі і зручні пазли, з яких модель і “складає” нові відповіді.І вся подальша “магія” моделей відбується саме з токенами, завдяки токенам. #AIforBA