Channel Eugene K - the BA🇺🇦 - @eugenekba - №274
Ну, що, цього розберемо відео і роботу LLM в цілому і українською. 🎥🤖Якщо я щось пропустив або щось є додати цікаве з інших джерел — не соромтеся писати, ділитися, обговорювати. 💬👇Перше розкажу, звідки інструменти типу ChatGPT беруть інфу.Основне джерело — ресурс Common Crawl. 🌐Common Crawl — це неприбуткова організація, яка сканує інтернет і надає свої архіви та набори даних усім охочим безкоштовно. Робін Гуд для даних. 🏹Звісно, не все, що збирається, підходить для навчання — відсіюються шкідливі, рекламні, сумнівні сайти, а також усе зайве з HTML-коду.Також видаляють персональні дані (адреси, номери, паролі тощо). 🔒 Далі автоматично визначається мова — більшість LLM практикуються на англомовних даних. 🌍✨І це призводить до того, що вони краще розуміють і генерують текст саме англійською.🇺🇸🇬🇧Але не все так погано — українські твори, біографії, історія беруться саме українською🇺🇦На виході ж розробники LLM отримують величезний, чистий і корисний масив тексту. 📚Саме з такого “фільтрованого інтернету” LLM і навчаються бути такими розумними.🧠#AIforBA
214
25-06-02 07:10