Вхід Реєстрація
Реклама
Ваше рекламне місце
Забронюйте цей слот без конкуренції на обраний період.
Купити рекламу →
Логотип телеграм спільноти - Data Mirosh
Додано 06 січ 2025

Data Mirosh

@araprof
Кількість підписників: 2 360
Фото: 63
Посилання: 52
Опис:
Всім привіт. Мене звати Ігор і я викладач. Працюю в KSE та КНУ Підтримати: https://send.monobank.ua/jar/3rgj2uzZTs Зв'язок: @aranaur Youtube: https://www.youtube.com/@datamirosh Cайт: http://aranaur.rbind.io
Джерело

Data Mirosh | Прощавай, iris: чому світ Data Science масово переходить на пінгвінів ...

Логотип телеграм спільноти - Data Mirosh Data Mirosh @araprof
1 880 Охват/переглядів 2026-04-13 06:50 Повідомлення №84
Прощавай, iris: чому світ Data Science масово переходить на пінгвінів 🐧Кожен, хто хоч раз відкривав підручник з Machine Learning або починав вивчати R чи Python, знайомий з датасетом iris. Кластеризація та класифікація цих 150 квіток — це справжній "Hello World" у науці про дані 🌍.Самі дані про іриси в 1930-х роках дбайливо зібрав американський ботанік Едгар Андерсон на півострові Гаспе (тому його іноді називають Anderson's Iris data set). І все б нічого, якби не одна деталь. Популярним цей датасет зробив Рональд Фішер, використавши його у 1936 році у своїй статті для журналу Annals of Eugenics.Про погляди Фішера я писав у попередньому пості: видатний статистик був палким прихильником євгеніки. З часом науковій спільноті стало цілком слушно некомфортно використовувати як золотий стандарт датасет із таким історичним шлейфом 🚫.Так, на сцені з'явилися пінгвіни. У 2020 році дослідниця Крістен Горман та команда зі станції Палмер в Антарктиці відкрили дані про місцевих птахів, а Еллісон Горст запакувала їх у зручний пакет palmerpenguins.Чому пінгвіни об'єктивно кращі за іриси для навчання:1️⃣ Ближче до реальності: на відміну від ідеально вилизаного iris, у даних про пінгвінів є пропущені значення (NA). Це змушує студентів одразу вчитися чистити дані, а не жити в ілюзіях ідеального світу 🧹.2️⃣ Класна структура: ми маємо ті ж три класи для прогнозування (види пінгвінів: Adelie, Chinstrap, Gentoo), але з цікавішими змінними — числові характеристики дзьоба, маса тіла, а також категоріальні змінні (стать, острів проживання) 📊.3️⃣ Нульова токсичність: ніяких сумнівних історичних контекстів. Лише відкрита наука та круті ілюстрації, які вже стали культовими (і саме тому пінгвінчик став маскотом мого курсу).Сьогодні використання iris у нових статтях, презентаціях чи туторіалах вважається ознакою поганого тону або просто ліні. Тому, якщо пояснюєте комусь алгоритми чи робите пет-проєкт — залишіть квіти в минулому і беріть пінгвінів 🐧. А на якому датасеті ви вперше будували свою модель класифікації: на квітах, пінгвінах чи, може, рятували пасажирів Титаніка?🫶 Банка | 📺 Youtube | 🔗 Сайт