Вхід Реєстрація
Реклама
Ваше рекламне місце
Забронюйте цей слот без конкуренції на обраний період.
Купити рекламу →
Логотип телеграм спільноти - Майк, це зовсім не те (Канал про ШІ)
Додано 06 гру 2025

Майк, це зовсім не те (Канал про ШІ)

@gptmike
Кількість підписників: 639
Фото: 138
Відео: 8
Посилання: 76
Опис:
Канал про штучний інтелект — як приручити й підкорити нейронки та заробляти з ними. Реклама та співпраця — @kirioswriter
Джерело

Майк, це зовсім не те (Канал про ШІ) | Чому штучний інтелект стає «нудним»? Коротко: річ у RLHF-шліфуванні. З...

Логотип телеграм спільноти - Майк, це зовсім не те (Канал про ШІ) Майк, це зовсім не те (Канал про ШІ) @gptmike
237 Охват/переглядів 2026-03-17 19:33 Повідомлення №233
🤖 Чому штучний інтелект стає «нудним»? Коротко: річ у RLHF-шліфуванні. Зараз поясню.Коли базова нейромережа (LLM) тільки-но прочитала весь інтернет, вона геніальна, але хаотична — може відповідати грубо або видавати купу спаму. Щоб перетворити її на ввічливого помічника на кшталт ChatGPT, використовують RLHF (Reinforcement Learning from Human Feedback) — навчання з підкріпленням на основі відгуків людей.Спеціальні люди (асесори) тисячі разів оцінюють відповіді ШІ: що краще, що безпечніше. Так модель «шліфують» і вчать хороших манер. Але тут є пастка.🚩 Чому агресивний RLHF (як у OpenAI) — це погано?Коли компанія занадто сильно «закручує гайки», відбувається те, що розробники називають лоботомією моделі:🥸«Синдром відмінника» (Sycophancy): ШІ починає вам підтакувати, навіть якщо ви пишете відверту маячню, лише б уникнути конфлікту.🥸Надмірна цензура: Знамените "Як мовна модель, я...". Нейромережа боїться жартувати на гострі теми, писати специфічний код або аналізувати тексти через параноїдальні фільтри безпеки.🥸Втрата креативності та логіки: Текст стає пластиковим, прісним і шаблонним. Намагаючись догодити «усередненому» смаку, модель втрачає здатність до глибокого та нестандартного мислення.💡 Які альтернативи обирають інші компанії?Індустрія вже зрозуміла, що класичний ручний RLHF псує моделі, тому конкуренти OpenAI шукають інші шляхи:📜 Constitutional AI (Anthropic / Claude). Замість того, щоб натовп людей ставив лайки/дизлайки, моделі дають чітку «Конституцію» (набір етичних і логічних правил). ШІ сам (RLAIF) генерує відповіді, перевіряє їх на відповідність своїй конституції та виправляє себе. Результат: приміром, Claude менше підтакує і краще аргументує відмови.⚡️ DPO (Direct Preference Optimization). Цей метод зараз масово використовують в open-source моделях (наприклад, Meta у своїй Llama 3). Це математично простіший та менш «руйнівний» підхід. Замість створення окремої моделі-наглядача, ШІ вчиться безпосередньо на парах відповідей «погана-хороша». Це дозволяє зберегти оригінальний «характер» моделі, роблячи її живою, розумною і значно менш зацензурованою.👇 Якщо є що додати, напишіть у коментарі.#ChatGPT #RLHF #Constitutional_AI #DPO #LLM