Canal FUTURE × SIMPLE ⛩ - @thats_ai_samurai - №765
🤑 Про АІ-блеклисти, автентичність та лексику — та шо вже й тут не так?Після попереднього допису про costly signals логічно було б написати щось типу «окей, а як тоді писати, щоб текст не смердів АІ».
⚫️ Найочевидніша відповідь — писати його самому, але ви ж точно не шукаєте складних шляхів, тому розберемо це все з точки зору досліджень та, що ще важливіше, моєї субʼєктивної думки.
Перший же гайд, який ви на цю тему знайдете в інтернетах даватиме стандартну пораду: уникайте слів-маркерів АІ, які вкрай легко зчитуються.🤔 В англійській мові це, наприклад: delve, meticulous, realm, adept, underscore, bolster, tapestry, commendable, pivotal (поки що фіксуємось саме на англійській, бо там далі буде аргументарне підкріплення). Звучить ніби як логічно, але нюанс в тому, що це застаріло ~3 роки тому — пояснюю чому.→ У вересні 2024-го команда з Max Planck Institute for Human Development виклала на arXiv препринт (з оновленням влітку 2025-го) з назвою, яка вже сама по собі цікава: «Empirical evidence of Large Language Model's influence on human spoken communication» — іншими словами, емпіричні докази впливу LLM на людське мовлення.
В чому суть: дослідники прогнали через свій аналіз 360 000 академічних YouTube-відео та 771 000 подкастів — дані до й після виходу ChatGPT.🤨 Результат: у спонтанному, неписаному мовленні типові GPT-words на кшталт «delve», «comprehend», «boast», «swift», «meticulous» почали звучати на 25–50% частіше, ніж до листопада 2022-го.І нюанс в тому, що вибірка — це здебільшого живі лекції, подкасти чи звичайні розмови, а не AI-ютуб-канали з синтезованим голосом поверх згенерованого скрипту.→ Саме дослідження почалось з особистого спостереження одного з дослідників, який помітив «delve» у власному щоденному мовленні й вирішив перевірити, чи лише йому так здається. Виявилось, що ні — і ця підміна відбувається не на етапі редагування, а до нього. 😨 Ці всі маркери просто першими спливають у голові, і ми не можемо їх «не написати», бо вони вже знаходяться в активному словнику.
⚫️ Тому логіка блеклистів і ламається, адже якщо дотримуватись логіки «просто викреслити delve і сходити за людину», то тоді десь має існувати окремий «АІ-словник», від якого можна відсторонитись. А дослідження показує зворотне — відсторонятись немає від чого. 🖕 Бо ваш «автентичний голос» — це вже збірний компост усього, що ви поглинали останні років десять. В доШІшну епоху — книжки, Реддіт, статті ще щось. Після — все те саме, але + тексти, створені та/або редаговані нейромережами. 🤖 По суті, ми і є нейромережі — просунуті біологічні машини з розпізнавання шаблонів — що споживаємо, те й відтворюємо.Ніякого «чистого» вас, куди можна повернутися, почистивши лексику — не існує.⌨️ Людина, яка в житті не відкривала умовний СhatGPT, але скролить Medium, буде писати приблизно так само, як та, що генерує все через GPT-5.x. Відрізнити неможливо тому, що на рівні слів відрізняти вже нема від чого.→ Раніше, до речі, ніхто особливо не переживав, що «пишу в стилі Кінга, бо прочитав його в 9-му класі». Змінилось лише джерело впливу — механізм той самий.
💡 І тут виходимо на петлю — на наратив минулого допису, тільки трішки ширше: cheap signal це не про «писати словами-маркерами», а про текст, у якому автор нічим не ризикнув.🔻LLM тренуються на мінімум сюрпризів — семплінг додає трохи випадковості, але нахил у бік передбачуваного лишається.А в теорії інформації є стара ідея, яку зараз варто почути: інформація — це лише те, чого ви не могли вгадати. ⚫️Передбачуване речення за визначенням не несе майже нічого. І коли автоматичне читання зустрічається з автоматичним письмом, посередині лишається форма без змісту.
😁 Ось це і є, як на мене, наразі єдиний робочий маркер авторства — чи є в тексті хоч одне речення, яке модель не витягне сама з розподілу.→ Якщо є — забийте на блеклисти→ Якщо нема — ніякий блеклист вже не допоможе Бо проблема ніколи й не була в тому, що ви пишете «як АІ» — вам просто нема чого сказати. Шо поробиш.
859
26-04-18 16:49