Data Science Talks | ​“Маленькі діти - маленькі проблеми, великі діти - великі проблеми”, а...

Логотип телеграм спільноти - Data Science Talks
2024-07-14

Data Science Talks

Кількість підписників:
201
Фото:
21 
Посилання:
83 
Категорія:
Технології
Опис:
Огляд цікавинок зі світу AI та data science. Простими словами про складні технології Review of the interesting and actual stuff of the DS world. In simple words about complex technologies

Канал Data Science Talks - @datasciencetalks - №124

​“Маленькі діти - маленькі проблеми, великі діти - великі проблеми”, або про те як кібербезпека часів GenAI виходить на новий рівень. В сьогоднішній ІТ термінології “jailbreak” - це не назва серіалу чи нової відеогри, а “страшний сон” розробників LLM. Простими словами, джейлбрейк мовної моделі - це спосіб її “зламати”, а далі вже в залежності від задачі - змусити її генерувати неподобства або ж злити певні “внутрішні налаштування” - тексти розробницьких інструкцій чи елементи тренувальних даних на яких вона навчалась. Так не встиг chatGPT побачити світ, як приклади таких зламів почали ширитися мережею - і якщо більша частина з них видається більш-менш безневинними (як наприклад інструкція з виготовлення вибухівки), то іноді такі атаки призводять до більш серйозних наслідків - як ось наприклад витік даних про персональні рахунки користувачів, який змусив OpenAI добряче понервувати навесні 2023 року. Та якщо “класичним” хакерам треба бути суперскіловими кодерами та круто розумітися на архітектурі побудови рішень, аби вишукувати в них слабкі місця, то у випадку LLM-ок зловмисники мають в більшій мірі підключати “психологічні” штуки аби буквально “вмовити” модельку грати за своїми правилами. Хоча іноді зустрічаються якісь екзотичні варіанти промптів для робочих джейлбрейків типу нескінченної кількості двійок (це ж треба таке ще вишукати 🤷🏻‍♀), але більшість підходів полягають у складанні промпта, що переконує модель ігнорити “базові налаштування”, як ось наприклад DAN - Do Anything Now. Тут також варто прояснити, що джейлбрейки - це слабке місце не лише чат-гпт, а усіх LLM, в тому числі open-source based кастомних рішень, тож варто розуміти, що будь-який “розумний” чат-бот є потенційним бекдором для витоку конфіденційної інформації.Цікавий ще й той факт, що шпарини для таких витіків майже не можливо закрити програмно, для їх “нейтралізації” розробникам доводиться вводити відповідні інструкції в процес навчання, та поводження такого величезного black box-а важко передбачити на 100%, власне як і винахідливість зловмисників! На думку одразу спадає аналогія із настановами батьків маленькій дитині, які напоумлюють її не спілкуватися із незнайомцями за ніяких обставин, але зовсім не факт, що ці настанови “спрацюють” у відповідальний момент 🙈
414
24-07-08 08:38
Логотип телеграм спільноти - ББС Небесна Кара
Офіційний канал Батальйону Безпілотних Систем Небесна Кара, 54 ОМБр Наше гасло: "Зло - має бути покарано! Ворог - має бути знищений!" Приєднуйтесь до нас, підримуйте нас! Більше донатів - більше контенту! Дякуємо! Зворотній зв'язок: [email protected]
Логотип телеграм спільноти - STERNENKO
Допомога ЗСУ https://www.sternenkofund.org/donate 🫶🏻Фонд @sternenkofund ❗️Нікому не пишу, не прошу гроші, поповнити рахунок чи щось купити. Усі збори на армію публічні. Російська мова у коментах заборонена.
Логотип телеграм спільноти - Bitcoin, інвестування, гроші - Лінивий CRYPTO інвестор
Підписуйся на канал Frontend Shinobi, щоб отримувати найсвіжіші техніки, поради та інструменти для веб-розробників. Хочеш бути в тренді? Хочеш створювати стильні сайти та веб-додатки? Тоді тобі точно сюди!
Логотип телеграм спільноти - Сергій Притула
Посилання на канал: https://t.me/serhiyprytula Мій фейсбук - https://www.facebook.com/serhiyprytula/ Інстаграм - https://www.instagram.com/siriy_ua/ Youtube - https://www.youtube.com/prytula БАЗА МОНО - https://base.monobank.ua/89gMbvnkrTu7sR