Iniciar sesión Registro
Anuncios
Tu espacio publicitario
Reserva este slot exclusivo para el periodo elegido.
Comprar publicidad →
Logotipo de la comunidad de telegram - Data Science Talks
Añadido 14 jul. 2024

Data Science Talks

@datasciencetalks
Número de suscriptores: 201
Fotos: 21
Enlaces: 83
Descripción:
Огляд цікавинок зі світу AI та data science. Простими словами про складні технології Review of the interesting and actual stuff of the DS world. In simple words about complex technologies
Fuente

Data Science Talks | ​“Маленькі діти - маленькі проблеми, великі діти - великі проблеми”, а...

Logotipo de la comunidad de telegram - Data Science Talks Data Science Talks @datasciencetalks
414 Vistas/Alcance 2024-07-08 08:38 Mensaje №124
​“Маленькі діти - маленькі проблеми, великі діти - великі проблеми”, або про те як кібербезпека часів GenAI виходить на новий рівень. В сьогоднішній ІТ термінології “jailbreak” - це не назва серіалу чи нової відеогри, а “страшний сон” розробників LLM. Простими словами, джейлбрейк мовної моделі - це спосіб її “зламати”, а далі вже в залежності від задачі - змусити її генерувати неподобства або ж злити певні “внутрішні налаштування” - тексти розробницьких інструкцій чи елементи тренувальних даних на яких вона навчалась. Так не встиг chatGPT побачити світ, як приклади таких зламів почали ширитися мережею - і якщо більша частина з них видається більш-менш безневинними (як наприклад інструкція з виготовлення вибухівки), то іноді такі атаки призводять до більш серйозних наслідків - як ось наприклад витік даних про персональні рахунки користувачів, який змусив OpenAI добряче понервувати навесні 2023 року. Та якщо “класичним” хакерам треба бути суперскіловими кодерами та круто розумітися на архітектурі побудови рішень, аби вишукувати в них слабкі місця, то у випадку LLM-ок зловмисники мають в більшій мірі підключати “психологічні” штуки аби буквально “вмовити” модельку грати за своїми правилами. Хоча іноді зустрічаються якісь екзотичні варіанти промптів для робочих джейлбрейків типу нескінченної кількості двійок (це ж треба таке ще вишукати 🤷🏻‍♀), але більшість підходів полягають у складанні промпта, що переконує модель ігнорити “базові налаштування”, як ось наприклад DAN - Do Anything Now. Тут також варто прояснити, що джейлбрейки - це слабке місце не лише чат-гпт, а усіх LLM, в тому числі open-source based кастомних рішень, тож варто розуміти, що будь-який “розумний” чат-бот є потенційним бекдором для витоку конфіденційної інформації.Цікавий ще й той факт, що шпарини для таких витіків майже не можливо закрити програмно, для їх “нейтралізації” розробникам доводиться вводити відповідні інструкції в процес навчання, та поводження такого величезного black box-а важко передбачити на 100%, власне як і винахідливість зловмисників! На думку одразу спадає аналогія із настановами батьків маленькій дитині, які напоумлюють її не спілкуватися із незнайомцями за ніяких обставин, але зовсім не факт, що ці настанови “спрацюють” у відповідальний момент 🙈