Source
hworknet_channel | Якісний аналіз даних завдяки ШІВсі ми знаємо що зараз є ChatGPT і бага...
330 Views/Reach
2024-08-23 08:03
Message №166
Якісний аналіз даних завдяки ШІВсі ми знаємо що зараз є ChatGPT і багато хто аналізує текст і дані в звичному нам веб-інтерфейсі. З приходом ChatGPT 4o це можна робити навіть у безкоштовній версії. У платній версії ChatGPT, якість аналізу і обробки даних, ймовірно буде трішки кращим (як мінімум через те, що ви платите кошти і вам можливо збільшать кількість токенів). Як додатковий варіант можна створити власний GPTs. Завантажуємо файл(и), надаєм інструкції і у нас уже є готове рішення. Цей варіант трішки складніший і довший по реалізації, але якість може бути вища (насправді, точно можна буде сказати лише після тестів).Окей, а як ще можна використовувати ChatGPT для аналізу даних? Як збільшити якість, точність? Як керувати контролем різноманітності? Вірно, тут нам на допомогу приходить ChatGPT Assistants (можна знайти тут: https://platform.openai.com/login). ChatGPT Assistants надає широкий спектр можливостей: вибір моделі, температура, Top P параметр і найцікавіше: пошук по файлу. Мабуть, саме остання можливість робить це рішення на стільки ефективним, адже ми можемо налаштувати chunk size, chunk overlap та максимальну кількість результатів. Розберемось з кожним пунктом.• Chunk size — текстовий вміст, отриманий з завантажених файлів, який буде розбитий на фрагменти заданого розміру. Значення за замовчуванням: 800 токенів. Мінімальне: 100 токенів. Максимальне: 4096 токенів.• Chunk overlap — додавання перекриття токенів між послідовними фрагментами може збільшити ймовірність того, що модель правильно контекстуалізує інформацію, яку вона отримує. Це може бути будь-яке невід'ємне число, але воно повинно бути меншим або дорівнювати половині заданого розміру частини. За замовчуванням: 400 токенів.• Максимальна кількість результатів — за замовчуванням інструмент пошуку по файлу виводить до 20 chunks для моделей gpt-4* і до 5 chunks для gpt-3.5-turbo.Більше деталей можна переглянути тут: https://platform.openai.com/docs/assistants/tools/file-search. Що це нам дає? Збільшивши максимальну кількість результатів, chunk size, chunk overlap (останні 2 параметри потребують особливо тонкого налаштування) ми можемо досягти:• збільшення якості пошуку по файлу (наш аналіз даних, про який ми говоримо в дописі);• збільшення якості відповіді на запит або інструкцію в цілому;• збільшення вартості за 1 запит (через збільшення об’єму використаних токенів на 1 запит).Власний досвідОсобисто я почав це використовувати для реалізації уже декількох проектів і хочу вам сказати що це дійсно того варте. В одному прикладі вартість за 1 коротенький діалог виросла із 7 центів до 26 центів, але якість набагато краща і вища. Примітка, температура для цього проєкту була на 0.01 згідно вимог проєкту.