Вхід Реєстрація
Реклама
Ваше рекламне місце
Забронюйте цей слот без конкуренції на обраний період.
Купити рекламу →
Логотип телеграм спільноти - hworknet_channel
Додано 14 лип 2024

hworknet_channel

@hworknet_channel
Кількість підписників: 5
Фото: 526
Відео: 46
Посилання: 277
Опис:
You can view and join @hworknet_channel right away.
Джерело

hworknet_channel | Якісний аналіз даних завдяки ШІВсі ми знаємо що зараз є ChatGPT і бага...

Логотип телеграм спільноти - Богдан Щербаков hworknet_channel @hworknet_channel
330 Охват/переглядів 2024-08-23 08:03 Повідомлення №166
Якісний аналіз даних завдяки ШІВсі ми знаємо що зараз є ChatGPT і багато хто аналізує текст і дані в звичному нам веб-інтерфейсі. З приходом ChatGPT 4o це можна робити навіть у безкоштовній версії. У платній версії ChatGPT, якість аналізу і обробки даних, ймовірно буде трішки кращим (як мінімум через те, що ви платите кошти і вам можливо збільшать кількість токенів). Як додатковий варіант можна створити власний GPTs. Завантажуємо файл(и), надаєм інструкції і у нас уже є готове рішення. Цей варіант трішки складніший і довший по реалізації, але якість може бути вища (насправді, точно можна буде сказати лише після тестів).Окей, а як ще можна використовувати ChatGPT для аналізу даних? Як збільшити якість, точність? Як керувати контролем різноманітності? Вірно, тут нам на допомогу приходить ChatGPT Assistants (можна знайти тут: https://platform.openai.com/login). ChatGPT Assistants надає широкий спектр можливостей: вибір моделі, температура, Top P параметр і найцікавіше: пошук по файлу. Мабуть, саме остання можливість робить це рішення на стільки ефективним, адже ми можемо налаштувати chunk size, chunk overlap та максимальну кількість результатів. Розберемось з кожним пунктом. Chunk size — текстовий вміст, отриманий з завантажених файлів, який буде розбитий на фрагменти заданого розміру. Значення за замовчуванням: 800 токенів. Мінімальне: 100 токенів. Максимальне: 4096 токенів.• Chunk overlap — додавання перекриття токенів між послідовними фрагментами може збільшити ймовірність того, що модель правильно контекстуалізує інформацію, яку вона отримує. Це може бути будь-яке невід'ємне число, але воно повинно бути меншим або дорівнювати половині заданого розміру частини. За замовчуванням: 400 токенів.• Максимальна кількість результатів — за замовчуванням інструмент пошуку по файлу виводить до 20 chunks для моделей gpt-4* і до 5 chunks для gpt-3.5-turbo.Більше деталей можна переглянути тут: https://platform.openai.com/docs/assistants/tools/file-search. Що це нам дає? Збільшивши максимальну кількість результатів, chunk size, chunk overlap (останні 2 параметри потребують особливо тонкого налаштування) ми можемо досягти:• збільшення якості пошуку по файлу (наш аналіз даних, про який ми говоримо в дописі);• збільшення якості відповіді на запит або інструкцію в цілому;• збільшення вартості за 1 запит (через збільшення об’єму використаних токенів на 1 запит).Власний досвідОсобисто я почав це використовувати для реалізації уже декількох проектів і хочу вам сказати що це дійсно того варте. В одному прикладі вартість за 1 коротенький діалог виросла із 7 центів до 26 центів, але якість набагато краща і вища. Примітка, температура для цього проєкту була на 0.01 згідно вимог проєкту.