Devaka Talk | Як збирати логи, щоб не плутатись в статистиціСерверні логи — дуже пот...

Logotipo de la comunidad de telegram - Devaka Talk
2024-07-14

Devaka Talk

Número de suscriptores:
14091
Fotos:
1610 
Videos:
51 
Enlaces:
3680 
Descripción:
Канал по просуванню та оптимізації сайтів під Google. Hard SEO. Зв'язок зі мною: @devaka (Сергій Кокшаров) Реклама: @dv_adv Для донатів: @dv_donate Навчаю у групах. https://webpromoexperts.net/courses/seo-pro-online/

Canal Devaka Talk - @devakatalk - №5007

Як збирати логи, щоб не плутатись в статистиціСерверні логи — дуже потужний інструмент технічного SEO. Але через великі об'єми аналізувати їх важко. Для великих проектів логи за тиждень можуть складати декілька гігабайт даних. Не кажучі про логи за місяць або рік. Дехто оптимізує цей процес за допомогою ротації логів і зберігання за короткий строк. Дехто вивантажує логи на зовнішний CDN або окремий сервер. Зараз розкажу, як краще зробити, щоб полегшити собі життя. Перше, потрібно розуміти, що взагалі потрапляє в логи. За замовченням, туди потрапляють всі запити до серверу:— Відвідувач відкрив сторінку— Завантажились ресурси сторінки (якщо не з локального кешу), такі як зображення, скріпти тощо— Пошукові боти сканують сайт— LLM боти сканують сайт— Інші корисні і некорисні боти, які сканують, аналізують або атакують сервер— Різні вебхуки Далі, вам потрібно себе запитати, "Яка саме інформація для мене важлива? Що я хочу дізнатися в логах через декілька місяців збору даних?" Частіше всього логи аналізують або для того, щоб виявити атаки (хоча для цього є інші інструменти), або для розуміння процессу сканування сайту пошуковими ботами. Юзерів через логи майже не аналізують, для цього є веб-аналітика. Наприклад, ви для себе вирішуєте, що вам логи потрібні для:- Аналізу поведінки Google, що він сканує і як часто, з якими помилками стикається- Пошуку битих ресурсів і інших помилок віддачи даних- Аналізу LLM ботів і, можливо, якихось інших відомих вам ботівТепер, коли ви знаєте, що саме вам потрібно, фільтруйте логи (налаштовуйте для фільтрації) і зберігайте лише важливу інформацію. Зробіть окремий лог для Googlebot, окремий для помилок (error_log), окремий для інших важливих для вас ботів. Відключайте в логах ті статичні ресурси, які ви не будете аналізувати (наприклад, сканування зображень, скриптів, стилів, шрифтів тощо). Зробіть формат лога таким, щоб туди не потрапляла зайва інформація, наприклад, для окремого логу для гуглбота можна не включати в логи user_agent. В Nginx це можна зробити таким чином:Робите користувацьку змінну $is_googlebot за допомогою map. Якщо потрібен bing чи щось інше, це можна також додати.map $http_user_agent $is_googlebot { default 0; ~*googlebot 1;}map $http_user_agent $is_bingbot { default 0; ~*bingbot 1;}map $http_user_agent $is_llmbot { default 0; ~*chatgpt 1; ~*gptbot 1; ~*claudebot 1; ~*perplexitybot 1; ~*google-extended 1; ~*anthropic-ai 1;} В блоці server вимикаєте загальні логи і вмикаєте тільки для гуглбота. access_log off;access_log /var/log/nginx/googlebot.log combined if=$is_googlebot;access_log /var/log/nginx/bingbot.log combined if=$is_bingbot;access_log /var/log/nginx/llmbot.log combined if=$is_llmbot; Перезапускаєте nginx і у вас зберігаються дуже красиві і легкі для аналізу логи.
2100
25-03-24 14:06