Fuente

Devaka Talk | Як збирати логи, щоб не плутатись в статистиціСерверні логи — дуже пот...

2 100 Vistas/Alcance 2025-03-24 14:06 Mensaje №5007

Як збирати логи, щоб не плутатись в статистиціСерверні логи — дуже потужний інструмент технічного SEO. Але через великі об'єми аналізувати їх важко. Для великих проектів логи за тиждень можуть складати декілька гігабайт даних. Не кажучі про логи за місяць або рік. Дехто оптимізує цей процес за допомогою ротації логів і зберігання за короткий строк. Дехто вивантажує логи на зовнішний CDN або окремий сервер. Зараз розкажу, як краще зробити, щоб полегшити собі життя. Перше, потрібно розуміти, що взагалі потрапляє в логи. За замовченням, туди потрапляють всі запити до серверу:— Відвідувач відкрив сторінку— Завантажились ресурси сторінки (якщо не з локального кешу), такі як зображення, скріпти тощо— Пошукові боти сканують сайт— LLM боти сканують сайт— Інші корисні і некорисні боти, які сканують, аналізують або атакують сервер— Різні вебхуки Далі, вам потрібно себе запитати, "Яка саме інформація для мене важлива? Що я хочу дізнатися в логах через декілька місяців збору даних?" Частіше всього логи аналізують або для того, щоб виявити атаки (хоча для цього є інші інструменти), або для розуміння процессу сканування сайту пошуковими ботами. Юзерів через логи майже не аналізують, для цього є веб-аналітика. Наприклад, ви для себе вирішуєте, що вам логи потрібні для:- Аналізу поведінки Google, що він сканує і як часто, з якими помилками стикається- Пошуку битих ресурсів і інших помилок віддачи даних- Аналізу LLM ботів і, можливо, якихось інших відомих вам ботівТепер, коли ви знаєте, що саме вам потрібно, фільтруйте логи (налаштовуйте для фільтрації) і зберігайте лише важливу інформацію. Зробіть окремий лог для Googlebot, окремий для помилок (error_log), окремий для інших важливих для вас ботів. Відключайте в логах ті статичні ресурси, які ви не будете аналізувати (наприклад, сканування зображень, скриптів, стилів, шрифтів тощо). Зробіть формат лога таким, щоб туди не потрапляла зайва інформація, наприклад, для окремого логу для гуглбота можна не включати в логи user_agent. В Nginx це можна зробити таким чином:Робите користувацьку змінну $is_googlebot за допомогою map. Якщо потрібен bing чи щось інше, це можна також додати.map $http_user_agent $is_googlebot { default 0; ~*googlebot 1;}map $http_user_agent $is_bingbot { default 0; ~*bingbot 1;}map $http_user_agent $is_llmbot { default 0; ~*chatgpt 1; ~*gptbot 1; ~*claudebot 1; ~*perplexitybot 1; ~*google-extended 1; ~*anthropic-ai 1;} В блоці server вимикаєте загальні логи і вмикаєте тільки для гуглбота. access_log off;access_log /var/log/nginx/googlebot.log combined if=$is_googlebot;access_log /var/log/nginx/bingbot.log combined if=$is_bingbot;access_log /var/log/nginx/llmbot.log combined if=$is_llmbot; Перезапускаєте nginx і у вас зберігаються дуже красиві і легкі для аналізу логи.

Enlace directo

Devaka Talk

Devaka Talk | Як збирати логи, щоб не плутатись в статистиціСерверні логи — дуже пот...

Consultas populares