Поэтапное руководство по анализу логов с применением Power BI

Аналитика логов интернет ресурса – это важнейший блок его аудита, который приобретает еще большую важность при появлении вопросов с индексацией портала поисковыми системами.

В этом материале мы проанализируем понятие логов, какую информацию они могут предоставить. Также изучим работу BI-системы Power BI – мощных аналитических инструментов.

Что такое лог сайта

Лог – это информационный блок, в который автоматически записывается весь информационный обмен между пользователем и сервером. Пример работы:

  1. В адресную строку заносится адрес URL https://site.ru/url.html;
  2. Браузер обращается к серверу с помощью соответствующего запроса (GET-запрос);
  3. Если все правильно, то сервер подтверждает, что все нормально (статус – 200 ОК.).

В этом случае автоматически в лог заносится такие данные:

  • IP компьютера пользователя;
  • Временные координаты и часовой пояс;
  • Вид поступившего запроса (GET или POST);
  • page/2 адрес страницы, к которой случилось обращение;
  • протокол;
  • кода самого сервера;
  • адрес, откуда поступил запрос;
  • User-Agent пользователя;
  • Общее количество килобайт

Поведение пользователя могут симулировать также различные боты-роботы, в том числе и поисковых систем. Пример:

.46.229.168.151 — — [11/Jun/2019:06:25:21 +0300] «GET /kovry/klassicheskie-kovry/ovalnyj-kover-elite-472-61659-floare-carpet HTTP/1.1» 200 16250 «-» «Mozilla/5.0 (compatible; SemrushBot/3~bl; +http://www.semrush.com/bot.html)»

То есть несложно заметить: 11 июня сделали запрос и он поступил от бота, он был удовлетворен.

Польза для SEO

Проанализировав пример, становится понятным: лог содержит информацию:

  • IP компьютера пользователя;
  • User-Agent

С удивлением приходится констатировать: роботы «гуляют» по компьютеру, что и это раскрывает многие электронные «тайны». Одна из них: какие страницы роботы посещают чаще всего. Узнав подобные данные, можно будет их использовать для размещения соответствующих ссылок для продвижения сайта. Посещает ли поисковый робот необходимые страницы? Если ответ отрицательный, есть вопросы с индексацией. Профессиональный анализ даст возможность почистить собственный сайт, удалив мусорные страницы, также увидеть редирект и ошибки 404. Это бывает крайне важно особенно, когда наблюдается обновление протокола.

Чем анализировать

Для анализа логов есть много инструментов, самый простой из них – это Excel. Программа эта предназначена для других целей, но она может оперативно проанализировать ситуацию

Screaming Frog Log Analyzer мощный аналитический инструмент, его создала та же компания, прославившаяся своим легендарным софтом: Screaming Frog SEO Spider.

Информация до одной тысячи строк предоставляется бесплатно, более 1000 – стоит около 100 фунтов. Предоставляются базовые отчеты, функционал. Недостаток: программа платная и недешевая, также не функционала для настройки кастомных отчетов.

JetOctopus прекрасный облачный софт, стоит двадцать евро, присутствует недельный тест. 100 килобайта анализа Интернет-ресурса может быть предоставлено оперативно и подобный вариант будет лучшим. Много различных опций-фильтров, есть шанс обрабатывать большие порталы.

Power BI бесплатный софт, предоставляемый Microsoft, дает возможность рассматривать информацию из различных источников:

  1. Файлы
  2. Массивы информации.
  3. API.
  4. Инструмент справляется с разными задачами, он довольно мощный.

Преимущества:

  • склейка разных логов и данных парсера;
  • удобный функционал;
  • различная обработка информации.

Анализатор логов на Power BI

Для генерирования дашборда следует сделать следующее

Для создания дашборда для анализа логов состоит из нескольких этапов: подготовка данных > загрузка > форматирование > визуализация.

Этап 1. Подготовка данных

Для формирования отчёта понадобятся логи за определенный временной срок:

Адрес URL. Который предоставил парсер.

Этап 2. Загрузка данных в Power BI

Перед загрузкой информации. Следует отключить конфиденциальность

2.1. Инсталлируем логи

2.1.1. Подключаем источник

2.1.2. Объединяем файлы

Выделив столбец №1 с помощью правой кнопки мыши его убираем

Загрузка данных

Столбик, которые остался, кликаем на стрелочки.

После этого все фалы будут слиты в один

2.2. Загружаем файл с URL

Выбираем: получить информацию > Excel.

Этап 3. Форматирование загруженных данных

следует теперь дифференцировать столбцы, чтобы выбрать нужную информацию

3.1. Форматирование набора данных с логами

3.1.1. Удаляем

      1. Форматируется столбик с датой

      1. Форматируем столбик с адресом

      1. Делаем заголовки

3.1.5. Обозначаем боты

Следует также обозначить главных ботов, для них полагается отдельный столбец, который надо создать.

Обратите внимание: Если появилось слишком много ботов, то следует просканировать IP.

      1. Изменим тип данных у столбца Status

Чтобы правильно обрабатывать статусы ответа сервера, нужно поменять тип данных с числового на текстовый.

Замена типа данных

Этап 4. Компиляция информации

Этап 5. Визуализация данных

Очень удобный отчёт можно наблюдать в Power BI

5.1. Приплюсовываем фильтр ботов

5.2. Вставляем табличные данные приходов бота

5.3. Строится график

5.4. Анализируем данные посещения бота, а не парсера

Помните, на четвёртом Этапе мы объединили данные? Данные подтянулись по столбцам URL: если есть общий URL, столбец заполняется, если нет — остаётся пустое значение.

Пустые строки в столбце

Отфильтровав пустые значения по столбцу, мы поймём, каких URL не нашёл парсер.

Сделаем фильтр:

Фильтр по URL

Отфильтруем.

Фильтруем

Заключение

Таким образом, можно прорабатывать различные версии по логу. Функционал обширный несложный. При обретении навыков такая операция займет 8-12 минут. Конечный отчет не надо будет обновлять, можно будет просто инсталлировать новые логи.