06.01.2016

В данный статье я поделюсь базовыми, исходными мыслями на темы повышения конверсии и доставки целевой информации до посетителей сайтов. Эти темы лежат в основе моей кандидатской диссертации, которую я стараюсь не забросить…

Актуальность

Интернет как средство доставки информации до потенциального клиента (в широком смысле этого слова) является в данный момент естественным инструментом, который есть у подавляющего числа компаний и организации. В связи с этим мало сейчас просто сделать сайт. Интернет стал очень конкурентным пространством и с каждым годом затраты компаний на создание, поддержку и продвижению сайтов только увеличиваются.

Ниже на графике, позаимствованном из маркетингового исследования FIVEX ANALYTICS GROUP, представлена динамика изменения количества сайтов в Интернете 1995-2014 гг., феврале 2015 г.:

главная страница сайта

Основные усилия владельцев сайтов направлены на 2 основных показателя:

  • Увеличение посещаемости сайта целевой аудиторией;
  • Увеличение конверсии с сайта – процент от общего числа посетителей, которые выполнили, какое-то целевое действие (покупка, регистрация, просмотр контактов и т.д.), желаемое владельцем, на сайте.

По данным маркетингового исследования «Исследование эффективность сайтов и рекламных кампаний интернет-магазинов» компании WebProfiters среднее значение конверсии в интернет-магазинах России не превышает 1,5%. Такие результаты свидетельствуют, о востребованности инструментов, основная задача которых увеличить данный показатель.

Существующие методы повышения конверсии сайта

Основные методы повышения конверсии сайтов можно разделить на следующие категории:

  • Не технические методы – работы по улучшению контента и дизайна сайта.
  • Технические методы, из которых можно выделить следующие основные направления:
    • A/B и A/B/N тестирования – основная задача на опыте понять эффективность того или иного решения на сайте;
    • Персонализация сайта – основная задача максимально сократить доставку до каждого конкретного посетителя релевантный контент, за которым он пришёл на сайт.
  • Сторонние сервисы - привлечение определенной группы аудитории на страницы сайта со сторонних ресурсов, например с помощью инструментов контекстной или таргетированной рекламы.

Самым интересным, с технической точки зрения, является метод персонализации сайта, т.к. он допускает максимальную автоматизацию и минимизацию участия человека в этом процессе.

Автоматическая персонализация сайта

В дальнейших рассуждениях из всего многообразия сайтов было выделено подмножество, для которого верно следующее:

  1. На сайте существуют страницы, дизайн которых допускает персонализированные блоки информации;
  2. На сайте существуют страницы, которые предназначены для конкретных групп пользователей;
  3. Не существует ограничений, препятствующих анонимному сбору и анализу данных о посетителях сайта;

Число сайтов, которые подпадают под выше описанные ограничения высоко. Например сайт СПбГЭТУ «ЛЭТИ», у которого:

  1. Страницы сайта имеют информационные блоки, которые могут быть ориентированы на разные группы пользователей.
  2. На сайте университета есть страницы предназначенные различных групп пользователей:
    • Поступающие в университет и их родители;
    • Обучающиеся в университете (бакалавриат, магистратура, докторнатура);
    • Профессорско преподавательский состав.
  3. Сайт университета имеет посещаемость более 3 000 уникальных посетителей в сутки. При этом технически и юридически нет ограничений на сбор и анализ информации о посетителях сайта.

Таким образом персонализация конкретного сайта сводится к задаче определения целевых групп на которых ориентирован сайт и при возможности ассоциация каждого посетителя сайта с одной из этих групп.

На рисунке ниже продемонстрировано какие блоки главной страницы могут персонализироваться.


главная страница сайта
  1. Блок баннеров – все баннеры могут вести на страницы сайта, которые ориентированы на конкретную целевую аудиторию.
  2. Объявления – в данном блоке целесообразно расположить объявления в порядке убывания важности для конкретной целевой группы.
  3. Новости - в блоке новостей возможно реализовать схожий с объявлениями механизм, но только в рамках совпадающих дат публикации, что бы не нарушать хронологию.

Из представленного рисунка видно, что для схожих по дизайну страниц пространство отведенное под информацию может быть существенно адаптировано под конкретного пользователя.

Данные для анализа

При формировании типов данных, которые необходимо анализировать для принятии решения о том, к какой группе пользователей принадлежит посетитель, целесообразно ограничиться данными, которые технически возможно собрать о не авторизованных пользователях. Таким образом будет обеспечен наибольший охват пользователей при анализе, а авторизованные пользователи могут стать индикаторами правильности работы алгоритмов.

Ниже перечислены и сгруппированы типы данных, которые обычно (случаи посещения сайта в режиме инкогнито не рассматриваются) возможно собрать о неавторизованных посетителях сайта для дальнейшего анализа.

  1. Данные полученные по протоколу HTTP при обращении клиента (браузера посетителя) к серверу сайта:
    • Accept – список допустимых форматов ресурса.
    • Accept-Charset – перечень поддерживаемых кодировок для предоставления пользователю.
    • Accept-Encoding – перечень поддерживаемых способов кодирования содержимого сущности при передаче.
    • Accept-Language – список поддерживаемых естественных языков.
    • Authorization – данные для авторизации.
    • Content-Disposition – способ распределения сущностей в сообщении при передаче нескольких фрагментов.
    • Expect – указывает серверу что клиент ожидает от него дополнительного действия.
    • Host – доменное имя и порт хоста запрашиваемого ресурса.
    • If-Match – список тегов версий сущности. Выполнять метод, если они существуют.
    • If-Modified-Since – дата. Выполнять метод если сущность изменилась с указанного момента.
    • If-None-Match – список тегов версий сущности. Выполнять метод если ни одного из них не существует.
    • If-Range – список тегов версий сущности или дата для определённого фрагмента сущности.
    • If-Unmodified-Since – дата. Выполнять метод если сущность не изменилась с указанной даты.
    • Max-Forwards – максимально допустимое количество переходов через прокси.
    • Proxy-Authorization – информация для авторизации на прокси-сервере.
    • Range – байтовые диапазоны для запроса фрагментов ресурса.
    • Referer – URI ресурса, после которого клиент сделал текущий запрос.
    • TE – список расширенных способов кодирования при передаче.
    • User-Agent – список названий и версий клиента и его компонентов с комментариями.
    • Cookie – небольшой фрагмент данных, отправленный веб-сервером и хранимый на компьютере пользователя.
  2. Данные полученные от клиента дополнительными запросами:
    • IP адрес – IP адрес сети посетителя сайта.
    • Геоданные – физическое местоположение посетителя сайта.
  3. Фиксация данных о визите посетителя на сайт:
    • Дата и время визита – точная дата и время визита посетителя.
    • Просмотренные страницы – страницы, которые просмотрел посетитель в рамках визита.
    • Продолжительность просмотров – время просмотра каждой страницы сайта в рамках визита.
    • Взаимодействие с сайтом – набор действий пользователя на сайте (действия мышкой, работа с клавиатурой и т.д.)

Фиксация в течение года и анализ представленных данных, даже для одного сайта со средней посещаемостью (~5000 визитов в сутки), приведёт к проблемам классифицируемым в информационных технологиях как большие данные (англ. big data).

Как показывают результаты работ специалистов над практическими задачами публикуемыми на сервисе kaggle (сообщество исследователей больших данных) представителями реального сектора экономики, представленных выше данных или даже их части, хватает для анализа и определения закономерностей в поведении пользователей.

Существующие методы классификации пользователей

Аспирант «Национального исследовательского университета «МЭИ» Зейн Али Нажи в своей диссертации «Исследование и разработка методов автоматической кластеризации интернет-пользователей и интернет-ресурсов для персонализации поиска» рассмотрел существующие методы классификации пользователей, разбив их на следующие категории:

  1. Методы не кластерной классификации:
    • Ассоциативный метод – анализ определенного множества целевых действий посетителей (например покупка в интернет магазине) и формирование некой вероятностной закономерности действий будущих пользователей.
    • Метод пересечений (Éclat mining) – основывается на пересечении элементов на разных транзакциях.
    • Метод частоты терминов (ТF – Term Frequency) – применяется для классификации обычных текстов, но при анализе поисковой истории пользователей может быть применим и для классификации самого пользователя.
  2. Кластерные методы классификации – автоматическое разбиение множества пользователей интернет-ресурса на группы (кластеры) в зависимости от показателей их схожести.

В работе показана эффективность кластерных методов классификации пользователей. Учитывая ограниченность и предопределенность множества групп пользователей, в рамках которого будет производиться анализ и классификация конкретных пользователей, кластерные методы, с точки зрения эффективности результатов повышения конверсии на конкретном сайте, кажутся перспективным направлением исследований.

Заключение

Текущие показатели конверсии интернет ресурсов демонстрируют перспективность исследований и внедрение решений направленных на повышения данного показателя. Объем доступных для анализа данных о пользователях, даже не авторизованных, а так же принятие утверждения о конечности и известности групп пользователей для конкретного сайта, позволяет надеяться на возможность создания качественного алгоритма классификации посетителей.