Анализ файла журнала веб-сервера Интернет-магазина
Поведение веб-пользователя обычно анализируется с использованием данных, записанных в журналах доступа веб-сервера. Журналы — это текстовые файлы, в которые автоматически записываются некоторые данные по всем HTTP-запросам, поступающим на сервер от веб-клиентов. Например, в формате комбинированного журнала NCSA для каждого запроса записываются следующие данные:
• IP-адрес или имя хоста / субдомена HTTP-клиента (то есть клиентский веб-браузер),
• идентификатор веб-клиента (необязательное поле, обычно не указывается),
• имя пользователя или идентификатор пользователя, используемые для аутентификации (необязательное поле, обычно не указывается),
• дата и время отметки HTTP-запроса,
• HTTP-метод (наиболее популярным является GET, соответствующий загрузке данных с сервера),
• версия протокола HTTP (HTTP / 1.0 или HTTP / 1.1),
• URI (универсальный идентификатор ресурса) запрашиваемого ресурса сервера,
• код состояния HTTP (например, 200 означает, что запрос был успешно обработан на сервере),
• количество байтов данных, переданных для HTTP-запроса в ответе,
• реферер, то есть URL (Uniform Resource Locator), который связывал пользователя с сайтом (необязательное поле),
• строка агента пользователя, описывающая клиентский веб-браузер (необязательное поле).
Первоначальной мотивацией для ведения журналов был сбор информации, полезной для устранения возможных ошибок сервера. Однако со временем выяснилось, что журналы могут быть источником ценной информации о загрузке системы сервера и производительности сервера, а также о навигационных и транзакционных шаблонах веб-пользователей. Часть этой информации может быть легко получена с помощью простых статистических инструментов, но другие требуют применения более сложных аналитических методов. Многие основные проблемы связаны с анализом лог-файлов, основными из которых являются очень большой объем данных и слишком много аналитических методологий (Sen et al. 2006).
Анализ поведения пользователей на сайте называется анализом кликов. Данные потока кликов соответствуют сериям веб-страниц, запрошенных пользователями в ходе их сеансов, и могут быть восстановлены из журналов. Такой анализ имеет очень большое практическое значение для онлайн-ритейлеров, поскольку он позволяет понять, каким образом клиенты используют сайт и перемещаться по магазину, особенно в контексте успешных транзакций покупки. Надлежащий анализ может привести к лучшей организации службы электронной коммерции и более эффективным бизнес-решениям. Adnan et al. (2011) подчеркнули, что целью анализа файла журнала должно быть понимание поведения пользователей, а затем преобразование этих знаний в знания предвидения, которые помогут онлайн-продавцу скорректировать свою бизнес-политику. Лучшее понимание покупательского поведения электронного покупателя позволяет сократить время поиска товаров у покупателей и, таким образом, снизить стоимость поиска, рекомендуя товары, которые покупатели могут заинтересовать.
Анализ потока кликов на основе данных журнала связан со многими проблемами. Важным этапом является предварительная обработка данных, которая включает идентификацию пользователя, идентификацию сеанса, завершение пути и идентификацию транзакции (Huiying and Wei 2004). Два главных препятствия для сбора надежных данных об использовании включают локальное кэширование и прокси-серверы. В журнале сервера все запросы от прокси-сервера имеют один и тот же идентификатор, хотя запросы могут представлять много пользователей. Кроме того, из-за кэширования на уровне прокси-сервера один и тот же ответ от веб-сервера может просматриваться несколькими пользователями в течение некоторого периода времени, что искажает образ пользовательских сессий на веб-сервере (Cooley et al. 1999). Одна из неизбежных задач подготовки данных, необходимых для успешного анализа журнала, включает в себя правильную идентификацию пользовательских сеансов. Здесь могут быть применены два основных подхода (Chen et al. 2004): интервальные сеансы, где каждый сеанс состоит из страниц, к которым обращался один и тот же пользователь в течение определенного периода времени, и интервалы между сеансами, где каждый сеанс представляет собой последовательность страниц, к которым обращается один и тот же пользователь. с парными промежутками времени доступа ниже порогового значения. Обычно предполагается 30-минутный порог (Adnan et al. 2011; Chen et al. 2004; Catledge и Pitkow 1995; Stevanovic et al. 2011; Suchacka and Chodak 2013). Еще одна важная задача подготовки перед анализом потока кликов — это идентификация и устранение трафика, генерируемого ботами, которые показывают другие навигационные шаблоны, чем пользователи-пользователи (Suchacka 2014; Stassopoulou и Dikaiakos 2009).
Многие исследования по анализу потока кликов посвящены проблеме обнаружения пользовательских путей навигации и последовательных шаблонов на сайтах электронной коммерции (Adnan et al. 2011; Kwan et al. 2005; Lee and Yen 2007; Shim et al. 2012). Ключевое наблюдение было связано с тем, что посетители интернет-магазина являются потенциальными покупателями и выполняют различные виды операций на разных страницах. В зависимости от операции каждой странице может быть назначено определенное состояние сеанса. Типичными состояниями на сайте B2C могут быть домашняя страница, вход в систему, регистрация, просмотр, поиск, выбор, добавление в корзину и оплата. После различения состояний сеанса для данного веб-сайта электронной коммерции модель сеанса пользователя может быть разработана для всех клиентов (Jenamani et al. 2003; Kwan et al. 2005; Lee et al. 2001) или для различных групп клиентов (Chang et al. 2007; Kim and Cho 2003; Nenava и Choudhary 2013; Shim и др. 2012; Wang и др. 2004). Модели пользовательских сессий использовались для разработки алгоритмов управления запросами и планирования запросов для веб-серверов с целью повышения качества обслуживания на веб-сайтах электронной коммерции (Borzemski и Suchacka 2010; Suchacka и Borzemski 2013; Totok и Karamcheti 2006; Zatwarnicki and Zatwarnicka 2014 ; Zhou et al. 2006). Кроме того, во многих научных исследованиях применялись различные методы извлечения данных для анализа, поддержки и прогнозирования поведения пользователей (Borzemski и Kamin´ska-Chuchmała 2012; Chen et al. 2009; Cheng и Chen 2009; Huk et al. 2015; Mohammadnezhad и Mahdavi 2012; Poggi et al. 2007; Shen и Su 2007; Suchacka et al. 2015b; Van den Poel и Buckinx 2005; Wrzuszczak-Noga и Borzemski 2013). В следующем разделе мы классифицируем и анализируем подходы, которые применяли правила ассоциации к данным интернет-магазина.
Использованные источники
- Adnan M, Nagi M, Kianmehr K, Tahboub R, Ridley M, Rokne J (2011) Promoting where, when and what? An analysis of Web logs by integrating data mining and social network techniques to guide ecommerce business promotions. Soc Netw Anal Min 1(3):173–185.
- Borzemski L, Kamin´ska-Chuchmała A (2012) Client-perceived Web performance knowledge discovery through turning bands method. Cybernet Syst 43(4):354–368
- Carmona CJ, Ram´ırez-Gallego S, Torres F, Bernal E, del Jesus MJ, Garc´ıa S (2012) Web usage mining to improve the design of an e-commerce website: OrOliveSur.com. Expert Syst Appl 39(12):11243–11249
- Han J, Pei J, Yin Y, Mao R (2004) Mining frequent patterns without candidate generation: a frequentpattern tree approach. Data Min Knowl Disc 8(1):53–87
- Hop W (2013) Web-shop order prediction using machine learning. Master Thesis, Erasmus University Rotterdam
- Huiying Z, Wei L (2004) An intelligent algorithm of data pre-processing in Web usage mining. In: Proceedings of the IEEE WCICA’04, vol 4. New York, pp 3119–3123
- Huk M, Kwiatkowski J, Konieczny D, Ke˛dziora M, Mizera-Pietraszko J (2015) Context-sensitive text mining with fitness leveling genetic algorithm. In: Proceedings of the IEEE CYBCONF’15. New York, pp 183–188
- Jenamani M, Mohapatra PKJ, Ghose S (2003) A stochastic model of e-customer behavior. Electron Commer Res Appl 2(1):81–94
- Kazienko P (2008) Associations: discovery, analysis and applications. Oficyna Wydawnicza Politechniki Wrocławskiej, Wrocław
- Kim JK, Cho YH (2003) Using Web usage mining and SVD to improve e-commerce recommendation quality. In: Proceedings of PRIMA’03, LNCS 2891. Springer, Berlin, pp 86–97
- Koch R (2008) The 80/20 principle: the secret of achieving more with less.
- Doubleday, New York Kwan ISY, Fong J, Wong HK (2005) An e-customer behavior model with online analytical mining for internet marketing planning. Decis Support Syst 41(1):189–204
- Lee Y-S, Yen S-J (2007) Mining Web transaction patterns in an electronic commerce environment. In: Proceedings of APWeb/WAIM’07 international workshops, LNCS 4537. Springer, Berlin, pp 74–85
- Lee J, Podlaseck M, Schonberg E, Hoch R (2001) Visualization and analysis of clickstream data of online stores for understanding Web merchandising. Data Min Knowl Disc 5:59–84
Using association rules to assess purchase probability in online stores
Graz_yna Suchacka, Grzegorz Chodak