Анализ рыночной корзины Интернет-магазина
Ассоциации отражают отношения между отдельными объектами и характеризуются некоторыми показателями прочности, отражающими их качество или значимость (Казиенко, 2008). Правила ассоциаций являются очень популярными типами ассоциаций, которые исследуются в Интернете и в электронной торговле. Выявление ассоциативных правил (также называемых анализом рыночной корзины или анализом сходства) включает в себя поиск взаимных, часто скрытых, связей между атрибутами, характеризующими объекты в наборе данных. Правило ассоциации позволяет количественно описать отношения между атрибутами и имеет форму: «если антецедент, то последующий» (где антецедент и последующее являются наборами атрибутов) наряду с мерами доверия и поддержки правило. Примером правила, установленного для интернет-магазина, может быть следующее: «60% клиентов, которые покупают очки, покупают также футляр для очков, причем 30% всех покупателей покупают оба продукта одновременно». В этом правиле антецедент содержит один атрибут — событие «клиент купил очки», последующий — атрибут, соответствующий событию «клиент купил футляр для очков», 60% означает доверие к правилу, а 30 % означает поддержку правил.
Как правило, атрибуты предшествующего и последующего правила не обязательно ограничены продуктами в физическом смысле, но могут основываться на любом событии. В случае пользовательских сессий в онлайн-магазинах рассматриваемые атрибуты включают продукты, купленные вместе, посещенные вместе веб-страницы, пути навигации клиентов, требования клиентов, выраженные используемыми фразами, и функции пользовательских сессий. В следующих подразделах мы рассмотрим соответствующую работу по обнаружению правил ассоциации в данных интернет-магазинов, чтобы показать применимость этого метода интеллектуального анализа данных в различных областях электронной коммерции.
Обнаружение связей между продуктами, купленными вместе разными покупателями
Первым и наиболее распространенным применением правил ассоциации был анализ больших баз данных транзакций клиентов, чтобы обнаружить отношения между продуктами, купленными вместе различными независимыми клиентами. Общая цель анализа — поддержка продаж. В (Agrawal et al. 1993) авторы предложили эффективный алгоритм для генерации важных правил ассоциации между наборами купленных предметов. Алгоритм использует два новых метода оценки и сокращения, чтобы избежать измерения определенных наборов элементов, гарантируя при этом полноту. Он также включает управление буфером, чтобы справиться с потенциальной проблемой нехватки памяти при измерении огромного количества наборов элементов (транзакций). Применение алгоритма к данным о продажах, полученных от крупной розничной компании, показало его высокую эффективность.
Тогда было предложено много улучшенных алгоритмов для нахождения правил ассоциации в больших наборах элементов, например, Алгоритм SETM на основе SQL-запросов (Houtsma and Swami 1995), алгоритм AprioriHybrid (Agrawal и Srikant 1994), алгоритм DHP (прямое хеширование и сокращение) (Park et al 1997), алгоритм FP-Growth (Frequent Pattern-Growth) (Han et al. 2004), алгоритм множественного минимума поддерживает алгоритм майнинга с использованием максимальных ограничений (Lee et al. 2005), алгоритм CBAR (Правило ассоциации на основе кластера) (Tsay and Chiang 2005), алгоритм DI-Apriori для правил диссоциации майнинга (Morzy 2006) или алгоритм MIbARM (разработка правил на основе матрицы и заинтересованности) (Deng et al. 2010).
Пэн и Ван (2010) предложили правила ассоциации добычи между продуктами, основанными на грубых наборах. Из разных типов продуктов могут быть выделены разные векторы признаков. Используя матрицу распознавания и функцию различимости, можно получить сокращенный набор продуктов, который затем используется для выведения правил ассоциации. Полученный набор правил затем проверяется путем применения корреляционного анализа.
Туан и соавт. (2012) предложили расширить правила ассоциации между продуктами, купленными в интернет-магазине с временным измерением. Авторы исследуют правила циклической (временной) ассоциации в течение временных интервалов, которые следуют некоторым пользовательским временным схемам. Примером временной схемы является (день, месяц, год), где обозначение (1, *, 2011) означает временной интервал, состоящий из всех 1-х дней всех месяцев в 2011 году. Правила циклической ассоциации должны иметь минимальную достоверность и поддержка через регулярные промежутки времени и не должна быть в силе для всей транзакционной базы данных, а скорее только для транзакционных данных в определенные периодические промежутки времени. Авторы обсуждают алгоритм MTP (Aining a priori), основанный на правилах сопоставления времени, и проверяют его эффективность с помощью экспериментов, выполненных в реальной базе данных продаж.
Было отмечено, что разные пользователи следуют различным путям навигации на сайте B2C и запрашивают разные страницы по-разному и с разными частотами. Принимая во внимание это наблюдение, в некоторых исследованиях применялись методы кластеризации для создания профилей клиентов и изучения связей между продуктами, приобретаемыми клиентами совместно в отдельных кластерах, например (Kwan et al. 2005; Nenava and Choudhary 2013; Mohammadnezhad and Mahdavi 2012; Tanna and Ghodasara 2012), или по ключевым клиентам (Чанг и др. 2007; Шим и др. 2012). Результаты использовались для предоставления клиентам персонализированных рекомендаций, оптимизации структуры веб-сайта и совершенствования стратегии CRM (управление взаимоотношениями с клиентами).
Мохаммаднежад и Махдави (2012) представили новую модель системы рекомендаций по туризму, которая предлагает туры для посетителей с использованием двух методов сбора данных: кластеризация и правила ассоциации. В соответствии с моделью клиенты изначально группируются с использованием алгоритма SOM (Self Organize Map) для определения количества кластеров и алгоритма k-средних для генерации кластеров. Затем, анализируя маршруты, заказанные клиентами в прошлом, правила ассоциации создаются отдельно для каждого кластера с использованием алгоритма A-priori. Рекомендации для активного посетителя сайта составляются на основе кластера, в котором находится целевой турист, и их прошлой истории покупок.
Аналогичная идея, также объединяющая кластеризацию клиентов и обнаружение ассоциаций для кластеров клиентов, была реализована в рамках подхода, который обсуждался в (Tanna and Ghodasara 2012). В этом исследовании была проведена кластеризация на основе векторного квантования для категоризации электронных клиентов на основе их значений RFM, а затем был применен алгоритм интеллектуального анализа правил A-priori для выявления взаимосвязей между покупками клиентов в отдельных кластерах.
В (Chang et al. 2007) была предложена модель ожидания потенциальных покупательских намерений в ближайшем будущем. Модель выводится из прошлого поведения покупателей в отношении постоянных клиентов и данных файла журнала для постоянных и потенциальных клиентов с использованием кластерного анализа и правил связывания. Основным предположением является то, что клиенты всегда заходят в интернет-магазин. Первый шаг — это выбор звездных продуктов, которые обеспечивают большой процент продаж компании (модель использует только один звездный продукт в качестве входных данных, поэтому его следует запускать отдельно для каждого выбранного звездного продукта). Второй шаг — создание профилей постоянных клиентов. Из набора всех клиентов, которые приобрели звездный продукт, группа постоянных клиентов извлекается путем расчета значения PPT (Прошлая закупочная тенденция) каждого покупателя. Для постоянных клиентов характерны некоторые личные особенности, в том числе возраст, пол, уровень образования, размер семьи и т. Д. Кластерный анализ постоянных клиентов выполняется на основе их ценностей PPT и личных данных с целью создания профилей постоянных клиентов и определения их прошлых покупок. тенденция каждой характеристики личной информации. Третий шаг — поиск потенциальных клиентов путем сравнения профилей лояльных клиентов с личной информацией клиентов, которые никогда ранее не покупали звездный продукт. Для каждого потенциального клиента их недавние намерения измеряются путем анализа их последних данных веб-журнала с помощью правил ассоциации, и определяется вероятность покупки в ближайшем будущем. Потенциальные клиенты, чье недавнее поведение соответствует правилам ассоциации, скорее всего, купят звездный продукт, поэтому система онлайн-рекомендаций должна предоставить им информацию об этом продукте.
В (Cho et al. 2013) для интернет-магазина был предложен алгоритм IWMAR (Правила приращения взвешенной горной добычи) с использованием FP-дерева. Взвешенные правила ассоциации были применены, чтобы найти отношения между продуктами, принимая во внимание информацию о возможности приобретения продукта. Сегментация по использованию продукта выполняется с помощью анализа RFM (Recency, Frequency, Monetary value), а весовые коэффициенты в правилах основаны на показателях RFM продукта. Сгенерированные правила используются в онлайн-системе рекомендаций для прогнозирования и рекомендации товаров с высокой покупаемостью.
Shim и соавт. (2012) обнаружили правила ассоциации и последовательные модели, анализируя данные транзакций онлайн-торгового центра. После определения VIP-клиентов с точки зрения актуальности, частоты и денежного значения (RFM) авторы разработали модель, классифицирующую клиентов на VIP или не-VIP, используя такие методы интеллектуального анализа данных, как искусственная нейронная сеть, дерево решений, логистическая регрессия и пакетирование. Затем для VIP-группы были обнаружены правила ассоциации и последовательные шаблоны среди категорий продуктов и подкатегорий. Исследование было основано на наборе данных, состоящем из пяти таблиц: демографические, бюллетени, комментарии, управление заказами и таблица заказов продуктов. Двенадцать входных переменных были приняты во внимание для классификации клиентов по VIP или не-VIP: все три значения RFM, возраст, канал регистрации (поиск или рекомендация) и другие переменные, связанные с предпочтениями клиента в оплате, доставке продукта, активность на доске объявлений и в комментировании продуктов. Результаты анализа были использованы для предложения элементов стратегии CRM для онлайн-торгового центра: модель классификации может использоваться для определения ключевых клиентов, которым следует осуществлять маркетинговую деятельность; веб-сайт должен быть переработан таким образом, чтобы страницы, связанные с сильно ассоциированными категориями продуктов, находились в одном клике друг от друга; набор ключевых слов в онлайн-торговом центре должен включать или подразумевать эти категории продуктов, которые строго включены в большинство обнаруженных правил ассоциации и последовательных шаблонов.
Использованные источники
- Adomavicius G, Tuzhilin A (2001) Expert-driven validation of rule-based user models in personalization applications. Data Min Knowl Disc 5(1–2):33–58
- Borzemski L, Suchacka G (2010) Business-oriented admission control and request scheduling for e-commerce websites. Cybernet Syst 41(8):592–609
- Catledge LD, Pitkow JE (1995) Characterizing browsing strategies in the World-Wide Web. Comput Netw ISDN 27(6):1065–1073
- Cheng C-H, Chen Y-S (2009) Classifying the segmentation of customer value via RFM model and RS theory. Expert Syst Appl 36(3):4176–4184
- Jenamani M, Mohapatra PKJ, Ghose S (2003) A stochastic model of e-customer behavior. Electron Commer Res Appl 2(1):81–94
- Kazienko P (2008) Associations: discovery, analysis and applications. Oficyna Wydawnicza Politechniki Wrocławskiej, Wrocław
- Kim JK, Cho YH (2003) Using Web usage mining and SVD to improve e-commerce recommendation quality. In: Proceedings of PRIMA’03, LNCS 2891. Springer, Berlin, pp 86–97
- Koch R (2008) The 80/20 principle: the secret of achieving more with less. Doubleday, New York Kwan ISY, Fong J, Wong HK (2005) An e-customer behavior model with online analytical mining for internet marketing planning. Decis Support Syst 41(1):189–204
- Lee Y-S, Yen S-J (2007) Mining Web transaction patterns in an electronic commerce environment. In: Proceedings of APWeb/WAIM’07 international workshops, LNCS 4537. Springer, Berlin, pp 74–85
- Lee J, Podlaseck M, Schonberg E, Hoch R (2001) Visualization and analysis of clickstream data of online stores for understanding Web merchandising. Data Min Knowl Disc 5:59–84
Using association rules to assess purchase probability in online stores
Graz_yna Suchacka, Grzegorz Chodak