Чтобы продемонстрировать многообещающую производительность EBMM в реальных промышленных приложениях, мы определяем конкретный сценарий в сфере электронной коммерции в сотрудничестве с Alibaba Group, которая является ведущей компанией в области электронной коммерции в мире и предоставляет нам реальные и огромные данные онлайн-транзакций после анонимизации.

1 Сбор данных

Тысячи магазинов и миллионы потребителей, а также миллиарды коммерческих товаров, которыми каждый день торгуют в Интернете через Alibaba Group, ежедневно генерируется более 6 ТБ данных. Чтобы продемонстрировать всю мощь EBMM, мы специально выбрали для этого исследования определенный тип коммерческого товара – модную женскую одежду. Кроме того, для проведения обширной оценки мы случайным образом отбираем небольшую часть данных о продажах, сгенерированных в течение одного года (2012 г.), с участием более 16 миллионов потребителей.

В коммерческой деятельности магазинов, расположенных в Alibaba, обычно один магазин продает только один тип коммерческого товара. Это особенно верно для данных, которые мы собрали для продаж женской одежды, где существует взаимно-однозначное сопоставление между конкретным магазином и соответствующим конкретным типом женской одежды. Для дальнейшего изучения деловой активности этих значимых магазинов мы сосредоточимся на пяти самых популярных коммерческих категориях женской модной одежды в 2012 году, а именно на одном платье, футболке, футболке с надписью, блузке и рубашке без рукавов с их объемами продаж. и составляет 20 непрерывных недель в графике 2012 года и определяет эти важные магазины как те, чей общий объем продаж одежды превышает 1000 штук или выше.

Кроме того, мы собираем всех потребителей, которые купили одежду в этих магазинах. Рис. 1a описывает собранные данные, представленные в виде общих реляционных данных (Long et al., 2007). Полученные пять реляционных наборов данных, соответствующие пяти категориям женской одежды, проданной во временной области, используются в нашей оценке.

Рис. 1 Модель данных для бизнеса электронной коммерции: (а) исходная модель данных; (б) модель данных EBMM

2 Обработка данных

Прежде чем мы разработаем структуру EBMM, важно предварительно обработать данные, чтобы полностью охватить влияние отношений между магазинами, между потребителями, а также между магазинами и потребителями. Предварительная обработка проводится для сбора двух конкретных наблюдений из данных.
Во-первых, обратите внимание, что существуют отношения между магазинами, в частности, конкуренция и / или отношения сотрудничества для магазинов, которые продают одежду той же категории. Чтобы упростить захват этого типа отношений, для каждого магазина мы определяем его 10 наиболее похожих магазинов из всех его аналогичных магазинов, где сходство определяется с помощью сопоставления ключевых слов из названий одежды, продаваемой магазинами. Мы называем эти похожие магазины «родственными» магазинами. Во-вторых, учитывая огромное количество потребителей, чрезвычайно дорого рассчитать их потенциально возможные парные отношения. Кроме того, это сделало бы информационную сеть распространения очень разреженной. С другой стороны, у отдельных потребителей может быть индивидуальное поведение при совершении покупок, что приводит к сильному шуму в сети распространения информации. Чтобы сосредоточиться на типично репрезентативном покупательском поведении потребителей, мы подбираем 100 000 потребителей, которые обладают наибольшей способностью расходования средств, и применяем k-средства к их пространству атрибутов, чтобы сформировать 500 потребительских кластеров в качестве представителей потребителей. В остальной части статьи слово «потребитель» относится к потребительскому кластеру, а атрибуты потребителя являются соответствующими атрибутами центра потребительского кластера. Следовательно, сеть распространения информации развивается с использованием этих 500 потребителей, причем упрощенное представление данных показано на рис. 1б.

Использованные источники

  1. Anagnostopoulos, A., Kumar, R., Mahdian, M., 2008.   Influence and correlation  in social networks.   Proc.  14th ACM SIGKDD Int.  Conf.  on Knowledge Discovery and Data Mining, p.7-15. [doi:10.1145/1401890.1401897]
  2. Anagnostopoulos,  A.,  Brova,  G.,  Terzi,  E.,  2011.    Peer and authority pressure in information-propagation mod- els.    LNCS,  6911:76-91.   [doi:10.1007/978-3-642-23780-5_15]
  3. Bakshy, E., Hofman, J.M., Mason, W.A., et al., 2011.  Everyone’s an influencer:  quantifying influence on Twitter. Proc.  4th ACM Int.  Conf.  on Web Search and Data Mining, p.65-74. [doi:10.1145/1935826.1935845]
  4. Bakshy,  E.,  Rosenn,  I.,  Marlow,  C.,  et  al.,  2012. The role of social networks in information diffusion.   Proc. 21st   Int. Conf. on   World   Wide   Web,   p.519-528. [doi:10.1145/2187836.2187907]
  5. Bernstein, M.S., Bakshy, E., Burke, M., et al., 2013.   Quantifying the invisible audience in social networks.   Proc. SIGCHI  Conf.   on  Human  Factors  in  Computing  Systems, p.21-30.  [doi:10.1145/2470654.2470658]
  6. Bhagat,  S.,  Goyal,  A.,  Lakshmanan,  L.V.S.,  2012.    Maximizing product adoption in social networks.   Proc.  5th ACM  Int.    Conf.    on  Web  Search  and  Data  Mining, p.603-612.  [doi:10.1145/2124295.2124368]
  7. Bonchi,  F.,  Castillo,  C.,  Gionis,  A.,  et  al.,  2011. Social network analysis and mining for business applications. ACM Trans.  Intell.  Syst.  Technol., 2(3), Article 22. [doi:10.1145/1961189.1961194]
  8. Box, G.E.P., 2008. Time Series Analysis: Forecasting  and Control.  Wiley.  [doi:10.1002/9781118619193]
  9. Boyd, S., Parikh, N., Chu, E., et al., 2011. Distributed optimization and statistical learning via the alternating direction method of multipliers. Found. Trends Mach. Learn.,  3(1):1-122.   [doi:10.1561/2200000016]
  10. Cha, M., Haddadi, H., Benevenuto,  F., et al., 2010. Measuring user influence in Twitter: the million follower fallacy. Proc. 4th Int. AAAI Conf. on Weblogs and Social Media, p.10-17.
  11. Cui, P., Jin, S.F., Yu, L.Y.,  et  al.,  2013.  Cascading  outbreak prediction in networks: a data-driven approach. Proc. 19th  ACM  SIGKDD  Int.  Conf.  on  Knowledge Discovery and Data Mining, p.901-909. [doi:10. 1145/2487575.2487639]
  12. Dholakia, U.M., Bagozzi, R.P., Pearo, L.K., 2004. A social influence model of consumer participation in networkand small-group-based virtual communities. Int. J. Res. Market., 21(3):241-263. [doi:10.1016/j.ijresmar. 2003.12.004]
  13. Развитие информационной культуры и самостоятельной культуры познавательной деятельности в среде Интернет. Томаков М.В., Курочкин В.А., Коренева А.В. В книге: Методы обучения и организация учебного процесса в вузе Сборник тезисов докладов II Всероссийской научно-методической конференции. 2011. С. 429-431.
  14. Образовательные и воспитательные задачи информационно-образовательной среды вуза. Томаков М.В., Томаков В.И., Курочкин В.А., Коренева А.В. В сборнике: Современные инструментальные системы, информационные технологии и инновации материалы VIII Международной научно-технической конференции: в 2 частях. Ответственный редактор: Е.И. Яцун. 2011. С. 278-282.
  15. Интеграция Интернет-ресурсов в процесс формирования информационной компетентности инженера: решения и проблемы. Томаков М.В., Курочкин В.А. Безопасность жизнедеятельности. 2011. № 7 (127). С. 43-47.
  16. Образовательные технологии как объект системного исследования. Томаков М.В., Курочкин В.А., Зубков М.Э. Известия Юго-Западного государственного университета. 2011. № 2 (35). С. 162-168.

E-commerce business model mining and prediction
Zhou-zhou HE, Zhong-fei ZHANG, Chun-ming CHEN, Zheng-gang WANG

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *