pdf文档 云计算环境下的关联挖掘在图书销售中的研究

专业资料 > 经营营销 > 销售/营销 > 文档预览
4 页 0 下载 123 浏览 0 评论 0 收藏 3.0分
温馨提示:如果当前文档出现乱码或未能正常浏览,请先下载原文档进行浏览。
云计算环境下的关联挖掘在图书销售中的研究 第 1 页 云计算环境下的关联挖掘在图书销售中的研究 第 2 页 云计算环境下的关联挖掘在图书销售中的研究 第 3 页 云计算环境下的关联挖掘在图书销售中的研究 第 4 页

云计算环境下的关联挖掘在图书销售中的研究内容摘要:

第3 1卷第 11期    2014年 1 1月   计算机应用与软件 Co mp u t e rAp p l i c a t i o n sa n dS o f t wa r e Vo l  3 1 No . 1 1 4 No v .2 01 云计算环境下的关联挖掘在图书销售中的研究 郭 健 任永功 (辽宁师范大学计算机与信息技术学院 辽宁 大连 116081) 摘 要  随着大数据时代的到来,如今人们已经淹没在海量的信息当中。云计算技术的出现,为解决在海量数据中高效地挖掘出 有价值的信息问题提供了新的思路。利用云计算的分布式处理和虚拟化技术的优势,提出一种基于 Ma p/ Re d u c e编程模型与编码 操作相结合的分布式关联规则挖掘算法———MCM Ap r i o r i算法;设计并实现一个基于 Ha d o o p云平台的网上图书销售系统。为进一 步验证该系统的高效性,在该系统中利用 MCM Ap r i o r i算法进行图书推荐服务的应用。实验对比结果表明,该系统实现了快速分析 与查询、可靠存储的功能,可以明显提高关联规则挖掘效率。 关键词   云计算 Ha d o o p Hb a s e  Ap r i o r i  图书销售 中图分类号 TP3    文献标识码 A    DOI : 1 0. 3 9 6 9/ j .i s s n. 1 0 0 0 3 8 6x . 2 0 1 4. 1 1. 0 1 2 RESEARCH ONASSOCI ATI ONRULEMI NI NG I NBOOK SALESUNDER CLOUDCOMPUTI NG ENVI RONMENT Gu oJ i a n Re nYo n g g o n g (Sc ho o lo fCo mp u t e ra n dI n f o r ma t i o nTe c h n o l o g y ,L i a o ni ngNo r malUni v e r s i t y ,Dal i an116081,Li ao ni ng,Chi na) Abs t r a c t   Wi t ht h ea d v e n to fb i gd a t ae r a ,p e o p l ea r en o wo v e r wh e l me db yma s s i v ei n f o r ma t i o n.Th ee me r g e n c eo fc l o u dc o mp u t i n gt e c h  n o l o g yp r o v i d e sn e wi d e af o re f f i c i e n t l ymi n i n gt h ev a l u a b l ei n f o r ma t i o nf r o m ma s sd a t a .Byu t i l i s i n gi t sa d v a n t a g e si nd i s t r i b u t e dp r o c e s s i n g a n dv i r t u a l i s a t i o n,wep r e s e n tad i s t r i b u t e da s s o c i a t er u l emi n i n ga l g o r i t h m(MCM Ap r i o r i ),wh i c hi sb a s e do nt h ec o mb i n a t i o no fMa p/ Re  d u c ep r o g r a mmi n gmo d e la n dc o d i n go p e r a t i o n.Wea l s od e s i g na n di mp l e me n ta no n l i n eb o o k s t o r es a l e ss y s t e mwi t hHa d o o pf r a me wo r ku s i n g c l o u dc o mp u t i n g .Tof u r t h e rv e r i f yt h ee f f i c i e n c yo ft h es y s t e m,weu s eMCM Ap r i o r ia l g o r i t h mt oi mp l e me n tt h ea p p l i c a t i o no fb o o kr e c o m me n d a t i o n ss e r v i c ei ni t .Co n t r a s t e de x p e r i me n t a lr e s u l t sd e mo n s t r a t et h a tt h i ss y s t e ma c h i e v e st h ef u n c t i o n so ff a s ta n a l y s i sa n dq u e r ya swe l l a sr e l i a b l es t o r a g e ,a n dc a ns i g n i f i c a n t l yi mp r o v et h ee f f i c i e n c yo fa s s o c i a t i o nr u l e smi n i n g . Ke y wo r ds   Cl o u dc o mp u t i n g  Ha d o o p Hb a s e  Ap r i o r i  Bo o ks a l e s Di s t r i b u t e dFi l eS y s t e m)和 Ma p/ Re d u c e编程模型,同时还 包 括 0 引 言 Hb a s e 、Co mmo n、Av r o 、Hi v e等其他子项目,通过它们的互补可以 为 Ha d o o p的核心层提供更好的服务。针对传统的 Ap r i o r i关联 随着互联网技术的飞速发展,如今消费者通过网络购买书 规则算法存在的缺陷,研究者曾提出了多种可以并行实现的关 籍的行为已经成为一种主流的消费方式,网上图书销售平台正 联规则挖掘算法 [8-10],有效地提高了算法的效率,但仍存在不 逐渐向个性化与智能化的方向发展,其中图书推荐服务是其重 足及可提升空间。凭借云计算的分布式处理和虚拟化技术的优 [1, 2] 。关联规则挖掘是数据挖掘领域的一个经典的研究 势,文章利用目前最流行的 Ha d o o p平台以及 Ma p/ Re d u c e编程 ,它主要是通过对数据项的统计来获得频繁项集,进而 模型对传统的 Ap r i o r i算法进行了研究和改进,提出了基于编码 描述事物之间的联系以及它们之间的相关性,通过这种方法可 操作和 Ma p/ Re d u c e编程模型的 MCM Ap r i o r i算法,来准确快速 点之一 课题 [3] 以方便准确地为用户推荐出他们需要的产品。其中,沃尔玛超 地找出知识模型之间的联系。并将改进的 MCM Ap r i o r i算法应 市的“啤酒与尿布”这一经典的商业案例就是最早运用数据分 用在基于 Ha d o o p框架技术以及 We b技术实现的图书销售系统 析以及关联规则的方法创造了巨大的商业价值。 中,进行图书推荐服务。 权威机构 2 0 1 1年发布的统计数据显示,全球数据总量每过 两年就会增长一倍,预计到 2 0 2 0年人类拥有的数据总量将会达 到惊人的 3 5万亿 GB[4,5]。云计算技术 [6]的出现给海量数据挖 1 基于 Ma p/ Re duc e的 MCM Apr i o r i算法 由于云计算环境具有分布式的特点,可支持算法的并行执 掘领域 带 来 新 的 机 遇,特 别 是 当 今 主 流 的 云 计 算 平 台 Ha  d o o p[7],它通过服务的方式提供动态可伸缩的虚拟化资源的计 收稿日期: 2013-03-18。辽宁省科技计划项目(2012232001);辽 算模式,可以让用户很方便地开发和执行处理海量数据的应用 宁省自然科学基金项目(201202119)。郭健,硕士生,主研领域:We b数 程序。其中 Ha d o o p的 核 心 是 分 布 式 文 件 系 统 HDFS(Ha d o o p 据挖掘。任永功,教授。   第1 1期      51 郭健等:云计算环境下的关联挖掘在图书销售中的研究 行,从而提高挖掘效率。因此,近年来关于并行数据挖掘算法的 研究不断升温,也出现了众多在并行环境下对关联规则算法的 研究。基于 Ha d o o p集群框架以及 Ma p/ Re d u c e编程模型,文章 提出了一种新的能够在云计算环境中进行分布式处理的 MCM Ap r i o r i算法。 1. 1 Ma p/ Re duc e编程模型 Ma p/ Re d u c e是 Go o g l e设计的一种软件架构,是一种并行程 序编程模型 [11],通过函数式编程语言来建立映射(ma p)、化简 (r e d u c e )等概念,使编程人员在不熟悉分布式并行模型的情况 下也可以很方便地实现大规模数据集的并行计算。如图 1所 示。以下是 Ma p/ Re d u c e的执行流程 [12]: (1)ma p阶段 开始执行时先指定一个 ma p函数,用来把 输出的键值对进行哈希处理映射成一组新的键值对,同时 ma p 为每一个 r e d u c e任务的输出创建一个分区(p a r t i t i o n e r ,通常是 Ha s h Pa r t i t i o n e r ),然后根据哈希处理后的键值对来确定该项记 录放在哪个分区里。 (2)s h u f f l e阶段 Ma p/ Re d u c e确定每个 r e d u c e的输入全 容易获得频繁 1项集。 步骤 2 对整理后的项进行编码。扫描数据库,根据用户 定义的支持度,删除不满足最小支持度计数的项,对整理后的 项,根据其在交易中出现的记录进行编码表示。该方法克服了 Ap r i o r i算法需要多次扫描数据库的缺点,同时算法具有良好的 并行性和可伸缩性。 具体的编码规则为: 对于 设交易集 T={t t …,t ,项集 I={i i …,i 1, 2, n} 1, 2, m}, 任何一个给定的事务数据库 D,令 f ,f (D) =r ,则 r :D→ r i j i j i j定 义为如下形式: 1    I j∈ T

本文档由 sddwt2022-04-08 19:20:41上传分享
给文档打分
您好可以输入 255 个字符
本站的域名是什么?( 答案:sciwk.com )
评论列表
  • 暂时还没有评论,期待您的金玉良言