云计算环境下的关联挖掘在图书销售中的研究

专业资料 > 经营营销 > 销售/营销 > 文档预览

4 页 0 下载 123 浏览 0 评论 0 收藏 3.0分

温馨提示：如果当前文档出现乱码或未能正常浏览，请先下载原文档进行浏览。

云计算环境下的关联挖掘在图书销售中的研究内容摘要：

第３１卷第１１期　　　２０１４年１１月　　计算机应用与软件ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓａｎｄＳｏｆｔｗａｒｅＶｏｌ  ３１Ｎｏ．１１４Ｎｏｖ．２０１云计算环境下的关联挖掘在图书销售中的研究郭　健　任永功（辽宁师范大学计算机与信息技术学院　辽宁大连１１６０８１）摘　要　　随着大数据时代的到来，如今人们已经淹没在海量的信息当中。云计算技术的出现，为解决在海量数据中高效地挖掘出有价值的信息问题提供了新的思路。利用云计算的分布式处理和虚拟化技术的优势，提出一种基于Ｍａｐ／Ｒｅｄｕｃｅ编程模型与编码操作相结合的分布式关联规则挖掘算法———ＭＣＭ Ａｐｒｉｏｒｉ算法；设计并实现一个基于Ｈａｄｏｏｐ云平台的网上图书销售系统。为进一步验证该系统的高效性，在该系统中利用ＭＣＭ Ａｐｒｉｏｒｉ算法进行图书推荐服务的应用。实验对比结果表明，该系统实现了快速分析与查询、可靠存储的功能，可以明显提高关联规则挖掘效率。关键词　　云计算　Ｈａｄｏｏｐ　Ｈｂａｓｅ　Ａｐｒｉｏｒｉ　图书销售中图分类号　ＴＰ３　　　　文献标识码　Ａ　　　　ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１０００ ３８６ｘ．２０１４．１１．０１２ＲＥＳＥＡＲＣＨＯＮＡＳＳＯＣＩＡＴＩＯＮＲＵＬＥＭＩＮＩＮＧＩＮＢＯＯＫＳＡＬＥＳＵＮＤＥＲＣＬＯＵＤＣＯＭＰＵＴＩＮＧＥＮＶＩＲＯＮＭＥＮＴＧｕｏＪｉａｎ　ＲｅｎＹｏｎｇｇｏｎｇ（ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒａｎｄＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ，ＬｉａｏｎｉｎｇＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ｄａｌｉａｎ１１６０８１，Ｌｉａｏｎｉｎｇ，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ　　Ｗｉｔｈｔｈｅａｄｖｅｎｔｏｆｂｉｇｄａｔａｅｒａ，ｐｅｏｐｌｅａｒｅｎｏｗｏｖｅｒｗｈｅｌｍｅｄｂｙｍａｓｓｉｖｅｉｎｆｏｒｍａｔｉｏｎ．Ｔｈｅｅｍｅｒｇｅｎｃｅｏｆｃｌｏｕｄｃｏｍｐｕｔｉｎｇｔｅｃｈ  ｎｏｌｏｇｙｐｒｏｖｉｄｅｓｎｅｗｉｄｅａｆｏｒｅｆｆｉｃｉｅｎｔｌｙｍｉｎｉｎｇｔｈｅｖａｌｕａｂｌｅｉｎｆｏｒｍａｔｉｏｎｆｒｏｍｍａｓｓｄａｔａ．Ｂｙｕｔｉｌｉｓｉｎｇｉｔｓａｄｖａｎｔａｇｅｓｉｎｄｉｓｔｒｉｂｕｔｅｄｐｒｏｃｅｓｓｉｎｇａｎｄｖｉｒｔｕａｌｉｓａｔｉｏｎ，ｗｅｐｒｅｓｅｎｔａｄｉｓｔｒｉｂｕｔｅｄａｓｓｏｃｉａｔｅｒｕｌｅｍｉｎｉｎｇａｌｇｏｒｉｔｈｍ（ＭＣＭ Ａｐｒｉｏｒｉ），ｗｈｉｃｈｉｓｂａｓｅｄｏｎｔｈｅｃｏｍｂｉｎａｔｉｏｎｏｆＭａｐ／Ｒｅ  ｄｕｃｅｐｒｏｇｒａｍｍｉｎｇｍｏｄｅｌａｎｄｃｏｄｉｎｇｏｐｅｒａｔｉｏｎ．ＷｅａｌｓｏｄｅｓｉｇｎａｎｄｉｍｐｌｅｍｅｎｔａｎｏｎｌｉｎｅｂｏｏｋｓｔｏｒｅｓａｌｅｓｓｙｓｔｅｍｗｉｔｈＨａｄｏｏｐｆｒａｍｅｗｏｒｋｕｓｉｎｇｃｌｏｕｄｃｏｍｐｕｔｉｎｇ．Ｔｏｆｕｒｔｈｅｒｖｅｒｉｆｙｔｈｅｅｆｆｉｃｉｅｎｃｙｏｆｔｈｅｓｙｓｔｅｍ，ｗｅｕｓｅＭＣＭ Ａｐｒｉｏｒｉａｌｇｏｒｉｔｈｍｔｏｉｍｐｌｅｍｅｎｔｔｈｅａｐｐｌｉｃａｔｉｏｎｏｆｂｏｏｋｒｅｃｏｍ ｍｅｎｄａｔｉｏｎｓｓｅｒｖｉｃｅｉｎｉｔ．Ｃｏｎｔｒａｓｔｅｄｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｄｅｍｏｎｓｔｒａｔｅｔｈａｔｔｈｉｓｓｙｓｔｅｍａｃｈｉｅｖｅｓｔｈｅｆｕｎｃｔｉｏｎｓｏｆｆａｓｔａｎａｌｙｓｉｓａｎｄｑｕｅｒｙａｓｗｅｌｌａｓｒｅｌｉａｂｌｅｓｔｏｒａｇｅ，ａｎｄｃａｎｓｉｇｎｉｆｉｃａｎｔｌｙｉｍｐｒｏｖｅｔｈｅｅｆｆｉｃｉｅｎｃｙｏｆａｓｓｏｃｉａｔｉｏｎｒｕｌｅｓｍｉｎｉｎｇ．Ｋｅｙｗｏｒｄｓ　　Ｃｌｏｕｄｃｏｍｐｕｔｉｎｇ　Ｈａｄｏｏｐ　Ｈｂａｓｅ　Ａｐｒｉｏｒｉ　ＢｏｏｋｓａｌｅｓＤｉｓｔｒｉｂｕｔｅｄＦｉｌｅＳｙｓｔｅｍ）和Ｍａｐ／Ｒｅｄｕｃｅ编程模型，同时还包括０　引　言Ｈｂａｓｅ、Ｃｏｍｍｏｎ、Ａｖｒｏ、Ｈｉｖｅ等其他子项目，通过它们的互补可以为Ｈａｄｏｏｐ的核心层提供更好的服务。针对传统的Ａｐｒｉｏｒｉ关联随着互联网技术的飞速发展，如今消费者通过网络购买书规则算法存在的缺陷，研究者曾提出了多种可以并行实现的关籍的行为已经成为一种主流的消费方式，网上图书销售平台正联规则挖掘算法［８－１０］，有效地提高了算法的效率，但仍存在不逐渐向个性化与智能化的方向发展，其中图书推荐服务是其重足及可提升空间。凭借云计算的分布式处理和虚拟化技术的优［１，２］。关联规则挖掘是数据挖掘领域的一个经典的研究势，文章利用目前最流行的Ｈａｄｏｏｐ平台以及Ｍａｐ／Ｒｅｄｕｃｅ编程，它主要是通过对数据项的统计来获得频繁项集，进而模型对传统的Ａｐｒｉｏｒｉ算法进行了研究和改进，提出了基于编码描述事物之间的联系以及它们之间的相关性，通过这种方法可操作和Ｍａｐ／Ｒｅｄｕｃｅ编程模型的ＭＣＭ Ａｐｒｉｏｒｉ算法，来准确快速点之一课题［３］以方便准确地为用户推荐出他们需要的产品。其中，沃尔玛超地找出知识模型之间的联系。并将改进的ＭＣＭ Ａｐｒｉｏｒｉ算法应市的“啤酒与尿布”这一经典的商业案例就是最早运用数据分用在基于Ｈａｄｏｏｐ框架技术以及Ｗｅｂ技术实现的图书销售系统析以及关联规则的方法创造了巨大的商业价值。中，进行图书推荐服务。权威机构２０１１年发布的统计数据显示，全球数据总量每过两年就会增长一倍，预计到２０２０年人类拥有的数据总量将会达到惊人的３５万亿ＧＢ［４，５］。云计算技术［６］的出现给海量数据挖１　基于Ｍａｐ／Ｒｅｄｕｃｅ的ＭＣＭ Ａｐｒｉｏｒｉ算法由于云计算环境具有分布式的特点，可支持算法的并行执掘领域带来新的机遇，特别是当今主流的云计算平台Ｈａ  ｄｏｏｐ［７］，它通过服务的方式提供动态可伸缩的虚拟化资源的计收稿日期：２０１３－０３－１８。辽宁省科技计划项目（２０１２２３２００１）；辽算模式，可以让用户很方便地开发和执行处理海量数据的应用宁省自然科学基金项目（２０１２０２１１９）。郭健，硕士生，主研领域：Ｗｅｂ数程序。其中Ｈａｄｏｏｐ的核心是分布式文件系统ＨＤＦＳ（Ｈａｄｏｏｐ据挖掘。任永功，教授。　第１１期　　　　５１郭健等：云计算环境下的关联挖掘在图书销售中的研究行，从而提高挖掘效率。因此，近年来关于并行数据挖掘算法的研究不断升温，也出现了众多在并行环境下对关联规则算法的研究。基于Ｈａｄｏｏｐ集群框架以及Ｍａｐ／Ｒｅｄｕｃｅ编程模型，文章提出了一种新的能够在云计算环境中进行分布式处理的ＭＣＭ Ａｐｒｉｏｒｉ算法。１．１　Ｍａｐ／Ｒｅｄｕｃｅ编程模型Ｍａｐ／Ｒｅｄｕｃｅ是Ｇｏｏｇｌｅ设计的一种软件架构，是一种并行程序编程模型［１１］，通过函数式编程语言来建立映射（ｍａｐ）、化简（ｒｅｄｕｃｅ）等概念，使编程人员在不熟悉分布式并行模型的情况下也可以很方便地实现大规模数据集的并行计算。如图１所示。以下是Ｍａｐ／Ｒｅｄｕｃｅ的执行流程［１２］：（１）ｍａｐ阶段　开始执行时先指定一个ｍａｐ函数，用来把输出的键值对进行哈希处理映射成一组新的键值对，同时ｍａｐ为每一个ｒｅｄｕｃｅ任务的输出创建一个分区（ｐａｒｔｉｔｉｏｎｅｒ，通常是ＨａｓｈＰａｒｔｉｔｉｏｎｅｒ），然后根据哈希处理后的键值对来确定该项记录放在哪个分区里。（２）ｓｈｕｆｆｌｅ阶段　Ｍａｐ／Ｒｅｄｕｃｅ确定每个ｒｅｄｕｃｅ的输入全容易获得频繁１项集。步骤２　对整理后的项进行编码。扫描数据库，根据用户定义的支持度，删除不满足最小支持度计数的项，对整理后的项，根据其在交易中出现的记录进行编码表示。该方法克服了Ａｐｒｉｏｒｉ算法需要多次扫描数据库的缺点，同时算法具有良好的并行性和可伸缩性。具体的编码规则为：对于设交易集Ｔ＝｛ｔｔ …，ｔ，项集Ｉ＝｛ｉｉ …，ｉ１，２，ｎ｝１，２，ｍ｝，任何一个给定的事务数据库Ｄ，令ｆ，ｆ（Ｄ）＝ｒ，则ｒ：Ｄ→ ｒｉｊｉｊｉｊ定义为如下形式：１　　　Ｉｊ∈ Ｔ

本文档由 sddwt 于 2022-04-08 19:20:41上传分享

下载原文档(765.23 KB)

收藏分享

给文档打分

评论列表

暂时还没有评论，期待您的金玉良言