数据挖掘在超市大数据中的应用 下载本文

内容发布更新时间 : 2024/5/4 18:51:31星期一 下面是文章的全部内容请认真阅读。

龙源期刊网 http://www.qikan.com.cn

数据挖掘在超市大数据中的应用

作者:梁婧婕 曹婷

来源:《商场现代化》2016年第07期

摘 要:大数据时代,各行各业汇集了庞大的数据,如何使这些数据得到充分的利用,数据挖掘是最关键也是最基础的工作。在本次研究中,将数据挖掘技术与购物篮思想理念相结合,运用R语言,对南京一家超市五个月内的销售数据进行研究分析。具体有65536条数据,有31869条销售记录,2242种类商品,将这些商品分为192小类商品,基于食品分类规则将该超市食品分为38类。此次研究过程如下:首先,运用R语言,使用编写字典的方式,对所获取的数据进行清洗,生成结构化数据。然后,在三方面对数据挖掘。一,数据描述性统计挖掘。二关联规则挖掘。最后,用图表的形式展示此次研究的成果。此次烟酒店意义:利用初级数据挖掘的理论支持,帮助企业更好地分析、了解客户,最终赢得客户的竞争是该研究的重要的意义和实际应用价值。

关键词:大数据;数据挖掘;购物篮;超市销售;关联规则 一、研究背景

1998年的《哈佛商业评论》刊登过这样一个案例,20世纪90年代美国沃尔玛超市中,沃尔玛超市管理人员分析销售数据时发现了一个令人难以理解的想象:在某些特定的情况下,啤酒与尿布这两件毫无关联的商品会经常出现在同一购物篮中。1993年美国学者Agrawal提出关于通过分析购物篮中商品集合,从而找出关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为.Agrawal从数学计算机算法角度提出了商品关联关系的计算方法--Apriori算法。沃尔玛尝试将Apriori算法引入到数据分析中,并获得成功,为超市销售产生了开拓性的影响。于是产生了“啤酒与尿布”的故事。

近几年,数据挖掘技术在零售业,电信业,金融业等许多领域得到了广泛的应用。为了更加清楚地了解学习数据挖掘在大数据环境下的应用。此次,我们对数据挖掘中的部分分析功能在零售业(基于一小型超市)的应用做一些粗略的研究与学习,基于关联规则,购物篮,Apriori算法等分析商品销售状况,探索出更多的类似于啤酒与尿布这样的规则等,辅助决策者了解销售全局,降低库存成本,进行市场分析等。 二、文献回顾

数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展。2001年,GartnerGroup的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。美国麻省理工学院在2001年1月份的《科技评论》

龙源期刊网 http://www.qikan.com.cn

(TechnologyReview)提出将在未来5年对人类产生重大影响的10大新兴技术,其中第3项就是数据挖掘。

数据挖掘技术已被广泛的应用于各个领域。在零售业领域,很多大型的零售商都采用了数据挖掘工具进行决策分析,关联规则挖掘已经投入应用领域,交叉管理,库存控制好客户分析设计都是零售业数据挖掘的主要内容。以沃尔玛为例他就采用了BO的方案。LuisCavique的购物篮分析的可扩展算法研究;AndreasMilda,ThomasReutterer提出了一个改进合作过滤方法以及预测二进制购物篮数据的交叉目录购买情况;HorngJinhChangd的基于聚类分析和关联规则分析的潜在客户购买行为的期望模型研究;FransCoenen,PaulLeng的基于分类精确度的关联规则阈值影响等。

国内对数据挖掘的研究较晚,没有形成整体的力量。1993年国家自然基金首次提出支持数据挖掘领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展数据挖掘和知识发现的基础理论及应用研究。复旦大学一直从事这方面的研究,朱扬勇等把一个应用于特征规则基于差异化的兴趣度定义运用到关联给则中,重新设立了兴趣度;武汉科技大学的张新霞等提出基于统计相关性的兴趣度量;东南大学宋爱波等提出了一种解决规则组合爆炸问题的方法,建立了一个带约束规则挖掘算法的模型,对Apriorii算法进行优化。还有其他相关研究。 但是,当前国内零售业数据挖掘工作还处于探索阶段。据了解,许多零售业企业使用收账结账设备获取的相关销售数据,都没有得到充分利用,这些数据本来都可以帮助零售企业实施交叉销售,控制库存,降低库存风险等创造更大的商业价值,却被忽略。所以,我们以南京市一家苏果超市为主体,使用购物篮的思想,从数据的获取,到数据清洗,再到关联规则分析等一系列系统的方法,研究与运用数据挖掘技术。 三、研究对象及方法

本研究所用的超市销售数据来自于南京市某一家苏果便利店的一个月内的月销量数据。数据大约有六万多条。包括商品的单号,商品销售时间,商品名称,销售单价,销售数量,销售金额。其中,部分是一个单号包含一个商品,其余为是一个单号包含多个商品。所以,本次研究不仅对购买了一个商品的购物篮进行描述分析,同时也对购买多个商品的购物篮进行关联规则分析。

采用购物篮分析方法。购物篮分析就是通过购物篮所显示的交易信息来研究顾客的购买行为,其直观意义就是顾客在购买一种商品的同时有多大的意愿购买另一种商品。研究商品之间的关联规则。这一规则中包含两个参数:支持度(support)和置信度(confidence)。支持度(Support)的公式是:Support(A->B)=P(AUB)。支持度揭示了A与B同时出现的概率。置信度(Confidence)的公式是:Confidence(A->B)=P(A|B)。置信度揭示了A出现时,B是否也会出现或有多大概率出现。 四、数据清洗

龙源期刊网 http://www.qikan.com.cn

随着信息技术的不断发展,各行各业都建立了很多的计算机信息系统,所以也就产生了大量的数据。当需要对数据进行分析的时候,直接获取的数据并不能够直接进行数据分析。主要表现在:数据冗余、数据重复、脏数据等问题。为了使得数据能够有效地支持相关的运作与分析,必须对数据进行清洗与处理,使之成为结构化数据。所以数据清洗也就是各种数据分析如OLAP(关联分析)、数据挖掘的前提与基础。在R软件中,通过建立字典的方式进行数据的清洗。

我们在对超市数据进行数据清洗的方法是构建字典,具体步骤如下: 1.建立链接:用read直接读取数据所在的文件,建立链接。

2.编写字典:根据商品的货号,提取出每一种商品的关键字,定为搜索的字符

(searchword)赋予它替换的名称(replacenames),把类似的商品给予相同的名称,如:洗衣护理剂,柔顺剂,都给它附名柔顺剂。其中,忽略商品的生产厂商。(注:因为主要研究方向与生产厂商无关)这样的话,可明确商品类型,依据连锁超市商品分类明细表指标,对所有的商品进行分类(categorys),如:家居用品,饮料,调料制品,粮食类等总共38种。 3.名称替换:使用for循环语句,按照字典里的关键字对原始数据里所有的商品进行对比,测试,找到相同的赋与替换名称与分类。结果如下(部分)。如果没有搜索到对应的关键字,则用other_names代替。这样,打开清除后的数据文件,查看清洗后的结果,对没有与之相对应的关键字的商品再进行字典的补充,知绝大部分的商品都搜索到与之相匹配的关键字。这样,就完成了字典的编写,与得到清洗后的结构化数据。

4.数据的重组:对于相同单号的数据合并在一起,则为一个顾客购买的商品。加载reshape程序包,把整体的数据打碎(melt),让其回到一个一个数据点的状态,根据观测的id名称和变量名称定为,再根据id名称和变量名称进行重新的组合,将同一个顾客买的所有商品都排列到一行。这里,假定购买最多的一个客户买了20种商品。在每一行显示该客户所买商品名称,买的不足20种的则用“@”表示。得到的数据就是完全清理好的数据,保存到新的文件夹. 五、结果分析 1.数据描述性统计分析 (1)数据的基本信息

在65536条销售数据中,分类汇总产生结构化数据后共有31869条消费记录,其中购买一件商品的顾客购物篮有19778个,购买一件以上商品的购物篮有12091个,分别占总体销售数据的62.06%和37.94%,购买一件商品的比例稍高;在包含一件以上商品的12091个购物篮中,顾客大多购买2-4件商品,占总体的88%左右。