关联规则挖掘综述
潮娇娇
摘要:关联规则挖掘是数据挖掘中的一个很重要的研究内容之一,近年来很多国内外研究人员对其进行了大量的研究。为了更进一步的了解关联规则挖掘技术,并掌握其发展方向和目前的研究现状。本文对关联规则挖掘技术进行了相关综述。首先介绍了关联规则的基本概念,其次分析了近年来一些经典关联规则算法的改进,并概述了相关算法在实际中的应用。最后对关联规则挖掘技术未来的发展趋势进行了讨论。
关键字:关联规则; 算法;数据挖掘;
Abstract: association rule mining is one of the important data mining research contents in this year, many domestic and foreign researchers have done a lot of research on it. In order to understand further the association rule mining technology, and grasp the development status and direction of research at present. This article of association rule mining technology related review. Firstly introduces the basic concepts of association rules, then analyzes the improvement of some classical algorithm of association rules in recent years, and summarizes the application of related algorithms in practice. At the end of the association rule mining technology development trend in the future are discussed.
Key words: association rules; algorithms; data mining;
引言
随着计算机技术与数据库技术的飞速地发展,数据资源越来越多。但巨大的数据,依然没有解决我们的信息需求问题,针对这种情况,产生了数据库的数据挖掘。与传统技术相比,数据挖掘技术是一种新型的信息处理技术,能够自动和智能地把位置数据或者大量数据中潜在信息转换成人们需要的信息和知识的技术。它可以从数据库提取有用的知识、规律以及更高层次的信息,对这些进行分析,帮助人们更有效的利用海量数据中存在的价值。目前对数据挖掘的发展趋势及研究方向主要集中在数据挖掘的数据总结、分类、聚类、关联规则等方面。而关联规则挖掘作为数据挖掘的核心内容之一,进来得到了很快的发展。并已经成为当今数据挖掘的热点。为此,对关联挖掘技术的研究具有重要的意义。本文将重点介绍关联规则挖掘技术的相关研究。主要对近年来关联规则挖掘技术的算法改进进行综述以及未来的发展方向。
1、关联规则基本概念
1.1 相关介绍
关联规则作为数据挖掘的核心研究内容之一,它是大量数据中发现信息之间可能存在的某种关联或者相关联系。通过分析这些挖掘出的数据联系,可以在现实中帮助我们预测或决定某些事情将会发生。有效的提高了我们制定出准确的决策。目前,关联规则挖掘技术广泛应用于金融、互联网、医学等多个领域。最早的关联挖掘是未来发现交易数据库中不同商品之间的联系,通过分析这种联系获得有关购买者的一般的购买模式。从而有助于商家合理地安排进货、库存及货架设计,更好的制定发展计划和规避风险。
1.2 相关定义
关联规则是通过形如 X → Y 的一种蕴涵式表达的,其中 X 和 Y 是不相关的项集,
(X,Y)∈ I,并且有 X ∩ Y=NULL 成立。关联规则强度可用通过支持度和置信度进行度量。支持度确定规则可以用于给定数据集的频繁程度,而置信度确定 Y 在包含 X 的事物中出现的频繁程度。支持度和置信度两个关键的相关形式定义[1]如下 :
(1)规则 X → Y 的支持度 :规则 X → Y 在交易数据库 D 中的支持度(support)是指交易集中包含 X 和 Y 的交易数与所有交易数之比,记为 support(X → Y),即 :support(X → Y)=|X ∩ Y|/|D|。
(2)规则 X → Y 置信度(confidence):是指规则 X → Y 在交易集中的同时包含 X 和 Y 的交易数与只包含 X 的交易数之比,记为confidence(X → Y),即 :confidence(X → Y)=|X ∩ Y|/|X|。规则的支持度和置信度是两个不同的量化标准。
2、关联规则算法
2.1 典型的关联规则算法
Apriori 算法是最著名的关联规则挖掘算法,它是一种以概率为基础的关联规则算法。通过迭代检索方法找出数据库中的项集,该项集的支持度要不低于用户设定的阀值。最后将这些项集合成得到所有数据库的频繁项集,利用这个构造出满足用户最小置信度的规则。但随着数据的增大,对于大型数据库的挖掘,该算法仍存在一些不足。其一,在产生大量的候选集时,需要花费大量的时间处理,降低了算法的效率。其二,该算法在对数据库进行扫描时,由于数据库的庞大,需要相当大的I/O负载。这两个缺点也是如今很多研究人员在改进该算需要重点研究的方向。本文在该节中简单的介绍了关于Apriori算法的相关改进研究。
随着数据挖掘技术的发展,大量基于分布式结构的大数据系统也相继被提出。其中以MapReduce方法作为实现自动分布式计算的方法为很多算法的并行化提供了新的思路。也为Apriori 算法的并行化提供了一种全新的思路。但是算法并行化后仍存在很多不完备的地方。例如在计算频繁项集时使用的时间增加了。为此,文献[2]针对这个问题进行了研究,通过将基于矩阵关联规则算法与MapReduce 算法结合,提出了一种基于矩阵的并行关联规则算法Apriori_MMR。该算法结合了数据划分的思想进行并行化改进,只需要对事务数据库进行两次扫描。第一次是产生频繁1-项集的集合;另一次是生成候选项集的局部支持度,利用局部支持度可以得出全局支持频度,最后生成所有频繁项集的集合。该算法利用高度并行化执行频繁项集的计算过程,大幅度的减少了候选项集,有利于降低系统通信等的能量消耗。对事物数据库减少扫描次数的同时,还通过矩阵化使事物数据库得到了进一步的压缩,从而降低了空间复杂度和时间复杂度。最后还将该算法与Apriori_MR 算法进行了对比,实验结果表明,该文改进的算法比Apriori_MR 算法在扫描同等事务数据库时耗时更短、 加速比更大。则可以证明,改进后的 Apriori算法能提高对大型数据库进行挖掘的效率。
文献[3]针对Apriori算法的两个缺陷进行了改进。改进算法Improve_Apriori_1主要通过构建辅助表来减少访问表中的无效记录来大幅降低访问数据库的次数,从而提升运算效率.另外,将由事务中包含的项目情况生成的数据库表装入内存中,之后的扫描过程无需再
访问数据库,而是直接访问内存以减少I/O开销,提高访问速度。改进算法Improve-Apriori2是采用对项集事务列表求交集的策略减少扫描数据库的次数,使算法达到较高效率.该算法全过程只扫描一次事务数据库,而Apriori 算法则反复扫描数据库致使I/O开销较大。经过试验证明,这个两个算法的改进能有效的压缩搜索空间,减少了不必要事务的扫描时间,提高频繁项集的生成率,其性能比传统Apriori算法更优。
2.2基于序列的关联规则挖掘算法
Agrawal 和 Strikant 最早提出了序列模式挖掘的概念, 即从序列数据库中挖掘满足最小支持度的频繁子序列的过程。序列模式挖掘不同于关联规则挖掘项集属性内部的联系,它主要研究项集之间的联系。
基于序列的关联规则挖掘算法,文献[4]提出了一种基于逻辑的频繁序列模式挖掘算法。序列模式挖掘不同于关联规则挖掘项集属性内部的联系,它主要研究项集之间的联系。传统的类Apriori 频繁序列模式挖掘算法都是基于支持度框架理论, 必须预先设定一个最小支持度阈值作为判断是否为频繁模式的标准, 而这通常需要较深的领域知识或大量的实践来设定,因此目前仍没有统一的评判标准。同时,挖掘的规则数量庞大,挖掘结果对于用户来说难以理解。该文主要针对这两个问题,首次在频繁序列模式挖掘中引入了逻辑的思想,通过逻辑规则过滤,去除大量不合逻辑的、无用的规则集,有效的解决了挖掘结果对支持度阈值的依赖性, 同时压缩了规则集的规模, 较大地提高了规则集的可理解性和可用性。
不同于上面的序列模式挖掘,文献[5]中提出的是带通配符约束的序列模式挖掘,是基于传统的模式挖掘问题上的提高。他们的研究背景是,对人类的很多疾病,如细菌病毒等,都与基因中某部分的重复片段有关.然而,重复模式并不是简单地复制自己,它们在序列中每次出现的形式可能不一样,模式中相邻两个字符之间可能插入或删除较短的序列片段。因此,带有通配符的序列模式挖掘比传统的序列模式挖掘更具有重要的研究价值。该论文设计的带有通配符约束的序列模式挖掘问题,用户可以定义灵活的通配符约束,模式的任意两个出现都不共享序列中同一位置的字符,使得问题定义在实际应用中更加合理。并设计了两种模式支持度的计算方法,对不同的支持度计算方法对算法的时间性能和解的完备性的影响进行了分析讨论。结果表明,与相关的序列模式挖掘算法相比,One-Off Mining 具有更好的
时间性能和解的完备性。
2.3基于约束的规则挖掘方法
关联规则挖掘在实际应用中,用户的参与决定规则的有效性、 可行性。因此,根据用户信息的需求设定约束条件以达到更实用、 使用户更感兴趣的规则目的。基于约束的规则挖掘方法则满足这个需求,该方法将提前设定的约束条件与算法有机结合,增强了挖掘的实用性。文献[6]提出了一种深度优先遍历FP-tree的约束概念格建立算法DFTFH(depth-first traversal FP-tree to Hasse),进行实际应用中用户更为关心的约束关联规则挖掘问题。DFTFH 算法旨在构造以规则后件固定为约束条件的约束概念格,提取频繁项集上的约束关联规则。该算法只进行一次深度优先遍历FP-tree产生所有候选节点组合,解决了现有算法重复扫描 FP-tree 的问题。然后依据最小支持度阈值和规则约束条件进行节点过滤,使约束概念格中的每一节点都是满足约束条件的频繁节点。最后只需扫描约束概念格中的父子节点便可提取出后件固定的约束关联规则。解决了现有算法进行约束关联规则挖掘时,构造的构造的概念格中存在冗余节点的问题。该论文最后通过实际通过实际项目中大气腐蚀数据集进行算法实验,结果表明,提出的算法效率优于现有算法,比现有算法具有更高的挖掘效率且腐蚀规则结果对材料腐蚀现状研究具有重要指导价值。并且能够通过不存在冗余节点的约束概念格提取出用户感兴趣的全部约束关联规则。以上算法还避免了Apriori类约束算法在高密度数据集出现的候选集爆炸问题。
2.4基于层次的关联规则挖掘算法
多媒体信息的快速增长对于内容管理的需求日益迫切,基于内容的信息检索是内容管理的一种方法。图像分类作为信息检索中的重要领域,近些年得到广泛研究[7-8]。关联规则分类[9]是图像分类中的一种新方法,是低层次视觉特征和语义概念的融合。随着图像分类
问题的复杂度越来越高,传统关联规则方法,在计算效率上不是很高。层次结构是减少分类问题复杂度的一种常用方法,特别是在处理大量类别时。为进一步提高分类系统性能,文献[10]提出一种基于公理化模糊集的语义图像层次关联规则分类器,采用公理化理论(AFS)和层次结构关联规则进行算法设计。首先,在建立AFS模糊规则库基础上,这里利用层次分类方法进行语义图像分类。该论文中,利用四层结构将图像数据库组织为层次结构,它们被组织在一个层次结构中,对应于图像数据库的层次结构。为提高算法精度,在对图像数据集进行特征提取基础上,采用公理化理论(AFS)构建图像集模糊概念的AFS属性表达,提高图像集属性辨识度;其次,为提高算法计算效率,考虑采用层次结构关联规则,构建语义图像分类器,利用概念之间的本体信息,提高并行分类能力;最后,通过对算法参数及横向对比实验, 显示所提算法具有较高的计算精度和计算效率。通过PASCAL VOC 2007和Caltech-101 数据集对算法的有效性进行了验证,但是在实际数据库上的实验效果,还需进一步进行实验验证。
2.5其他的关联规则算法研究
飞机上的各种航电设备通过端系统与交换机连接,形成了由若干个以交换机为中心的星型子网组成的机载网络系统。机载网络的综合化趋势导致设备间关系复杂,相互的影响越来越密切。其运行中保存了大量故障数据,蕴含着故障的所有关联信息,而关联规则挖掘的就是从大数据对象中,通过历史信息,挖掘个体之间隐含的或不容易被发现的关联关系。而传统的关联规则挖掘算法主要是基于Apriori 算法进行改进,其挖掘效率不能满足工程需求。因此,文献[11]从通过分析Apriori 算法效率主要受外存扫描和噪声组合的影响。结合机载网络领域知识、矩阵运算和频繁项集性质,提出一种高效的关联规则挖掘算法。利用机载网络故障基于业务路径的关联特征,找到避免噪声组合的分块策略,实现了噪声隔离,能有效提高挖掘效率。在循环扫描过程中,为提高各分块间搜索迭代效率,在分块的基础上提出频度矩阵和特征向量方法,将分块分解为特征向量和频度矩阵,利用矩
阵运算特点和频繁项集性质来减少循环次数和对比计算量。并最后综合这个策略的优点,提出了BFM挖掘算法。经过理论和实验结果表明,该算法能有效的提高频繁项集的挖掘速率。
关联规则挖掘是数据挖掘中重要的研究方法,主要用于发现事物数据集中项与项之间的关系。由于事务数据通常具有时间特性,提出了考虑时间因素的序列模式挖掘;为了描述关联规则随时间变化的特点,提出了动态关联规则的定义。文献[9]针对动态关联规则趋势度随时间变化的特点,提出了一种将灰色-Markov模型应用在动态关联规则趋势度挖掘的方法。该方法利用动态关联规则趋势度定义得到规则的趋势度,使用灰色系统理论进行建模以及预测结果的准确度,对不满足趋势度阈值的规则的支持度计数序列进行预测。最后将预测结果添加到原规则序列中,更新得到新的趋势度。进而判定此规则的趋势度是否满足阈值要求。该论文还通过实例进行了分析,实例表明该方法能够在一定程度上提高规则挖掘的效率,为决策提供更可靠的信息。是动态关联规则挖掘的结果更全面、更精确。最后该论文还提出了今后主要研究方向就是原始数量波动性过大且无明显规律时如何保证预测的精度的问题,以及对象为大数据或者海量数据时,如何提高挖掘算法的效率和准备性问题。
3、关联规则的应用及发展趋势
伴随着社交媒体的发展,各种社交媒体服务应运而生,社交媒体多源化现象也越来越明显。挖掘社交媒体多源数据知识关联,能更好地深入理解用户行为。对此文献[12]通过对基于主题建模知识的发现,对用户和视频进行主题建模,得到其在主题层上的表示,然后提出了基于关联规则挖掘的跨网络知识关联,以跨网络共同用户作为连接不同网络的桥梁,利用关联规则的方法挖掘不同网络间的知识关联,将用户和视频映射到同一主题空间并进行主题匹配,最终进行视频推荐。经过试验证明,该论文提出的构建跨网路关联知识
的方法可以使该关联突破语义关联的局限性,在更细的粒度下进行感知。相比于单纯的语义关联等方式,本文的关联模式更加灵活。最后该论文根据挖掘出的跨网络关联模式设计了一种跨网络的冷启动视频推荐应用,有效解决了用户在YouTube上视频推荐的冷启动问题。虽然这种跨网络关联模式能将两个不同平台相关联,但如何解决用户随机性造成的关联模式误差,使跨网络关联模式更加稳定有效问题,本论文在最后也提出了自己进一步研究的方法。
随着信息与网络技术的飞速发展,数据挖掘在揭示各类隐藏的模式或知识的层面上,也相应地暴露了它由于人为不正确使用产生的缺点,使得一些个人隐私或者共同隐私变得容易侵犯。因此,隐私保护和信息安全成为数据挖掘中一个迫切需要解决的问题,越来越引起人们的广泛关注。文献[13]针对EMASK算法所依的Apriori算法需要完全的数据库扫描并且进行多次比较操作来降低效率的弊端,提出了基于粒度计算的高效隐私保护频繁模式挖掘算法(BEMASK),该算法将关系数据表转换成面向机器的关系模型,利用这种模型,数据处理转换成粒度计算的方式,计算频繁项集变成了计算基本颗粒的交集。因此,相对EMASK算法,算法中所采用的数据垂直Bitmap表示,可以在保证准确性不降低的情况下,提高效率和减少I/O 操作的次数。并且保证了用户在获取有效的数据挖掘结果的同时,满足了用户对隐私保护的要求。
随着社交网络的迅速发展和普遍的应用,它作为一种信息传播的媒介,在社会中发挥着越来越重要的作用。然而同时随着“信息过载”和“信息困惑”现象的出现,阻碍了检索效率。因此,文献[14]针对此现象,提出了一种有效的社会网络个人兴趣关联规则方法。该方法将关联规则挖掘技术应用于研究个人爱好在社会网络中的关系。首先,查找用户之间的关系,再寻找爱好之间的关系。该论文在新浪微博上收集了三所大学的学生账户信息,其中每所大学规定收集4356名学生作为研究事件,并设计了10种爱好与该事件进行关联规则挖掘的研究。通过在查找频繁项集过程中忽略无关项、连接、和裁剪,获得候选项集。
利用兴趣度水平规则,可以有效的消除少数人关系的规则,最后得到可靠的关联规则。该论文提出的方法不仅可以应用在社交网络上,还能够为支持个性化服务和虚拟营销提供新的见解。这将是关联规则挖掘技术在未来实际应用中的一个发展方向。
经过以上的相关应用分析,关于关联规则挖掘技术在以后应用的发展趋势,本文提出了一下几个方面的应用领域:1)利用关联规则挖掘技术,研究不同年龄段的人们与淘宝商品够买情况之间的关联,提高淘宝网商家的营销;2)挖掘学历高低与就业率之间的关联;3)研究气温变化与人们发生疾病的关联规则挖掘,可以对一些疾病进行提前预防。
5、总结
关联规则挖掘技术所包含的内容很多,对其研究的成果也很多。本文只是简单的介绍了近年来其中重要的研究。重点介绍了关联规则挖掘算法的改进工作,以及目前关联规则挖掘在现实领域中的应用。对于关联规则中经典算法的综述还存在不足,没有将他们进行进一步划分比较研究。这在以后工作,应该继续致力于该领域的研究工作。为了获得更多有用的价值研究成果。
参考文献
[1]谷建光. 关联规则算法研究综述[J]. 电子测试, 2016(14):41-42.
[2]谢志明, 王鹏. 一种基于MapReduce架构的并行矩阵Apriori算法[J]. 计算机应用研究,2017(2):401-404.
[3]付沙, 周航军. 关联规则挖掘Apriori算法的研究与改进[J]. 微电子学与计算机,
2013(9):110-114.
[4]刘端阳, 冯建, 李晓粉. 一种基于逻辑的频繁序列模式挖掘算法[J]. 计算机科学, 2015, 42(5):260-264.
[5]吴信东, 谢飞, 黄咏明,等. 带通配符和One-Off条件的序列模式挖掘[J]. 软件学报,2013(8):1804-1815.
[6]FU Dong-mei, WANG Zhi-qiang. 基于FP-tree和约束概念格的关联规则挖掘算法及应用研究[J]. 计算机应用研究, 2014, 31(4):1013-1015.
[7]Luo Y, Liu T, Tao D, et al. Multiview Matrix Completion for Multilabel Image Classification[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2015, 24(8):2355-68.
[8]X u e Z, Du P, S u H. Harmonic Analysis for Hyperspectral Image Classification Integrated With PSO Optimized SVM[J]. IEEE Journal of Selected Topics in Applied Earth Observations & Remote Sensing, 1939, 7(6):2131-2146.
[9]张忠林, 石皓尹, 闫光辉. 灰色Markov模型动态关联规则趋势度挖掘方法[J]. 计算机工程与应用, 2015, 51(7):154-159.
[10]韦容, 申希兵, 杨毅. 基于公理化模糊集语义图像层次关联规则分类器[J]. 计算机工程与应用, 2016, 52(20):193-199.
[11]胡波, 黄宁, 仵伟强. 基于业务路径和频度矩阵的关联规则挖掘算法[J]. 计算机科
学, 2016, 43(12):146-152.
[12]黄晓雯, 严明, 桑基韬,等. 基于关联规则挖掘的跨网络知识关联及协同应用[J]. 计算机科学, 2016, 43(7):51-56.
[13]程舒通, 徐从富, 但红卫. 高效隐私保护频繁模式挖掘算法研究[J]. 计算机科学, 2015, 42(4):194-198.
[14]Yu X, Liu H, Shi J, et al. Association Rule Mining of Personal Hobbies in Social Networks[C]// IEEE International Congress on Big Data. IEEE Computer Society, 2014:310-314.
因篇幅问题不能全部显示,请点此查看更多更全内容