2018年9月
HenanScienceandTechnology
信息技术
大数据下一种规则的快速挖掘技术研究
周致丞
(河南大学大数据分析与处理实验室,河南
开封475000)
摘要:近年来,数据挖掘技术已经应用到各个领域。数据挖掘通常会产生大量规则,产生的关联规则大多
数是冗余的,导致用户难以分析并利用这些数据。本文致力于在大数据下对大量的冗余规则进行修剪,提出一种修剪算法的改进算法,并通过试验证明了该方法的有效性。关键词:大数据;数据挖掘;冗余中图分类号:TP311
文献标识码:A
文章编号:1003-5168(2018)25-0037-02
ResearchonaFastMiningTechnologyforBigData
(BigDataAnalysisandProcessingZHOULab,HenanZhicheng
University,KaifengHenan475000)
Abstract:largeandutilizenumberInrecenttheofdata.rules,years,Thisanddatapapertheresultingminingtechnologyhasbeenappliedtovariousfields.Dataminingusuallygeneratesawasdevotedassociationtopruningrulesaarelargemostlynumberredundant,ofredundantmakingrulesitdifficultunderbigfordata,usersandtoanalyzeimprovedgavean
Keywords:algorithmbigdataof;pruningdataminingalgorithm,;redundancyandproveditseffectivenessthroughexperiments.1
研究背景
2关联规则的基本概念
随着信息技术的不断发展,数据逐渐渗透到当今每关联规则的定义[1]是这样描述的:设I={i1一个行业和业务职能领域,成为重要的生产因素。面对是由m个不同属性(项目)组成的集合,i,i2,…,im}k{k=1,2,…,m}当前海量数据,如何准确有效地挖掘数据已经成为行业称为项。事务数据库D是事务T的集合,其事务数记作未来发展的趋势。关联规则的挖掘研究一直是数据挖掘|D|,
其中T是项的集合,并且T⊆I。对应每一个事务有领域的一个热门研究课题,现在已经被广泛地应用到各唯一的标识,记作TID。关联规则是形如X⇒Y的蕴涵个领域。近年来,国内外研究主要集中在关联规则冗余式,其中X包含于I,Y包含于I,并且X∩Y=∅。传统的修剪以减少关联规则的数量,减少不必要的挖掘。由此,本文致力于修剪冗余的关联规则,提高挖掘质量,并提出Apriori之间存在大量的冗余。尤其是当项集包含的项目比较多算法中规则生成方法非常简单,但计算复杂,规则一种关联规则的修剪方法。首先,根据规则与数据的匹时,所生成的冗余规则成指数增长,并且不能保证规则的配度进行修剪,并计算数据与规则的平均匹配度,如果小有效性。关联规则有两个度量标准:支持度(support)和于阈值,则修改规则,再根据机器学习中的相似性度量方置信度(confidence)。设有关联规则X⇒Y,则关联规则法,在剩余的规则中选择兴趣度最优的数量关联规则,最的支持度的定义为:support(X⇒Y)=support(X⋃Y)。关后获得除去冗余规则后的关联规则。
联规则的置信度定义为:confidence(X⇒Y)=support
本文所采用的方法最大限度地缩短了修剪所需要的(X⋃Y)/support(X)=P(Y|X)。支持度support(X⇒Y)是
处理时间,生成了一个准确的最小关联规则集,并能与传指在交易数据库中同时包含X和Y的交易数占所有交易统的关联规则挖掘方法保持相同的准确度,这使得冗余数的百分比。置信度confidence(X⇒Y)是指同时包含X规则的修剪易于理解,可读性强。
和Y的交易数与包含X的交易数之比。关联规则的支持
收稿日期:2018-08-06
作者简介:周致丞(1994—),男,硕士,研究方向:数据挖掘。
·38·
大数据下一种规则的快速挖掘技术研究
第9期
度反映了该规则所发生的频度,关联规则的置信度则表后算法的运行时间对比图。从图2可以看出,算法改进明了整体规则的准确程度。通常来说,只有支持度和置之后,挖掘关联规则所使用时间更少。尤其是在使用部信度同时达到较高的关联规则才可能是用户感兴趣、有分匹配时,在处理时间方面优于之前的传统的Apriori算用的关联规则。
法。试验结果表明,与传统方法相比,该方法的分类精度在关联规则的挖掘中可能会产生各种各样的规则,更高,所用时间更短。
很多规则是毫不相关的。在现阶段的研究中,部分研究14方向是运用闭合项集。所谓闭合项集,就是指一个项集12000
的直接超集的支持度计数,不等于其本身的支持度计
数10000数[2]。如果闭项集同时也是频繁的,得出支持度大于等则8000000规于最小支持度阈值,则称为闭频繁项集。关联规则的聚64000类也被用作挖掘规则,但还缺少理论的支持。修改后的2000Apriori[3]方法使大集合缩减为最优规则集。还有一种方0
000法是运用多种挖掘软件的可视化技术。这种方法虽然可0.10.20.30.4
最小置信度
0.50.60.70.80.91
以提供一种数据样式,但依然很难发现规则与规则之间原算法规则数改进算法规则数
的细节相关关系。从现在数据分析者的需求来看,这些图1
规则数对比图
改进的方法都是非常有限的。
s15003算法分析与试验
m/间时1000传统的关联规则处理方法具有显而易见的缺点,容行运500易过分忽略或者强调部分规则。本文通过对关联规则的平均匹配程度进行修剪,再根据机器学习中的相似性度0
0.1
0.2
0.3
0.40.50.60.70.80.9
量方法进行评估。改进的方法消除了关联规则之间大量最小置信度
的相似规则,同时防止规则在得到的最终结果中丢失。原算法运行改进算法运行在简化过程中,最后生成复杂度最高的关联规则和一些时间/ms
时间/ms
比较重要的关联规则。虽然可能在最小支持度阈值下生图2运行时间对比图
成大量的规则,但可以使用所提出的修剪方法找到最佳频繁项集。所提出的方法不仅可以从大量毫无关联的关4结语
联规则中减少关联规则的数量,还可以得出和其他传统在本文中,笔者提出了一种冗余规则的改进方法。方法相同或更好的准确度。
该方法利用修剪关联规则的冗余来提高计算效率,并消试验的数据使用的是UCIMachineLearningReposito⁃
除关联规则的冗余规则。试验结果表明,该方法有效减ry提供的数据库。为了使试验数值更加可视化,本文对
少了计算时间,减少了关联规则的冗余规则。通过该方数据进行了处理,本文中关联规则的属性为连续值属法与其他加速方法相结合,可以实现更高效的挖掘。
性。为了明确地评估算法,在试验过程中划分的范围比参考文献:
实际分布的情况更宽一些。图1是原算法和改进后算法的规则数对比图。从图1可看出,与经典的Apriori算法[1]AgrawalR,SrikantR.FastAlgorithmsforMiningAssocia⁃相比,本文的修剪方法大幅度减少了候选项集和频繁项tion集的数量,当大规模使用修剪的关联规则项集时,剩余的VeryRulesinLargeDatabases[C关联规则的数量会大量减少。同时,改进后的方法使关[Large2]SrikantDataBases.R,VuMorganQ,AgrawalKaufmann]//InternationalR.MiningPublishersConferenceAssociationInc,1994.onRules联规则的结构变得更加简单。当遇到大规模的数据挖掘DiscoverywithItemandConstraintsDataMining.[C]//AAAIInternationalPress,1997.ConferenceonKnowledge
时,产生的规则数量非常巨大。本文改进的算法在实际[3]AggarwalCC,YuPS.OnlineGenerationofAssociation的数据挖掘过程中实践优于以往的传统算法。通过本文的方法可以看出,使用减少以至于规避冗余规则的提取,2001Rules([4)J]:.527-540.
Knowledge&DataEngineeringIEEETransactionson,
大大提高了数据挖掘的计算效率。图2是原算法和改进
因篇幅问题不能全部显示,请点此查看更多更全内容