您的当前位置:首页正文

大数据下一种规则的快速挖掘技术研究

2021-03-15 来源:尚车旅游网
总651期第九期河南科技

2018年9月

HenanScienceandTechnology

信息技术

大数据下一种规则的快速挖掘技术研究

周致丞

(河南大学大数据分析与处理实验室,河南

开封475000)

摘要:近年来,数据挖掘技术已经应用到各个领域。数据挖掘通常会产生大量规则,产生的关联规则大多

数是冗余的,导致用户难以分析并利用这些数据。本文致力于在大数据下对大量的冗余规则进行修剪,提出一种修剪算法的改进算法,并通过试验证明了该方法的有效性。关键词:大数据;数据挖掘;冗余中图分类号:TP311

文献标识码:A

文章编号:1003-5168(2018)25-0037-02

ResearchonaFastMiningTechnologyforBigData

(BigDataAnalysisandProcessingZHOULab,HenanZhicheng

University,KaifengHenan475000)

Abstract:largeandutilizenumberInrecenttheofdata.rules,years,Thisanddatapapertheresultingminingtechnologyhasbeenappliedtovariousfields.Dataminingusuallygeneratesawasdevotedassociationtopruningrulesaarelargemostlynumberredundant,ofredundantmakingrulesitdifficultunderbigfordata,usersandtoanalyzeimprovedgavean

Keywords:algorithmbigdataof;pruningdataminingalgorithm,;redundancyandproveditseffectivenessthroughexperiments.1

研究背景

2关联规则的基本概念

随着信息技术的不断发展,数据逐渐渗透到当今每关联规则的定义[1]是这样描述的:设I={i1一个行业和业务职能领域,成为重要的生产因素。面对是由m个不同属性(项目)组成的集合,i,i2,…,im}k{k=1,2,…,m}当前海量数据,如何准确有效地挖掘数据已经成为行业称为项。事务数据库D是事务T的集合,其事务数记作未来发展的趋势。关联规则的挖掘研究一直是数据挖掘|D|,

其中T是项的集合,并且T⊆I。对应每一个事务有领域的一个热门研究课题,现在已经被广泛地应用到各唯一的标识,记作TID。关联规则是形如X⇒Y的蕴涵个领域。近年来,国内外研究主要集中在关联规则冗余式,其中X包含于I,Y包含于I,并且X∩Y=∅。传统的修剪以减少关联规则的数量,减少不必要的挖掘。由此,本文致力于修剪冗余的关联规则,提高挖掘质量,并提出Apriori之间存在大量的冗余。尤其是当项集包含的项目比较多算法中规则生成方法非常简单,但计算复杂,规则一种关联规则的修剪方法。首先,根据规则与数据的匹时,所生成的冗余规则成指数增长,并且不能保证规则的配度进行修剪,并计算数据与规则的平均匹配度,如果小有效性。关联规则有两个度量标准:支持度(support)和于阈值,则修改规则,再根据机器学习中的相似性度量方置信度(confidence)。设有关联规则X⇒Y,则关联规则法,在剩余的规则中选择兴趣度最优的数量关联规则,最的支持度的定义为:support(X⇒Y)=support(X⋃Y)。关后获得除去冗余规则后的关联规则。

联规则的置信度定义为:confidence(X⇒Y)=support

本文所采用的方法最大限度地缩短了修剪所需要的(X⋃Y)/support(X)=P(Y|X)。支持度support(X⇒Y)是

处理时间,生成了一个准确的最小关联规则集,并能与传指在交易数据库中同时包含X和Y的交易数占所有交易统的关联规则挖掘方法保持相同的准确度,这使得冗余数的百分比。置信度confidence(X⇒Y)是指同时包含X规则的修剪易于理解,可读性强。

和Y的交易数与包含X的交易数之比。关联规则的支持

收稿日期:2018-08-06

作者简介:周致丞(1994—),男,硕士,研究方向:数据挖掘。

·38·

大数据下一种规则的快速挖掘技术研究

第9期

度反映了该规则所发生的频度,关联规则的置信度则表后算法的运行时间对比图。从图2可以看出,算法改进明了整体规则的准确程度。通常来说,只有支持度和置之后,挖掘关联规则所使用时间更少。尤其是在使用部信度同时达到较高的关联规则才可能是用户感兴趣、有分匹配时,在处理时间方面优于之前的传统的Apriori算用的关联规则。

法。试验结果表明,与传统方法相比,该方法的分类精度在关联规则的挖掘中可能会产生各种各样的规则,更高,所用时间更短。

很多规则是毫不相关的。在现阶段的研究中,部分研究14方向是运用闭合项集。所谓闭合项集,就是指一个项集12000

的直接超集的支持度计数,不等于其本身的支持度计

数10000数[2]。如果闭项集同时也是频繁的,得出支持度大于等则8000000规于最小支持度阈值,则称为闭频繁项集。关联规则的聚64000类也被用作挖掘规则,但还缺少理论的支持。修改后的2000Apriori[3]方法使大集合缩减为最优规则集。还有一种方0

000法是运用多种挖掘软件的可视化技术。这种方法虽然可0.10.20.30.4

最小置信度

0.50.60.70.80.91

以提供一种数据样式,但依然很难发现规则与规则之间原算法规则数改进算法规则数

的细节相关关系。从现在数据分析者的需求来看,这些图1

规则数对比图

改进的方法都是非常有限的。

s15003算法分析与试验

m/间时1000传统的关联规则处理方法具有显而易见的缺点,容行运500易过分忽略或者强调部分规则。本文通过对关联规则的平均匹配程度进行修剪,再根据机器学习中的相似性度0

0.1

0.2

0.3

0.40.50.60.70.80.9

量方法进行评估。改进的方法消除了关联规则之间大量最小置信度

的相似规则,同时防止规则在得到的最终结果中丢失。原算法运行改进算法运行在简化过程中,最后生成复杂度最高的关联规则和一些时间/ms

时间/ms

比较重要的关联规则。虽然可能在最小支持度阈值下生图2运行时间对比图

成大量的规则,但可以使用所提出的修剪方法找到最佳频繁项集。所提出的方法不仅可以从大量毫无关联的关4结语

联规则中减少关联规则的数量,还可以得出和其他传统在本文中,笔者提出了一种冗余规则的改进方法。方法相同或更好的准确度。

该方法利用修剪关联规则的冗余来提高计算效率,并消试验的数据使用的是UCIMachineLearningReposito⁃

除关联规则的冗余规则。试验结果表明,该方法有效减ry提供的数据库。为了使试验数值更加可视化,本文对

少了计算时间,减少了关联规则的冗余规则。通过该方数据进行了处理,本文中关联规则的属性为连续值属法与其他加速方法相结合,可以实现更高效的挖掘。

性。为了明确地评估算法,在试验过程中划分的范围比参考文献:

实际分布的情况更宽一些。图1是原算法和改进后算法的规则数对比图。从图1可看出,与经典的Apriori算法[1]AgrawalR,SrikantR.FastAlgorithmsforMiningAssocia⁃相比,本文的修剪方法大幅度减少了候选项集和频繁项tion集的数量,当大规模使用修剪的关联规则项集时,剩余的VeryRulesinLargeDatabases[C关联规则的数量会大量减少。同时,改进后的方法使关[Large2]SrikantDataBases.R,VuMorganQ,AgrawalKaufmann]//InternationalR.MiningPublishersConferenceAssociationInc,1994.onRules联规则的结构变得更加简单。当遇到大规模的数据挖掘DiscoverywithItemandConstraintsDataMining.[C]//AAAIInternationalPress,1997.ConferenceonKnowledge

时,产生的规则数量非常巨大。本文改进的算法在实际[3]AggarwalCC,YuPS.OnlineGenerationofAssociation的数据挖掘过程中实践优于以往的传统算法。通过本文的方法可以看出,使用减少以至于规避冗余规则的提取,2001Rules([4)J]:.527-540.

Knowledge&DataEngineeringIEEETransactionson,

大大提高了数据挖掘的计算效率。图2是原算法和改进

因篇幅问题不能全部显示,请点此查看更多更全内容