大数据下一种规则的快速挖掘技术研究

2021-03-15 来源：尚车旅游网

总651期第九期河南科技

2018年9月

HenanScienceandTechnology

信息技术

大数据下一种规则的快速挖掘技术研究

周致丞

（河南大学大数据分析与处理实验室，河南

开封475000）

摘要：近年来，数据挖掘技术已经应用到各个领域。数据挖掘通常会产生大量规则，产生的关联规则大多

数是冗余的，导致用户难以分析并利用这些数据。本文致力于在大数据下对大量的冗余规则进行修剪，提出一种修剪算法的改进算法，并通过试验证明了该方法的有效性。关键词：大数据；数据挖掘；冗余中图分类号：TP311

文献标识码：A

文章编号：1003-5168（2018）25-0037-02

ResearchonaFastMiningTechnologyforBigData

（BigDataAnalysisandProcessingZHOULab,HenanZhicheng

University，KaifengHenan475000）

Abstract:largeandutilizenumberInrecenttheofdata.rules,years,Thisanddatapapertheresultingminingtechnologyhasbeenappliedtovariousfields.Dataminingusuallygeneratesawasdevotedassociationtopruningrulesaarelargemostlynumberredundant,ofredundantmakingrulesitdifficultunderbigfordata,usersandtoanalyzeimprovedgavean

Keywords:algorithmbigdataof；pruningdataminingalgorithm,；redundancyandproveditseffectivenessthroughexperiments.1

研究背景

2关联规则的基本概念

随着信息技术的不断发展，数据逐渐渗透到当今每关联规则的定义［1］是这样描述的：设I={i1一个行业和业务职能领域，成为重要的生产因素。面对是由m个不同属性（项目）组成的集合，i,i2,…,im}k{k=1,2,…,m}当前海量数据，如何准确有效地挖掘数据已经成为行业称为项。事务数据库D是事务T的集合，其事务数记作未来发展的趋势。关联规则的挖掘研究一直是数据挖掘|D|，

其中T是项的集合，并且T⊆I。对应每一个事务有领域的一个热门研究课题，现在已经被广泛地应用到各唯一的标识，记作TID。关联规则是形如X⇒Y的蕴涵个领域。近年来，国内外研究主要集中在关联规则冗余式，其中X包含于I，Y包含于I，并且X∩Y=∅。传统的修剪以减少关联规则的数量，减少不必要的挖掘。由此，本文致力于修剪冗余的关联规则，提高挖掘质量，并提出Apriori之间存在大量的冗余。尤其是当项集包含的项目比较多算法中规则生成方法非常简单，但计算复杂，规则一种关联规则的修剪方法。首先，根据规则与数据的匹时，所生成的冗余规则成指数增长，并且不能保证规则的配度进行修剪，并计算数据与规则的平均匹配度，如果小有效性。关联规则有两个度量标准：支持度（support）和于阈值，则修改规则，再根据机器学习中的相似性度量方置信度（confidence）。设有关联规则X⇒Y，则关联规则法，在剩余的规则中选择兴趣度最优的数量关联规则，最的支持度的定义为：support(X⇒Y)=support(X⋃Y)。关后获得除去冗余规则后的关联规则。

联规则的置信度定义为：confidence(X⇒Y)=support

本文所采用的方法最大限度地缩短了修剪所需要的(X⋃Y)/support(X)=P(Y|X)。支持度support(X⇒Y)是

处理时间，生成了一个准确的最小关联规则集，并能与传指在交易数据库中同时包含X和Y的交易数占所有交易统的关联规则挖掘方法保持相同的准确度，这使得冗余数的百分比。置信度confidence(X⇒Y)是指同时包含X规则的修剪易于理解，可读性强。

和Y的交易数与包含X的交易数之比。关联规则的支持

收稿日期：2018-08-06

作者简介：周致丞（1994—），男，硕士，研究方向：数据挖掘。

·38·

大数据下一种规则的快速挖掘技术研究

第9期

度反映了该规则所发生的频度，关联规则的置信度则表后算法的运行时间对比图。从图2可以看出，算法改进明了整体规则的准确程度。通常来说，只有支持度和置之后，挖掘关联规则所使用时间更少。尤其是在使用部信度同时达到较高的关联规则才可能是用户感兴趣、有分匹配时，在处理时间方面优于之前的传统的Apriori算用的关联规则。

法。试验结果表明，与传统方法相比，该方法的分类精度在关联规则的挖掘中可能会产生各种各样的规则，更高，所用时间更短。

很多规则是毫不相关的。在现阶段的研究中，部分研究14方向是运用闭合项集。所谓闭合项集，就是指一个项集12000

的直接超集的支持度计数，不等于其本身的支持度计

数10000数［2］。如果闭项集同时也是频繁的，得出支持度大于等则8000000规于最小支持度阈值，则称为闭频繁项集。关联规则的聚64000类也被用作挖掘规则，但还缺少理论的支持。修改后的2000Apriori［3］方法使大集合缩减为最优规则集。还有一种方0

000法是运用多种挖掘软件的可视化技术。这种方法虽然可0.10.20.30.4

最小置信度

0.50.60.70.80.91

以提供一种数据样式，但依然很难发现规则与规则之间原算法规则数改进算法规则数

的细节相关关系。从现在数据分析者的需求来看，这些图1

规则数对比图

改进的方法都是非常有限的。

s15003算法分析与试验

m/间时1000传统的关联规则处理方法具有显而易见的缺点，容行运500易过分忽略或者强调部分规则。本文通过对关联规则的平均匹配程度进行修剪，再根据机器学习中的相似性度0

0.1

0.2

0.3

0.40.50.60.70.80.9

量方法进行评估。改进的方法消除了关联规则之间大量最小置信度

的相似规则，同时防止规则在得到的最终结果中丢失。原算法运行改进算法运行在简化过程中，最后生成复杂度最高的关联规则和一些时间/ms

时间/ms

比较重要的关联规则。虽然可能在最小支持度阈值下生图２运行时间对比图

成大量的规则，但可以使用所提出的修剪方法找到最佳频繁项集。所提出的方法不仅可以从大量毫无关联的关4结语

联规则中减少关联规则的数量，还可以得出和其他传统在本文中，笔者提出了一种冗余规则的改进方法。方法相同或更好的准确度。

该方法利用修剪关联规则的冗余来提高计算效率，并消试验的数据使用的是UCIMachineLearningReposito⁃

除关联规则的冗余规则。试验结果表明，该方法有效减ry提供的数据库。为了使试验数值更加可视化，本文对

少了计算时间，减少了关联规则的冗余规则。通过该方数据进行了处理，本文中关联规则的属性为连续值属法与其他加速方法相结合，可以实现更高效的挖掘。

性。为了明确地评估算法，在试验过程中划分的范围比参考文献：

实际分布的情况更宽一些。图1是原算法和改进后算法的规则数对比图。从图1可看出，与经典的Apriori算法［1］AgrawalR，SrikantR.FastAlgorithmsforMiningAssocia⁃相比，本文的修剪方法大幅度减少了候选项集和频繁项tion集的数量，当大规模使用修剪的关联规则项集时，剩余的VeryRulesinLargeDatabases［C关联规则的数量会大量减少。同时，改进后的方法使关［Large2］SrikantDataBases.R，VuMorganQ，AgrawalKaufmann］//InternationalR.MiningPublishersConferenceAssociationInc，1994.onRules联规则的结构变得更加简单。当遇到大规模的数据挖掘DiscoverywithItemandConstraintsDataMining.［C］//AAAIInternationalPress，1997.ConferenceonKnowledge

时，产生的规则数量非常巨大。本文改进的算法在实际［3］AggarwalCC，YuPS.OnlineGenerationofAssociation的数据挖掘过程中实践优于以往的传统算法。通过本文的方法可以看出，使用减少以至于规避冗余规则的提取，2001Rules（［4）J］：.527-540.

Knowledge&DataEngineeringIEEETransactionson，

大大提高了数据挖掘的计算效率。图2是原算法和改进

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

大数据下一种规则的快速挖掘技术研究