大数据背景下数据新闻的文本挖掘算法的研究
2024-08-17
来源:尚车旅游网
2017年第4 l85 大数据背景下数据新闻的文本挖掘算法的研究 程铃钫黄泽文 (福建农林大学金山学院,福建福州350002) 摘要:数据新闻是基于数据的抓取、挖掘、统计、分析和可视化呈现的新型新闻报道方式。数据新闻是在大数据 的技术背景下产生的。数据新闻是随着数据时代的到来出现的一种新型报道形态,是数据技术对新闻业全面渗 透的必然结果,它的出现在一定程度上改变了传统新闻生产流程。数据的挖掘是对获取的新闻文本通过文本挖 掘算法,提取不同纬度的信息来支持新闻可视化应用,以及数据治理模块,用来排除一些垃圾信息,使得我们的 数据是比较优质的数据。 关键词:大数据;数据新闻;文本挖掘;数据治理 中图分类号:TP391 文献标识码:A 文章编号:1671.4792(2017)4.0030 03 Research on Text Mining Algorithm of Data News in Big Data Background Cheng Lingfang Huang Zewen (Jinshan College ofFujian Agriculture and Forestry University,Fujian Fuzhou 350002) Abstract:Data news is based on data capture,mining,statistics,analysis and visualization ofnew news coverage.Da— a tnews is generated in the context oflarge data.Data news is a new type ofreport with the arivalr ofthe data age.It is the inevitable result ofthe full penetration ofthe data technology to thejournalism.Its appearncea has changed he trta— ditional news production process to a certain extent.Data mining is to obtain the news text through the text mining al— gorithm,extract different latiude itnformation to support news visualization applications,and data management rood— ule,used to exclude some spam,making onr data quality elratively high. Keywords:Big Data;Data Journalism;Text・mining;Data Management O引言 报道提供数据来源的一个平台,再经过时问的打磨 不断的发展,现在已经成为一个搜索引擎,并且有着 强大的数据可视化的效果,可以为公共数据的检索 数据新闻不是一夜之间就有的,它的萌芽是从 计算机辅助报道(Computer Assisted Reporting)开始 的。20世纪50年代,美国就有媒体记者利用大型计 算机对政府提供的数据库中信息进行分析,以发现 和调查新闻事实。记者在政府机构、企业等所发布的 有限数据中,发现新闻选题或者将这些数据作为佐 证发现、拓展报道深度的重要资料。而在如今大数据 的背景之下,记者能够获取和利用的数据相较而言 是那时的天文数字的倍数。 1研究的现状 提供不小的帮助。数据博客运用电子表单来共享数 据,而且对这些数据进行分析后提取信息,通过可视 化平台将这些数据给展现出来,用这些数据为不同 的媒体提供不同的数据新闻分析。 2研究的意义 2.1传统新闻的不足之处 传统新闻主要是以事件报道为主,注重事实真 相与细节,当然传统新闻也有非常多的对社会的现 实事件报道,还有一些也会报道宏观社会新闻事件, 但是不管如何宏观表达,该篇新闻都是出自记者之 《卫报》是英 著名的一个报刊,在2009年推出 了数据博客,数据博客原本的定义只是用来为新闻 一3O一 手,每个记者都有自己的主观【生,在评论以及宏观概 括的时候往往记者的主观性会使得新闻的宏观方向 上的偏差,然后每次出现这种情况的时候,新闻报社 与新闻媒体都会找一些在某个领域比较出众有名的 专家来叙说这件事,从而提高新闻的权威度,这种情 况就是把一个记者主观性的概述转化成一个专家的 主观性的概述,治根不治本的步骤完全摆脱不了现 有的情况。 2.2数据新闻的优势 数据新闻的优势在于它不是对一篇新闻,而是 基于大数据的应用场景,将大数据与新闻结合起来, 通过各种统计分析,对新闻从不同的纬度去分析比 对,通过大数据的平台去研究新闻,研究事物的客观 现象,找出一些规律。我们将新闻从平面的文字,从 另外一个纬度上在地图上通过点、热力分布图、分析 的结果统计表,来结合现有的一些应用场景,会看到 一个不一样的新闻平台。 3算法实现 3.1命名实体识别算法说明 目前算法可以自动识别出城市、地区、国家、组 织、机构等实体信息。该算法底层是基于机器学习 方法隐马尔可夫模型,通过对不同的模型训练不同 的实体的特征集,自低向上输出结果推送到上一级 去识别的体系。本算法采用对训练语料所包含的语 言信息进行统计和分析,从训练语料中挖掘出特征。 具体特征包含单词特征、上下文特征、词典及词性特 一征、停用词特征、核心词特征以及语义特征等,再此 基础上再加上一套积累的数据词典库,进一步升华 匹配算法模型,从而训练一套独特的实体自动识别 模型。该算法在基于实体特征选取后再使用语料字 典,可以使得主体识别的精准度更高,且字典可随时 维护灵活运用于各种不同的业务需求。 3.2整个实体识别步骤 我们整个实体识别的隐马尔可夫模型是多层模 型累加迭代的,由于是三个相互联系的模型来做迭 代,从底到上分别是人名模型、地名模型和机构名模 型,每一层都是一个独立的模型,我们所有的实体模 型使用隐马尔可夫模型为基本构建体系,对不同的 实体知识库来训练的算法模型,所以实体识别算法 的时间复杂度并不会太高,也使得该模型可以快速 的识别不同实体,算法模型分析的时间长短是由新 闻文本长度来决定的,越长的新闻文本,所需要分析 的时间越长。每一层的隐马尔可夫模型有两种方式 来相互联系: (1)每一层的模型都采用N.Best的方式,低层模 型识别出来的最好的多个结果输出送到高层模型 中。 (2)低层的实体模型识别出实体与诃陛标注的词 语一起生成模型,可为高层模型计算参数提供一定 的参考与使用。 在输入文本的时候,我们提前会把新闻文本通 过分词器切分后,再输入到人名识别模型中,每层的 模型都使用改进后的维特比算法来构建,识别出的最 好的多个结果作为高层的模型的输入值。最高一层模 型将在所有低层模型的识别基础之上进行实体名的 识别,并且作为最后的输出值来输出。如图一所示。 图一实体识别流程图 3-3实体识别的概率估计 在多个实体层叠识别的过程中,会用一个简单 的实体作为其输出的结果,同时实体识别的标记为 t ,就会出现无法从我们的训练集合统计的结果得到 的概率p(w ItO情况,这个根本的原因主要是因为实 体Wi是属于一个未登录词,没有出现在我们整个语 料词典中,这样也会让我们的识别得出一个错误的 识别结果。为了防止这种情况发生,我们需要运用一 个新的模型来统计这个实体的概率,我们把这个模 型称为基于角色标注的词语模型。基于角色标注词 语模型和基于隐马尔可夫模型是~一对应的。角色 隐马尔可夫模型在识别过程中,都需要角色标注生 成的模型,用来计算算法识别出来的命名实体输出 的概率,使得每两层的模型会形成一个关联关系。 假设识别出来的未登录词为w,类别为b,利用 隐马过程可以得到: k p(wI 6)=Ⅱp( + + + )p p 1 + -1)(1) 其中,Wi由第p,p+l,・・・,p+k个原始分词得到 一31一 吾聿一的单元组我们可以看到,这个模型中总共有两个参 数:p(wp+jl )和p( { 一 ),都可从我们用来训练 的词典语料集中统计分析获取。 4贝叶斯分类算法 4.1算法设计 我们采用贝叶斯分类算法来实现,新闻分类系 统可以分成两个阶段,训练阶段的主要目的是为了 构造特征集合和训练分类器数据。分类阶段则是根 据特征集合与分类器对未分类新闻进行分类。这两 个阶段中的文本预处理与特征降维的方法是完全一 样的。 整个新闻分类系统的执行过程如下: (1)将数据格式转换成txt文本,并按类标签把所 有的新闻归类好。 (2)依据系统要求对文本数据进行分词、停用词 过滤等预处理。 (3)对已预处理的数据进行特征降维,构造训练 集的特征矩阵。 (4)利用相关分类算法训练分类器,将训练的结 果导入到后台数据库中。 (5)把我们准备好的新闻导入系统中,系统根据 训练好的分类器进行分类,把结果输出到指定的目 标文件夹下。 图二分类算法实现图 4.2贝叶斯分类算法实现 我们首先需要对人工审核过的不同分类的语 料,进行数据清洗和文本数据格式的转化,提取类别 信息,并把该新闻放人指定的类别中。并且在文本 一32一 分类系统中将文本的格式转换成特征矩阵形式,过 程包括分词、停用词处理等16]。 贝叶斯分类模型是一种基于统计方法的分类算 法模型,网上也有非常多的不同的算法资料。其数学 表达式为:U={x,c}是离散随机变量的有限集,其中 x是文本变量,类变量C的取值范围是(C ,c ,…, c ),Xi是文本X的属性值。文本x={x ,X ,…,X }属 于类Ci的概率,可以由贝叶斯公式表示: = = (2) 式(2)中,e(x)对全部的类别都是相同的,因此 不会影响目标值,因此在计算时可以忽略。P(ci)是 类的先验概率,P(X ,X:,・・・,x—ci)是文本的条件概 率,P(c,lx)是类ci的后验概率。根据贝叶斯分类最大 后验概率准则,给定待分类文本X,经过贝叶斯分类 器选择让后验概率P(c,Jx)最大的类c成为该样本的 类别。 5结束语 数据新闻看似一个新型的模式,其实是新闻业 不断的发展,从而随着大数据的应用孕育而出的一 个新模式,通过各种文本挖掘和数据可视化展现,创 造出一个非常有价值而且生动形象的一个可视化理 念,数据是有限的,不过数据的结构化带来的可视化 展现却有着无限的可能。 参考文献 【1】罗刚,张子宪.自然语言处理与技术实现[J】_北京:电子 【业出版社,2016. 【2】徐锐,万宏蕾.数据新闻:大数据时代新闻生产的核心 竞争力【J】编辑之友,2013,(12):71.74. 【3】陈昌风,乌日吉木斯.数据新闻与大数据思维的应用 [J】-新闻与写作,2014,(04):5-8. 【4】刘银娣.从海最数据中挖掘新闻故事:数据新闻内涵探 析【J].中国出版,2016,(09):30-33, [5】刘汝佳.算法竞赛入门经典【M】.北京:清华大学出版 社,2014. [6】张人一k,曲开社.一种基于新的特征选择的海最网络 文本挖掘算法研究[J】.计算机应用研究,2014,(09):2632—2634, 2684. 作者简介 程铃钫(1983一),女,lIj东滕州人,讲师,硕士,= 要研究 方向:机器学习、数据挖掘。