3.1.1.1特征抽取

9月20日上午,东北师范大学副校长、博士生导师郭建华教授应数学与信息科学学院邀请,在学院多功能报告厅作了题为《汉语言文本数据挖掘的统计方法》的学术报告,二百余名师生共同聆听此次报告。

模型介绍:与基于假设的模型(线性分类器和支持向量机分类器)不同的是,朴素贝叶斯分类器的构造基础是贝叶斯理论。
朴素贝叶斯分类器会单独考量每一个维度特征被分类的条件概率,进而综合这些概率并对其所在的特征向量做出分类预测。因此,这个模型的基本数字假设是:各个维度上的特征被分类的条件概率是相互独立的。

3.1.1特征抽取

特征抽取,就是逐条将原始数据转化为特征向量的形式,这个过程同时涉及对数据特征的量化表示;而特征筛选则更进一步,在高维度、已量化的特征向量中选择对指定任务更有效的特征组合,进一步提升模型性能。

报告会上,郭建华教授从“市长公开电话”的典型事例讲起,对数据的收集、分类、筛选做了具体的阐释。他认为,处理大文本数据的技术关键在于数据分类筛选完毕后,如何采用不同关键字对其进行降维,使其成为低阶向量进行数据处理。他着重讲解了朴素贝叶斯分类这一结构降维策略模型的构建,并把朴素贝叶斯分类模型与普通的决策树模型、贝叶斯模型进行对比,指出其优点所在。郭建华教授还通过“吸烟是否会得肺癌”这一话题,告诉参会人员在处理大文本数据时应当如何考虑其他间接相关因素以及这些因素所带来的影响。

读取20类新闻文本的数据细节
#从sklearn.datasets里导入新闻数据抓取器fetch_20newsgroups
from sklearn.datasets import fetch_20newsgroups
#与之前预存的数据不同,fetch_20newsgroups需要即时从互联网下载数据
news=fetch_20newsgroups(subset='all')
#查验数据规模和细节
print(len(news.data))

18846

print(news.data[0])

图片 1

不同于前面的样例数据,这些文本数据既没有被设定特征,也没有数字化的量度。因此,在交给朴素贝叶斯分类器学习之前,要对数据做进一步处理。不过在此之前,对数据进行分割并且随机采样出一部分用于测试。

3.1.1.1特征抽取

原始数据的种类有很多种,除了数字化的信号数据(声纹、图像),还有大量符号化的文本。然而,我们无法直接将符号化的文字本身用于计算任务,而是需要通过某些处理手段,预先将文本量化为特征向量。
有些用符号表示的数据特征已经相对结构化,并且以字典这种数据结构进行存储。这时,我们使用DictVectorizer对特征进行抽取和向量化。

发表评论

电子邮件地址不会被公开。 必填项已用*标注