机器学习实验报告.docx
《机器学习实验报告.docx》由会员分享,可在线阅读,更多相关《机器学习实验报告.docx(7页珍藏版)》请在第一文库网上搜索。
1、机器学习试验报告朴实贝叶斯学习和分类文本(2022年度秋季学期)一、试验内容问题:通过朴实贝叶斯学习和分类文本目标:可以通过训练好的贝叶斯分类器对文本正确分类二、试验设计试验原理与设计:在分类(classification)问题中,经常需要把一个事物分到某个类别。一个事物具有许多属性,把它的众多属性看做一个向量,即x=(xl,x2,x3,.,xn),用x这个向量来代表这个事物。类别也是有许多种,用集合Y=yl,y2,ym表示。假如属于yl类别,就可以给打上yl标签,意思是说属于yl类别。这就是所谓的分类(Classification)。x的集合记为X,称为属性集。一般X和Y的关系是不确定的,你
2、只能在某种程度上说x有多大可能性属于类yl,比如说x有80%的可能性属于类yl,这时可以把X和Y看做是随机变量,P(YX)称为Y的后验概率(posterior probability),与之相对的,P(Y)称为Y的先验概率(priorprobability) lo在训练阶段,我们要依据从训练数据中收集的信息,对X和Y的每一种组合学习后验概率P(YX)o分类时,来了一个实例x,在刚才训练得到的一堆后验概率中找出全部的P(Y),其中最大的那个y,即为x所属分类。依据贝叶斯公式,后验概率为p(yx)=P(XY)P(Y)P(X)在比较不同Y值的后验概率时,分母P(X)总是常数,因此可以忽视。先验概率P
3、(Y)可以通过计算训练集中属于每一个类的训练样本所占的比例简单地估量。在文本分类中,假设我们有一个文档dx, X是文档向量空间(documentspace),和一个固定的类集合C=cl,c2,cj,类别又称为标签。明显,文档向量空间是一个高维度空间。我们把一堆打了标签的文档集合作为训练样本,XCo 例如:=Beijing joins the World Trade Organization,China对于这个只有一句话的文档,我们把它归类到China,即打上china标签。我们期望用某种训练算法,训练出一个函数,能够将文档映射到某一个类别:y:X玲C这种类型的学习方法叫做有监督学习,由于事先有
4、一个监督者(我们事先给出了一堆打好标签的文档)像个老师一样监督着整个学习过程。朴实贝叶斯分类器是一种有监督学习。试验主要代码:1、由于中文本身是没有自然分割符(如空格之类符号),所以要获得中文文本的特征变量向量首先需要对文本进行中文分词。这里采纳极易中文分词组件public class ChineseSpliter * 归备定的文*迸行中文一* 0param text洽定的文加* param splitToken用于分鸵的椁记,江”|* return分M亮辛的文本* /public static String split(String textString splitToke(String r
5、esult = null;hMAnalyer analyzer = new MMAnalyzer();tryresult = analyzersegment(textj splitToken);catch (IOException e)(eprintStackTrace(); Ireturn result;)2、先验概率计算,N表示训练文本集总数量。public class FriorFrcbability(private static TrainingData2anager td =new Training2ataMansger ();*/* 先验概率* 6param c给定的分类* Ret
6、urn给定条件下的先始概率* /public 3tatic flcat calculatePc(String c)(float ret OF;flcat Nc = tdngetTrainingFileCount0fCls33ification(c);flcat N = tdr. getTrainingFileCcunt ();ret = Nc / N;return ret;3、条件概率计算,为在条件A下发生的条件大事B发生的条件概率。x给定的文本属性,c给定的分类public static float calculatePxc(String x. String c)float ret = OF
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 实验 报告