互联网数据挖掘期末考试简答题.docx
《互联网数据挖掘期末考试简答题.docx》由会员分享,可在线阅读,更多相关《互联网数据挖掘期末考试简答题.docx(8页珍藏版)》请在第一文库网上搜索。
1、简述自然语言处理领域的歧义现象在分词,词形式上一样的一段字符串,在不同的场景或者不同的语境下,可以理解成不同的词串、词组串等,并有不同的意义在分词,词性,句法,语义,语用方面有歧义。分词:解放大道路面积水间题冬天:能穿多少穿多少夏天:能穿修/少穿侈/少)9词义:我已经到西J了.你快出来往地铁站走如果你到r.我还没到,你先等着吧。如果我到r,你还没到,你就等着吧。词性:一次报告VS.一份报告。句法:咬死了猎人的狗NPVP-一NPNPDENPII猎人的狗VPDENPVPN、IIIVPNP的狗咬死了II咬死了猎人。语义:鸡不吃了。语义:曾经喜欢一个人,如今喜欢一个人。语用该来的没来简述布尔检索的优缺
2、点布尔模型的优点简单对查询严格掌控布尔模型的缺点1、普通用户难以构造布尔查询,耗时耗力.例如:早期文献检索要依赖检索专家2、检索结果文档无法排序.匹配或者不匹配3、根据布尔运算进行严格匹配,导致过少或者过多的检索结果3、简述PageRank算法的基本思想PageRank,随机游走(RandomWa1k)模型对网页按照流行度或权威性迸行排序为图中每个节点Vi计算一个PageRank值兀(Vi),页面节点的PageRank与其父节点的Rank值成正比,但与其父节点的出度(OUt-degree)成反比比如A网页链向B网页,则A的所有者认为B比较重要,就把A的一部份重要性得分赋予B,该重要性得分是Pa
3、gerank(A)ZoutIinks(A),也就是A的Pagerank值除以A的出度。A的Pagerank值是所有链向它的网页的重要性得分的总和。简述倒排索引的构建过程与好处倒排索引(invertedindex)以关键词为核心对文档过行索引帮劣快速地找到文档中所包含的关键词可看做链表数组,每一个链表的表头包含关键词,其后续单元则包括所有包括这个关键词的文档标号,以及一些其他信息,如该词的频率,该词的位置等词文科3,文档4倒排文件的实现过程是:先得到顺排文件,然后根据顺排文件得到倒排文件,从而实现由关键字来索引网页。假设有网页P1,P2,.,Pn,给每一个网页文件赋予一个编号Pid,给每一个关键
4、字赋予一个编号keyi,假设key是网页文件中的一个关键字,ni表示该关键字在网页文件中浮现的次数,VhitI,hit2,hitn表示该关键字在网页文件中的位置信息。首先将网页内容切分成一系列关键字:Pi=Key1key2,.,keyno建立以下顺排文件:P1=n1Key1(hit1,hit2,.,hitn),.,nx,keyi(hit1,hit2,hitx)P2=1,Key1(hit1,hit2,.,hitn),.,nn,keyk(hit1,hit2,.,hitn)Pn=n1,Key1(hit1,hit2,.,hitn),.,ny,keyjGit1,hit2,.,hity)顺排文件是以网页来
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 互联网 数据 挖掘 期末考试 答题
