《互联网数据挖掘期末考试简答题.docx》由会员分享,可在线阅读,更多相关《互联网数据挖掘期末考试简答题.docx(8页珍藏版)》请在第一文库网上搜索。
1、简述自然语言处理领域的歧义现象在分词,词形式上一样的一段字符串,在不同的场景或者不同的语境下,可以理解成不同的词串、词组串等,并有不同的意义在分词,词性,句法,语义,语用方面有歧义。分词:解放大道路面积水间题冬天:能穿多少穿多少夏天:能穿修/少穿侈/少)9词义:我已经到西J了.你快出来往地铁站走如果你到r.我还没到,你先等着吧。如果我到r,你还没到,你就等着吧。词性:一次报告VS.一份报告。句法:咬死了猎人的狗NPVP-一NPNPDENPII猎人的狗VPDENPVPN、IIIVPNP的狗咬死了II咬死了猎人。语义:鸡不吃了。语义:曾经喜欢一个人,如今喜欢一个人。语用该来的没来简述布尔检索的优缺
2、点布尔模型的优点简单对查询严格掌控布尔模型的缺点1、普通用户难以构造布尔查询,耗时耗力.例如:早期文献检索要依赖检索专家2、检索结果文档无法排序.匹配或者不匹配3、根据布尔运算进行严格匹配,导致过少或者过多的检索结果3、简述PageRank算法的基本思想PageRank,随机游走(RandomWa1k)模型对网页按照流行度或权威性迸行排序为图中每个节点Vi计算一个PageRank值兀(Vi),页面节点的PageRank与其父节点的Rank值成正比,但与其父节点的出度(OUt-degree)成反比比如A网页链向B网页,则A的所有者认为B比较重要,就把A的一部份重要性得分赋予B,该重要性得分是Pa
3、gerank(A)ZoutIinks(A),也就是A的Pagerank值除以A的出度。A的Pagerank值是所有链向它的网页的重要性得分的总和。简述倒排索引的构建过程与好处倒排索引(invertedindex)以关键词为核心对文档过行索引帮劣快速地找到文档中所包含的关键词可看做链表数组,每一个链表的表头包含关键词,其后续单元则包括所有包括这个关键词的文档标号,以及一些其他信息,如该词的频率,该词的位置等词文科3,文档4倒排文件的实现过程是:先得到顺排文件,然后根据顺排文件得到倒排文件,从而实现由关键字来索引网页。假设有网页P1,P2,.,Pn,给每一个网页文件赋予一个编号Pid,给每一个关键
4、字赋予一个编号keyi,假设key是网页文件中的一个关键字,ni表示该关键字在网页文件中浮现的次数,VhitI,hit2,hitn表示该关键字在网页文件中的位置信息。首先将网页内容切分成一系列关键字:Pi=Key1key2,.,keyno建立以下顺排文件:P1=n1Key1(hit1,hit2,.,hitn),.,nx,keyi(hit1,hit2,hitx)P2=1,Key1(hit1,hit2,.,hitn),.,nn,keyk(hit1,hit2,.,hitn)Pn=n1,Key1(hit1,hit2,.,hitn),.,ny,keyjGit1,hit2,.,hity)顺排文件是以网页来
5、索引关键字的,即形式为(网页一关键字),不符合搜索引擎的需要。因此,需进行倒排处理,以关键字来索引网页,即形式为(关键字一网页):KeyiPid1,ni1(hit1,hit2,.,hitni1.,Pidn,nin(hit1,hit2,.,hitnin)文档索引“倒徘索引的优势关提词个数比文档少,因此检索效率高特别适合侑息检索直询词一般很少,通过几次查询就能找出所有可能的文档倒排索引的数据结构关键词查询一般采用BTree或哈希表文档列表组织一般采用二叉搜索的5、简述APriori算法的基本思想与过程定理(APriori性质):若A是一个频繁项集,则A的每一个子集都是一个频繁项集.思想:APrio
6、ri使用了一种称作IeVeI-WiSe搜索的迭代方法,其中k-项集被用作寻觅(k+1)项集.首先,找出频繁I-项集,以11表示.11用来寻觅12,即频繁2-项集的集合.12用来寻找13,以此类推,直至没有新的频繁k-项集被发现.每一个1k都要求又撤据库作一次彻底扫描.容生成频繁项集,中心思想:由频繁(k-1)一项集构建候选k-I页集“方法 找到所有的频繁1项集 扩展频繁(k1)项集得到候选k项集 删去不满足最小支持度的候选项集生成频繁项集,由K项集生成(k+1)项集方法: 由频繁k项集生成候选(k+1)项集连接:K项集之间连接产生可能的候选剪枝:使用APriori性质删去具有非频繁子集的候选在
7、DB中测试候选项集,性能研究显示了APriori算法是有效的和可伸缩(SCaIabIiIity)的.APriori算法个示例DatabaseTDBTidItems10203040A.C.DB.C.EA1B1C1EB,EIStscan-W-2B3C3E3Itemset1?ItemsetA.BJ1AC2AEJ1(BQ2B.E)3C.E)2KemsetsupC2scanA.B)ACATE)(BC)但E)(c7e)Itemset56I(B.C.E);3,dscan,3sup品小支持计数为2(minsup50)Apriori算法一另一个示例Database1)T1c1ItemsTIOOII,1215T2
8、0012,14T30012,13T400111214T5001113T60012.BT700H.BTSOOTb12.13,T5T900II,12,13最小支持计数为2(minsup=2/9)Cfc:候选k项集;1k:竣擎k项集八APriOri算法一另一个示例影陶小支闹ift229)C1Ck:懈选k1;1:1fc:频试Id史&I支挎堂计独I而向IBI62I园II3I比较供选支持度才数M重小火干皮什敷败UIJ2)UJ3(UH1功阿力U2J4)(12,(13,M)(3,I5U4I。.T5IIU2J1U3U1MInQ)33IW文*Jt计(,IZI3U1.皿22由S声主WftC3由1,户生ttC2MJt
9、itW【皿H2山口:力2APriOri算法一另一个示例最小支持计数为2(minsupN29)Ck:幄选k项睢;1k:频繁k项集取票I支持度过1?(HJ2J(J3)IU51XI3I2J4U2J5由12声生候选C3C3(HAI3AI5(II.12.15)II.12.1511.3.5)12.13.14)(12.13.15)12.14.15)简述分类与回归的联系与区别数据挖掘基础一p17分类定义P31回归定义分类定义,给定一个样例集合(训练集)每个样例包含一个属性集合,其中一个属性是类标记/类号“基于训练集构建一个模型,该模型将类标记属性看作是其它属性值的一个函数,目标:对新的样例尽可能准确地赋予类标记基于一个测试集来评估模型的准确性分类:给定一个样例集合(训练集),每一个样例包含一个属性集合,其中一个属性是类标记。基于训练集构建一个模型,该模型将类标记属性看做其它属性值的一个函数。对新的样例尽可能准确的赋予类标记。回归:基于若干变量的值预测一个给定的具有连续值的变量的值。分类和回归的区别在于输出变量的类型。定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。举个例子:预测明天的气温是多少度,这是一个回归任务;预测明天是阴、晴还是雨,就是一个分类任务。