自然语言理解 教学大纲.docx
《自然语言理解 教学大纲.docx》由会员分享,可在线阅读,更多相关《自然语言理解 教学大纲.docx(7页珍藏版)》请在第一文库网上搜索。
1、自然语言理解教学大纲教材:自然语言理解赵海清华大学出版社第1章:自然语言处理概要1 .概念和术语包括什么是自然语言、自然语言处理和自然语言理解的关系、以及计算语言学。2 .自然语言处理技术的挑战自然语言处理被迫需要承担两类知识一一常识知识与语言学知识的处理和解析任务。后者属于自然语言处理这一领域独一无二的需求。3 .机器翻译4 .语言处理层次形态分析、句法分析、语义分析、语用分析、篇章分析、世界知识分析5 .应用型自然语言处理人机对话系统6 .自然语言处理的学术出版体系国际计算语言学会(AC1)等第2章:n元语言模型1 .概率论基础首先回顾概率论的基本知识,如联合概率、条件概率、贝叶斯等。2
2、.语言模型用于语言生成语言生成的过程称为解码。n元语言模型给出的是n元组出现的概率,因此合理或正确的语言现象必然有更大的概率或似然,这一观察是语言模型能在预测性解码任务之中发挥作用的关键。3 .n元语言模型的工作方式n元机制、马尔可夫假设4 .评价指标困惑度5 .n元语言模型的平滑方法1aP1aCe平滑、Good-TUring平滑、Je1inek-MerCer平滑、KatZ平滑、KneSer-Ney平滑、Pitman-YOr平滑6 .非n元机制的平滑方法缓存、跳词、聚类7 .平滑方法的经验结果对比几种平滑技巧的组合效果,以及对比它们在困惑度和语音识别的单词准确率上的差异。8 .n元语言模型的建
3、模工具介绍了一些常用的平滑工具包第3章:语言编码表示1 .独热表示用独热码表示语言符号2 .特征函数一个文本对象样本基于词一级的独热表示就是展示n元组本身,因此这个部分也称之为n元组特征,它也是自然语言最直接、最基本的特征。3 .通用特征模板在实际机器学习模型建立过程中,会用到成千上万维的特征向量,故而涉及成千上万个特征函数,如果这些函数要一个个定义,建模过程将会变得烦琐不堪。因此,实际上,特征函数可以按照定义属性进行分组,这样统一定义的一组特征函数(对应于特征向量维度上的一个片段)称之为特征模板。4 .加权的独热表示TF-IDF第4章:非监督的结构化学习1 .自然语言处理的方法构成对于一个一
4、般的自然语言处理任务来说,其方法都可以大致分解为结构化学习(结构分解和重组)与概率分布估计两部分。2 .简单任务:词/子词切分以形式上最简单的结构化学习一一词/子词切分为例,介绍自然语言处理中的非监督的结构化学习。3 .切分算法通用切分框架、Viterbi解码、贪心解码4 .优度度量频率、邻接多样性、分支燧、描述长度增益、点互信息、学生t测试5 .非监督分词数据集、评估指标、词典预处理技巧、性能6 .推广的字节对编码切分算法第5章:结构化学习1 .机器学习的粒度和语言单元自然语言是多粒度的、有结构的处理对象,可供选取的处理单元可以是字符、词、句子,甚至是整篇文档。2 .结构化学习的必要性3 .
5、自然语言处理中的结构化学习任务序列标注、序列到序列、树/图结构标注4 .退化为分类任务将复杂的结构化学习转化为更简单的分类任务5 .结构分解从计算机信息处理系统实现角度看,所有自然语言处理中的结构化学习任务都可以被归结为从一个图向另一个图的转化。因此,分解结构化学习到最终分类任务的形式,需要有效地对学习样本的图结构进行分解,以降低学习的难度。6 .共时结构分解:图模型7 .历时结构分解:转移模型8 .两类结构化分解方式的优劣9 .结构化学习的简化情形自然语言处理里面大量常见任务属于仅边或仅节点类型的结构化学习任务,这使得建模不是那么困难,也能找到直接的简化方法把各类任务轻易转化为分类任务。第6
6、章:结构上的标注任务1 .从结构标注到序列标注结构上的标注任务可以由一大类广泛的机器学习模型有效解决。2 .局部马尔可夫模型3 .全局马尔可夫模型和条件随机场全局马尔可夫模型、马尔可夫随机场、条件随机场4 .隐马尔可夫模型5 .自然语言处理中的结构标注任务讨论自然语言处理中的序列标注的建模问题。第7章:机器学习模型1 .机器学习模型的要素配置形式化地定义机器学习模型:损失函数、模型类型、学习算法2 .损失函数算术启发的损失、信息论启发的损失、组合优化下的距离3 .k近邻方法距离度量、投票策略、优缺点4 .感知机平均感知机、神经元5 .钱链损失与支持向量机最大化间隔、惩罚项导出的软边界、映射到高
7、维空间、核函数、训练算法、多类支持向量机、工具包、优缺点总结6 .交叉端损失与最大端模型对数-线性模型或称最大牖模型,它支持丰富的特征集成,同比相比于支持向量机,其训练算法更为高效。7 .从神经元到神经网络第8章:深度学习模型1 .表示学习传统上,机器学习模型使用对于输入表示保持无偏的输入数据流独热编码。对于特征向量意义上的输入来说,它是一个高度冗余的向量,导致模型复杂度提升以及计算代价高昂。传统机器学习方法采取的补救措施就是引入一个单独的降维过程作为后续机器学习过程的预处理阶段。2 .词嵌入或词向量共现矩阵及词向量降维、WOrd2vec和g1ove、评估词向量3 .神经网络的结构配置如果视神
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言理解 教学大纲 自然语言 理解
