广东省高校自然科学研究项目结题验收报告模板.docx
《广东省高校自然科学研究项目结题验收报告模板.docx》由会员分享,可在线阅读,更多相关《广东省高校自然科学研究项目结题验收报告模板.docx(19页珍藏版)》请在第一文库网上搜索。
1、项目编号06Z012广东省高等学校自然科学研究重点项目结题(验收)报告项目名称:数据流异常挖掘及在欺诈检测中的应用研究项目负责人(签字):蒋盛益研究类别:应用基础研究研究工作起止时间:所在学校(盖章):广东外语外贸大学结题时间:2023.10广东省教育厅制填表说明一、本结题(验收)汇报填写内容必须实事求是,体现精确,字迹清晰。二、填入结题(验收)汇报中的各项内容或数据,必须是省高等学校自然科学研究重点项目资助期间所获得的成果。三、“项目名称”、“研究类别”、“项目编号”应与资助项目原申请(任务)书中所填相一致。四、本结题(验收)汇报应于项目完毕后三个月内送交省教育厅科研处。项目原定日勺研究工作
2、计划本项目的研究内容、工作方案。(包括采用的措施、技术路线、进度安排、拟到达的技术指标、提供成果方式等)1. 研究内容本项目以聚类分析为基础,研究基于聚类日勺高效数据流异常挖掘算法,并应用于欺诈检测中,详细包括5个方面日勺内容:(1)研究流数据中数据压缩表达模型和数据相似性的度量措施;(2)研究针对数据流的高效、自适应聚类算法,数据进化度量措施;(3)研究基于聚类模型日勺异常挖掘算法;(4)在聚类模型的基础上研究分类规则挖掘算法,进而研究基于规则的异常挖掘算法;(5)研究聚类、异常挖掘在欺诈检测等实际领域中的应用。2. 拟处理的关键问题(1)数据流中数据压缩表达模型和数据流中数据相似性的度量措
3、施;(2)数据进化和变化趋势的度量;(3)数据异常程度的度量;(4)基于聚类日勺分类规则挖掘措施的设计;(5)异常挖掘思想怎样与欺诈检测等应用领域有机结合。3. 研究措施采用理论与实践相结合的措施。以聚类分析为基本手段,研究面向数据流时聚类算法,以不一样步间粒度下聚类成果的差异性来研究数据进化,研究基于聚类日勺两阶段数据流异常挖掘算法;用已经有时机器学习数据集(信用评估数据集,入侵检测评估数据集)以及实际领域中采集的数据集对异常检测算法进行测试、评估和分析,根据成果确认理论成果或对理论成果进行修改、完善,以到达预期的研究目的。最终将提出的异常挖掘措施应用于欺诈检测领域。4. 技术路线针对5个方
4、面的研究内容,详细技术路线如下:在已经有静态数据相似性度量措施及数据表达模型基础上,增长表达时态性的要素,提出数据流的表达模型及数据相似性的度量措施。针对数据流的特点,考虑到数据模式变化日勺原因,提出可处理混合属性数据日勺高效率、高精度的据流聚类算法。运用倾斜时间窗口技术来跟踪时间有关的信息,通过多时间粒度下保留的聚类成果的差异性来挖掘数据进化特性和变化的趋势。将异常挖掘当作一类特殊的分类问题,研究基于聚类模型的异常挖掘算法。第一阶段建立聚类模型,研究度量一种类与整体偏离程度的措施,运用这种偏离程度将训练集日勺聚类成果进行标识,将偏离整体程度大的聚类作为异常类(其中的每个对象或事件均当作异常)
5、,其他类作为正常类,而得到描述正常数据和异常数据的聚类模型(带分类标识)。第二阶段检测异常,运用对象与分类模型偏离的程度来鉴定对象与否异常,从而得到基于聚类的动态(或在线)异常数据挖掘算法。在已建立的刻画异常事件聚类模型基础上,运用流数据表达模型,从聚类模型中提取描述行为的分类规则,进而得到基于规则的流数据异常挖掘算法研究。在公用测试数据集上测试算法日勺性能,分析试验成果,并根据实际的检测成果,改善和完善算法。将通过测试数据检查后得到改善的算法应用到欺诈检测等实际领域。5. 预期成果理论研究方面:在数据流的相似性度量、数据进化度量、趋势检测、数据流的聚类、高效分类规则的挖掘和数据流的异常挖掘等
6、研究方面,提出新的有效措施,切实处理异常挖掘中存在日勺可扩展性、时效性与精确性问题。就上述问题写出12篇以上高水平的学术论文在国内外权威学术期刊和会议上刊登。在实践方面:将所获得的理论研究成果应用于金融领域中的欺诈检测(信用卡的恶意透支检测、企业资金异常流动检测、反洗钱等),为有关应用领域的决策支持提供新日勺措施,提交算法实际应用的测试数据与成果。项目实际完毕状况请按下列提纲填写:(可根据需要加页)(一)完毕的研究内容,获得的重要研究成果,到达的目的及水平。1 .完毕的研究内容三年来,项目组组员注意加强对内、外日勺合作与交流,真诚协作,按照项目规划的研究内容,对数据挖掘日勺多种有关技术进行了系
7、统的研究,在项目组所有人员的共同努力下,已完毕研究计划,并在自然语言处理与信息检索方面进行了拓展研究。研究工作重要包括:数值属性离散化,特性选择,高效、自适应聚类算法,基于聚类的分类规则提取措施,稀有类的分类,基于聚类的异常挖掘算法等;提出的许多算法具有近似线性时间复杂度,可用于大规模数据集或数据流。重要研究工作进展及获得的成果如下:(1)聚类及其应用研究Chame1eOn等聚类算法能识别任意形状日勺数据,但时间复杂度为0(小(这里n,m分别是数据集日勺规模和数据包括附属性数目),难以用于大规模数据集,且不能处理含分类属性的数据;另首先,一趟聚类算法时间复杂度为近似线性时间复杂度5,且能处理含
8、分类属性的数据。为此,我们将能发现任意形状数据的聚类算法(Chame1eon、SNN等)与一趟聚类算法迅速高效的特点有机结合,研究两阶段混合聚类算法,设计了针对大规模、数据流日勺混合属性的高效聚类算法。其基本思想是:首先运用一趟聚类算法获得初始划分,将初始聚类成果的每个簇当作一种对象,再运用Charne1eOn等算法进行归并,得到最终聚类成果;理论分析表明,此类聚类算法具有近似线性时间复杂度,试验成果表明,提出的聚类算法可以识别任意形状数据。在这些算法的研究过程中,对于参数的选择提出了某些可行的方略,使得算法具有很好的自适应性。同步,我们研究了文本聚类算法,并应用于搜索引擎检索成果的聚类,提出
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 广东省 高校 自然科学 研究 项目 验收 报告 模板