1885字看懂机器学习、数据挖掘、数据分析和统计分析之间的联系与区别.docx
《1885字看懂机器学习、数据挖掘、数据分析和统计分析之间的联系与区别.docx》由会员分享,可在线阅读,更多相关《1885字看懂机器学习、数据挖掘、数据分析和统计分析之间的联系与区别.docx(6页珍藏版)》请在第一文库网上搜索。
1、1885字看懂机器学习、数据挖掘、数据分析和统计分析之间的联系与区别导读:与建模密切相关的领域包括统计分析、数据挖掘、机器学习和数据分析,它们对应了不同类型的工作岗位,例如风险建模分析师、数据挖掘工程师、数据分析师、数据运营专员、数据工程师等。本文将重点介绍这儿个领域的定义、特征以及相互之间的联系和区别。01机器学习机器学习是一门人工智能科学,研究如何在经验学习中改善具体算法的性能。机器学习的核心是通过算法来学习和提取数据中的隐含规律,随着数据丰富程度和学习次数的增加,学习的目标函数的效果会持续提升。机器学习算法体系包括监督学习、非监督学习、半监督学习、强化学习等,详见图1。最近邻(NN )K
2、近邻(KNN )朴素贝叶斯线性判别分析(LDA 逻辑回归决策一人工神经网络线性叮与广义线性打决策树(CART算法、ID算法)人工神经网络图1机器学习算法体系层次聚类一聚类分析。k均值聚类算法(k-means )DBSCAN算法BIRCH算法定度聚类EM聚类SOM聚类Apriori 算法祚序列模式八FPgrowh算法关联分析。GSP算法序列模式八SPADE算法主成分分析(PCA )因子分析(FA)变量降维。变量*类()多维度分析(MDS )异常检测3甚于密度目前机器学习领域使用最普遍的scikit-learn库将机器学习算法分为聚类、分类、回归和维度削减,此处不展开介绍,感兴趣的读者请参考相关资
3、料。02数据挖掘数据挖掘是从大量、不完全、有噪声、模糊、随机的数据中提取隐含在其中,人们事先不知道但又有用的信息和知识的过程。数据挖掘的关键词是隐含 事先不知道 有用的。如果一个模型规律是已知的、预定义的且确定的,仅仅是通过数据来校准,则不属于数据挖掘范畴。数据挖掘的对象按信息存储格式可分为:结构化数据,通常以二维表方式存储数据,如关系数据库、面向对象数据库、数据仓库;半结构化数据,以标记语言存储的数据,如XML、JSON、HTML等存储的数据;非结构化数据,如图像、语音、文本等。数据挖掘包括聚类分群、分类识别、回归预测、关联分析、异常检测、时间序列等,而基础数据的处理等数据工程工作和可视化、
4、最优化、预定义模型等则不属于数据挖掘。数据挖掘的范围如图2所示。聚类分群 聚类分群是无监督学习的一种.用于将样本按照特征相似性分成多个组,使得组内相似组间产生差异化分类识别 分类识别是有监督学习的一种.基于已标记样本,通过机僻学习算法,拟合相关性规律.对新样本打上类别标签回归预测 异常检测是指通过异常检测算法发现异常离群值.一般用于发现异常模式关联分析 回归预测是有监督学习的一种.基于已标记连续的屈假通过机器学习算法拟合相关性规律,对未来新样本预测出y值 关联分析是对于非时序或时序的数据.挖掘事件之间的共现规律,提取相关性特征,最典型的应用场景是购物篮分析、链接分析、路径分析等图2数据挖掘的范
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 1885 看懂 机器 学习 数据 挖掘 分析 统计分析 之间 联系 区别