数据分析与可视化知识点梳理汇总.docx
《数据分析与可视化知识点梳理汇总.docx》由会员分享,可在线阅读,更多相关《数据分析与可视化知识点梳理汇总.docx(21页珍藏版)》请在第一文库网上搜索。
1、数据分析与可视化1什么是数据分析?数据分析是基于商业目的,有目的的进行收集、整理、加工和分析数据,提炼有价信息的一个过程。其过程概括起来主要包括:明确分析目的与框架、数据收集、数据处理、数据分析、数据展现和撰写报告等6个阶段。1、明确分析目的与框架一个分析项目,你的数据对象是谁?商业目的是什么?要解决什么业务问题?数据分析师对这些都要了然于心。基于商业的理解,整理分析框架和分析思路。例如,减少新客户的流失、优化活动效果、提高客户响应率等等。不同的项目对数据的要求,使用的分析手段也是不一样的。2、数据收集数据收集是按照确定的数据分析和框架内容,有目的的收集、整合相关数据的一个过程,它是数据分析的
2、一个基础。3、数据处理数据处理是指对收集到的数据进行加工、整理,以便开展数据分析,它是数据分析前必不可少的阶段。这个过程是数据分析整个过程中最占据时间的,也在一定程度上取决于数据仓库的搭建和数据质量的保证。数据处理主要包括数据清洗、数据转化等处理方法。4、数据分析数据分析是指通过分析手段、方法和技巧对准备好的数据进行探索、分析,从中发现因果关系、内部联系和业务规律,为商业目提供决策参考。到了这个阶段,要能驾驭数据、开展数据分析,就要涉及到工具和方法的使用。其一要熟悉常规数据分析方法,最基本的要了解例如方差、回归、因子、聚类、分类、时间序列等多元和数据分析方法的原理、使用范围、优缺点和结果的解释
3、;其二是熟悉1+1种数据分析工具,EXCe1是最常见,一般的数据分析我们可以通过EXCe1完成,后而要熟悉一个专业的分析软件,如数据分析工具SPSSSASRMatIab等,便于进行一些专业的统计分析、数据建模等。5、数据展现一般情况下,数据分析的结果都是通过图、表的方式来呈现,俗话说:字不如表,表不如图。借助数据展现手段,能更直观的让数据分析师表述想要呈现的信息、观点和建议。常用的图表包括饼图、折线图、柱形图/条形图、散点图、雷达图等、金字塔图、矩阵图、漏斗图、帕雷托图等。6、撰写报告最后阶段,就是撰写数据分析报告,这是对整个数据分析成果的一个呈现。通过分析报告,把数据分析的目的、过程、结果及
4、方案完整呈现出来,以供商业目的提供参考。一份好的数据分析报告,首先需要有一个好的分析框架,并且图文并茂,层次明晰,能够让阅读者一目了然。结构清晰、主次分明可以使阅读者正确理解报告内容;图文并茂,可以令数据更加生动活泼,提高视觉冲击力,有助于阅读者更形象、直观地看清楚问题和结论,从而产生思考。另外,数据分析报告需要有明确的结论、建议和解决方案,不仅仅是找出问题,后者是更重要的,否则称不上好的分析,同时也失去了报告的意义,数据的初衷就是为解决一个商业目的才进行的分析,不能舍本求末。2.数据分析常用的方法有哪些?他们多用来分析哪些类型的数据?通过分析可以得到怎样的结果和结论?怎样得到保证其信度和效度
5、?常用数据分析方法:聚类分析、因子分析、相关分析、对应分析、回归分析、方差分析;数据分析常用的图表方法:柏拉图(排列图)、直方图(HiStogran1)、散点图(SCatterdiagram).鱼骨图(Ishikawa)FMEA、点图、柱状图、雷达图、趋势图。数据分析统计工具:SPSS、minitabJMPo常用数据分析方法:1、聚类分析(C1usterAna1ysis)聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析是一种探索性的分析,在分类
6、的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。2、因子分析(FactorAna1ysis)因子分析是指研究从变量群中提取共性因子的统计技术。因子分析就是从大量的数据中寻找内在的联系,减少决策的困难。因子分析的方法约有10多种,如重心法、影像分析法,最大似然解、最小平方法、阿尔发抽因法、拉奥典型抽因法等等。这些方法本质上大都属近似方法,是以相关系数矩阵为基础的,所不同的是相关系数矩阵对角线上的值,采用不同的共同性口2估值。在社会学研究中,因子分析常采
7、用以主成分分析为基础的反覆法。相关分析(COITeIatiOnAna1ysis)相关分析(COrTeIatiOnana1ySiS),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度。相关关系是一种非确定性的关系,例如,以X和Y分别记一个人的身高和体重,或分别记每公顷施肥量与每公顷小麦产量,则X与Y显然有关系,而又没有确切到可由其中的一个去精确地决定另一个的程度,这就是相关关系。4、对应分析(CoITeSpondenCeAna1ysis)对应分析(CorreSPOndenCeana1ysis)也称关联分析、R-Q型因子分析,通过分析由定性变量构成的交
8、互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异,以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。5、回归分析研究一个随机变量Y对另一个(X)或一组(XI,X2,,Xk)变量的相依关系的统计分析方法。回归分析(regressionana1ysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。6、方差分析(ANOVA/Ana1ysi
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 可视化 知识点 梳理 汇总