听课笔记大数据概论_001.docx
《听课笔记大数据概论_001.docx》由会员分享,可在线阅读,更多相关《听课笔记大数据概论_001.docx(8页珍藏版)》请在第一文库网上搜索。
1、大数据与社会科学概论刘涛雄大纲1. 大数据概论2. 大数据的主要技术手段3. 数据分析技术:机器学习概论4. “大数据社会科学”何为大数据?(BigData)特点:大。超过常用软件工具的收集、管理和处理数据的能力范围的数据集。但是,也不是简单地以规模论大,而是相对的且杂程度。如果以现在计算机的能力:针对简单查询(如关键词查询),数据量为TB或PB是即可称为大数据。针对复杂查询(如数据挖掘),数据量为GB至TB时即可称为大数据。大数据特性:4VVo1ume:体量巨大Ve1ocity:速度极快Variety:模态多样Veracity:真伪难辨无所不在的数据生成源:1. 全社会(发言、网状结构)、2
2、. 网络用户(浏览行为、搜索行为)、3. 管理者(发票、医院记录、交通检测)、4. 商业机构(手机记录、信用卡记录、保险记录、商场购物记录)5. 健康数据(电子医疗设备记录、医疗检测)、6. 卫星信息系统(物联网)我们都有哪些数据?文本信息中文分词多媒体时间序列(高频数据)空间数据网页数据DataMining:AKDDrrternFvn1uation社会网络大数据与社会科学第一层次:基于数据的知识发现(Know1edgeDiscoverinDatabase,KDD)ProcessDsttaMiningDataWarc1if1j1C1)a(aC,Ieaniii*DatahaDatamining:
3、thecoreofknow1edgediscoveryprocess.有理论假设的好处:可以节省信息量,缩小搜寻范围。当数据获取和处理能力足够强,KDD也能体现其优势。例子:HedonometricsandTwitterF1owObamaSDataCrunchershe1pedhimwin活跃领域:数据挖掘(datamining)政治学、经济学、社会学、心理学、管理学如:priceindex预测(forcasting)和现测(nowcasting)女口:对goog1etrends的利用社会计算(ComPUtatiOna1Socia1Sciences)Cof1iputationabout(of)
4、thepeop1e:如社会情感Computationforthepeop1e:如信任计算、风险计算Computationbythepeop1e:如主体参与、群体智能大数据的主要技术手段关键技术Hadoop:分布式管理平台来自Goog1e的设计思想:一个分布式文件系统和并行执行环境(方便用HDFS和MapReduce)户处理海量数据计算C1oudComputing机器学习计弊机针对特定任务(TaSkS)和效果评价指标(Perfor1naneeMeasurement),基于已有经验(EXPeriences)自动地不断改进算法,并随着E的扩大不断提高对T的执行效果(P)T:任务P:效果评价E:经验集
5、(训练集)训练和预测最佳预测:BiaS-Varianee平衡2一般来说,模型越复杂,变量越多,BiaS越低,但var(f(x)越大所以对于模型选择,个很重要的准则是降维。大数据对社会科学的机遇与挑战机遇数据来源极大拓展获取信息速度大大加快计算能力极大增强核心:技术、数据+人挑战数据太多维数灾难?数据太乱结构化与非结构化生成机制难掌握(DGP,DataGcneratingProcess)谁是总体?谁在创造数据?总体创造数据的动机和行为机制是什么?官方统计还有存在必要吗?结构化数据与非结构化数据社会科学:因果与相关社会科学的核心:因果解释自然科学与社会科学:可控实验与自然实验困难:反向因果与共因变
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 听课 笔记 数据 概论 _001