用Pandas读取主流数据存储的方法.docx
《用Pandas读取主流数据存储的方法.docx》由会员分享,可在线阅读,更多相关《用Pandas读取主流数据存储的方法.docx(4页珍藏版)》请在第一文库网上搜索。
1、用Pandas读取主流数据存储的方法Pandas提供了一组顶层的I/O API,如pandas, read csv()等方法,这些方法可以将众多格式的数据读取到DataFrame数据结构中,经过分析处理后,再通过类似DataFrame. to_csv()的方法导出数据。下图列出了一些常见的数据格式读取和输出方法。格式文件格式读取函数写入(输出)函数binaryExcelrcad_excelto_exccltextCSVread csv、read tableto-csvtextJSONreadjsonto J sontext网页HTML表格readhtmltohtmltext本地剪贴板read-
2、clipboardtoclipboardSQLSQL查询数据库read_sqlto_sqltextMarkdowntomarkdown输入和输出的方法如下:读取函数一般会赋值给一个变量df, df=pd. read_ ();输出函数是将变量自身进行操作并输出df. to_ () o1. CSV文件CSV (Comma-Separated Values)是用逗号分隔值的数据形式,有时也称为字符分隔值,因为分隔字符也可以不是逗号。CSV文件的一般文件扩展名为.csv,用制表符号分隔也常用.tsv作为扩展名。CSV不仅可以是一个实体文件,还可以是字符形式,以便于在网络上传输。CSV文件的读取方法如下
3、(以下代码省略了赋值操作):#文件目录pd. readies v( * data, csv* ) #如果文件与代码文件在同一目录下pd.read_csv( data/my/data.csv* )指定目录pd.read_csv( * data/my/my .data*) # CSV文件的扩展名不一定是 csvCSV文件可以存储在网络上,通过URL来访问和读取:#使用URLpd readmesv(* https:/www.gairuocom/file/data/dataset/GDP-China.csv)CSV不带数据样式,标准化较强,是最为常见的数据格式。Pandas为读取CSV数据提供了强大的
4、功能。2. ExcelExcel电子表格是微软公司开发的被广泛使用的电子数据表格软件,一般可以将它的使用分为两类。一类是文字或者信息的结构化,像排班表、工作口报、客户名单之类,以文字为主;另一类为统计报表,如学生成绩表、销售表等,以数字为核心。Pandas主要处理统计报表,当然也可以对文字信息类表格做整理,在新版本的Pandas中加入了非常强大的文本处理功能。Excel虽然易于上手,功能也很强大,但在数据分析中缺点也很明显。无法进行复杂的处理:有时Excel提供的函数和处理方法无法满足复杂逻辑。-无法支持更大的数据量:目前Excel支持的行数上限为1 048 576 (2的20次方),列数上限
5、为16 384 (2的14次方,列标签为XFD),在数据分析、机器学习操作中往往会超过这个体量。-处理方法无法复用:Excel 一般采用设定格式的公式,然后将数据再复制,但这样仍然无法对数据的处理过程进行灵活复用。-无法自动化:数据分析要经过一个数据输入、处理、分析和输出的过程,这些都是由人工来进行操作,无法实现自动化。Pandas可以读取、处理大体量的数据,通过技术手段,理论上Pandas可以处理的数据体量无限大。编程可以更加自由地实现复杂的逻辑,逻辑代码可以进行封装、重复使用并可实现自动化。最基础的读取方法如下:# 返回DataFramepd. read_excel ( * team. x
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Pandas 读取 主流 数据 存储 方法
