pandas 文本处理大全.docx
《pandas 文本处理大全.docx》由会员分享,可在线阅读,更多相关《pandas 文本处理大全.docx(19页珍藏版)》请在第一文库网上搜索。
1、pandas文本处理大全导读:本次来介绍关于文本处理的常用方法Cpandas 曜幽文本的主要两个类型是string和object。如果不特殊指定类型为string,文本类型一般为objecto文本的操作主要是通过访问器str来实现的,功能十分强大,但使用前需耍注意以下几点o1. 访问器只能对Series数据结构使用。 除了常规列变量df,col以外,也可以对索引类型df. Index和df. col umns使用2. 确保访问的对象类型是字符串str类型。如果不是需要先astype(str)转换类型,否则会报错3. 访问器可以多个连接使用。如df. col. str. lower (). st
2、r. upper (),这个和Dataframe中的一行操作是一个原理下面正式介绍文本的各种骚操作,基本可以涵盖日常95%的数据清洗需耍了,一共8个场景。以下操作均基于下面的数据:import pandas as pdimport numpy as npdf = pd. DataFrame(,name,: jordon,, MIKE, Kelvin, xiaoLi, qiqi,Amei,Age: 18, 30, 45, 23, 45, 62,level) : high, Low, M, L, middle,, np. nan,Emair : jordonsohu. com , Mike,Kel
3、vinChaigmai1. com , xiaoli163. com ,np.nan,ameiqq. com)nameAgelevelEmail0jordon18highjordon1MIKE30LowMike126. cn2Kelvin45MKeivi nChai 3xiaoLi23Lxiaoliqiqi45middleNaN5 Amei62NaNameih、文本格式|大小写变换#字符全部变成小写s. str. lower ()#字符全部大写5. str. upper ()#每个单词首字母大写5. str. title ()#字符串第一个字母大写5. str. capitalize ()#大
4、小写字母转换s. str. swapcase ()上面用法都比较简单,不逐一举例,这里举一个对columns变成小写的例子。df. columns, str. lower ()Index (name , age , leveT , emai T ,dtype=object)格式判断下而均为判断操作,因此返回布尔值。s. str. isalpha #是否为宁住s.str. isnumeric#是否为数字0-9s. str. isalnums. str- isuppers. str- islower5. str- isdigit#是否由字母和数字组成#是否为大写#是否为小写#是否为数字对齐#居中对
5、齐,宽度为8,其余用*填充s. str. center (, fillchar=*)#左对齐,宽度为8,其余用*填充s.str.1 just (8,fillchar二*)n右对齐,宽度为8,其余用*填充s. str. rjust (8,fillchar二*)#自定义对齐方式,参数可调整宽度、对齐方向、填充字符s. str. pad(width=8, side=both , fillchar=*)*举例df. name. str. center(8, fillchar=*)0*jordon*1 *MIKE*2 *Kelvin*qiqi*5*Amei*计数和编码s. str. count ( b
6、) #字符串种包括指定字母的数量s. str. len() #字符串长度s. str. encode utf-8, ) # 字符编码s. str. decode utf-8, ) # 字符解码12、文本拆分通过使用split方法可以某个指定的字符作为分割点拆分文本。其中,expand参数可以让拆分的内容展开,形成单独的列,n参数可以指定拆分的位置来控制形成几列。下面将email变量按照进行拆分。#使用方法s. str. split ( x, expand=True, n=l)#举例df. Email. str. split ( )0 jordon,sohu. com1Mike, 2Kelvin
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- pandas 文本处理大全 文本 处理 大全
