欢迎来到第一文库网! | 帮助中心 第一文库网-每个人都是第一
第一文库网
全部分类
  • 研究报告>
  • 学术论文>
  • 全科教育>
  • 应用文档>
  • 行业资料>
  • 企业管理>
  • 技术资料>
  • 生活休闲>
  • ImageVerifierCode 换一换
    首页 第一文库网 > 资源分类 > DOCX文档下载
    分享到微信 分享到微博 分享到QQ空间

    pandas 文本处理大全.docx

    • 资源ID:81638       资源大小:79.78KB        全文页数:19页
    • 资源格式: DOCX        下载积分:3金币
    快捷下载 游客一键下载
    账号登录下载
    微信登录下载
    三方登录下载: QQ登录 微博登录
    二维码
    扫码关注公众号登录
    下载资源需要3金币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP,免费下载
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    pandas 文本处理大全.docx

    pandas文本处理大全导读:本次来介绍关于文本处理的常用方法Cpandas 曜幽文本的主要两个类型是string和object。如果不特殊指定类型为string,文本类型一般为objecto文本的操作主要是通过访问器str来实现的,功能十分强大,但使用前需耍注意以下几点o1. 访问器只能对Series数据结构使用。 除了常规列变量df,col以外,也可以对索引类型df. Index和df. col umns使用2. 确保访问的对象类型是字符串str类型。如果不是需要先astype(str)转换类型,否则会报错3. 访问器可以多个连接使用。如df. col. str. lower (). str. upper (),这个和Dataframe中的一行操作是一个原理下面正式介绍文本的各种骚操作,基本可以涵盖日常95%的数据清洗需耍了,一共8个场景。以下操作均基于下面的数据:import pandas as pdimport numpy as npdf = pd. DataFrame(,name,: jordon,, 'MIKE', 'Kelvin', 'xiaoLi', 'qiqi',Amei','Age': 18, 30, 45, 23, 45, 62,'level) : ' high',' Low',' M',' L',' middle,, np. nan,'Emair :' jordonsohu. com' , ' Mike','KelvinChaigmai1. com' , ' xiaoli163. com' ,np.nan,'ameiqq. com')nameAgelevelEmail0jordon18highjordon1MIKE30LowMike126. cn2Kelvin45MKeivi nChai ©3xiaoLi23Lxiaoliqiqi45middleNaN5 Amei62NaNameih、文本格式|大小写变换#字符全部变成小写s. str. lower ()#字符全部大写5. str. upper ()#每个单词首字母大写5. str. title ()#字符串第一个字母大写5. str. capitalize ()#大小写字母转换s. str. swapcase ()上面用法都比较简单,不逐一举例,这里举一个对columns变成小写的例子。df. columns, str. lower ()Index (name' , ' age' ,' leveT , ' emai T ,dtype='object')格式判断下而均为判断操作,因此返回布尔值。s. str. isalpha #是否为宁住s.str. isnumeric#是否为数字0-9s. str. isalnums. str- isuppers. str- islower5. str- isdigit#是否由字母和数字组成#是否为大写#是否为小写#是否为数字对齐#居中对齐,宽度为8,其余用'*'填充s. str. center (, fillchar='*')#左对齐,宽度为8,其余用'*'填充s.str.1 just (8,fillchar二'*')n右对齐,宽度为8,其余用'*'填充s. str. rjust (8,fillchar二'*')#自定义对齐方式,参数可调整宽度、对齐方向、填充字符s. str. pad(width=8, side='both' , fillchar='*')*举例df. name. str. center(8, fillchar='*')0*jordon*1 *MIKE*2 *Kelvin*qiqi*5*Amei*计数和编码s. str. count (' b' ) #字符串种包括指定字母的数量s. str. len() #字符串长度s. str. encode utf-8, ) # 字符编码s. str. decode utf-8, ) # 字符解码12、文本拆分通过使用split方法可以某个指定的字符作为分割点拆分文本。其中,expand参数可以让拆分的内容展开,形成单独的列,n参数可以指定拆分的位置来控制形成几列。下面将email变量按照进行拆分。#使用方法s. str. split (' x', expand=True, n=l)#举例df. Email. str. split (' ')0 jordon,sohu. com1Mike, 2KelvinChai, xiaoli, NaN1xxx126. cn5amei, qqe com# expand可以让拆分的内容扩展成单独一列df. Email, str. split (', expand=True)010 jordonsohue com1 Mike2 KelvinChai gmai1. com3 xiaoli163. com4 NaNNaN5 amei那么可更复杂的拆分可以借助正则表达式,比如想同时通过和.进行拆分,以这样实现。df. Email, str. split (' | .',expand=True)0120jordonsohucom1Mike126cn2KelvinChaigmailcom3xiaoli163com4NaNNaNNaN5ameiqqcom卜、文本替换|文本替换有几种方法:replace, siice_replace, repeatreplace 替换replace方法是最常用的替换方法,参数如下:pal:为被替代的内容字符串,也可以为正则表达式repl:为新内容字符串,也可以是一个被调用的函数regex:用于设置是否支持正则,默认是True# 将email种的com都替换为cndf. Email, str. replace (' coni' cn')0jordon1 Mike2 KelvinChaigmail. cn3 xiaoli4 NaN5 amei更复杂一点的,比如将旧内容写成正则表达式。#将之前的名字都替换成XXXdf. Email. str. replace () (. *?)' , ' xxx')xxxxxx3xxx4NaN5xxx或者将新内容写成被调用的函数。df. Email, str. replace (,(,*?)', lambda x:x. group(). upper ()0JORDONsohu. com1 MIKE126. cn2 KELVINCHAIgmail. com3 XIA0LI163. com4 NaN5 AMEIqq. com切片替换slice_replace通过切片的方式实现替换,通过切片可以保留或者删除指定的字符,参数如下。ostart:起始位置ostop:结束位置orepl:要替换用的新内容对start切片位置之后和stop切片位置之前进行替换,如果没有设置stop,那么start之后全部进行替换,同理如果没设置start,那么stop之前全部进行替换。df. Email, str. slice_replace(start=l, stop=2,repl=,XX')0jXXrdonsohu. com1 MXXke126. cn2 KXXlvinChai3 xXXaoli163. com4 NaN5 aXXeiqq. com重复替换repeat可以实现重复替换的功能,参数repeats设置重复的次数。df.name. str. repeat(repeats=2)0jordonjordon1 MIKEMIKE2 KelvinKelvin3 xiaoLixiaoLi4 qiqiqiqi5 AmeiAmei|4、文本拼接|文本拼接通过cat方法实现,参数:others:需要拼接的序列,如果为None不设置,就会自动把当前序列拼接为一个字符串sep:拼接用的分隔符ona_rep:默认不对空值处理,这里设置空值的替换字符。ojoin:拼接的方向,包括 left, right, outer, inner,默认为 left主要有以下几种拼接方式。1.将单个序列拼接为一个完整字符串如上所述,当没有设置。hters参数时,该方法会将当前序列合并为一个新的字符串。df. name. str. cat ()'jordonMIKEKelvinxiaoLiqiqiAmei,#设置sep分隔符为df. name. str. cat (sep=,-')jordon-MIKE-Kelvin-xiaoLi-qiqi-Amei#将缺失值赋值为df. level, str. cat (sep=,, na_rep=,*')'high-Low-M-L-middle-*'2.拼接序列和其他类列表型对象为新的序列下面先将nam。列和*列拼接,再将lovol列拼接,形成一个新的序歹儿# str. cat多级连接实现多列拼接df. name. str. cat ('*'*6). str. cat (df. level)jordon*high1 MIKE*Low2 Kelvin*M3 xiaoLi*L4 qiqi*middle5 NaN#也可以直接多列拼接df name. str. cat (df. level, df Email, na_rep=,*')0jordonhighjordon1MIKELowMike126. cn2 Ke1v i nMK e1v i nCha i gma 3 xiaoLiLxiaoli4 qiqimiddle*5 Amei*ameiqq. com将一个序列与多个对象拼接为一个新的序列15、文本提取文本提取主要通过extract来实现的。extract 参数:pat:通过正则表达式实现一个提取的patternflags:正则库re中的标识,比如re. IGNORECASEexpand:当正则只提取一个内容时,如果expand=True会展开返回一个DataFrame,否则返回一个 Series#提取email中的两个内容df.

    注意事项

    本文(pandas 文本处理大全.docx)为本站会员(lao****ou)主动上传,第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知第一文库网(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    copyright@ 2008-2022 001doc.com网站版权所有   

    经营许可证编号:宁ICP备2022001085号

    本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有,必要时第一文库网拥有上传用户文档的转载和下载权。第一文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知第一文库网,我们立即给予删除!



    收起
    展开