博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
NLP文本清理时常用的python小函数
阅读量:5046 次
发布时间:2019-06-12

本文共 691 字,大约阅读时间需要 2 分钟。

1 # coding = utf-82 import re

1. 清理杂七杂八字符

1 ''' 2 [a-zA-Z0-9] 字母数字 3 [\u4e00-\u9fa5] 汉字的utf-8 code范围 4 ''' 5 # 保留字母、数字、汉字和标点符号(),.!?": 6 def remove_others(s):     7     return re.sub(r'[^a-zA-Z0-9\u4e00-\u9fa5(),.!?":]', ' ', s) 8  9 # 删除多余的空白(including spaces, tabs, line breaks)'''10 def remove_whitespaces(s):11     return re.sub(r'\s{2,}', ' ', s)

2. 社交媒体文本中清除 @其他人

1 def remove_atpeople(s): 2     '''删除文本中@与其后面第一个空格之间的内容''' 3     s = re.sub(r'@', ' @', s) 4     ls = s.split() 5     nls = [] 6     for t in ls: 7         if t[0] == '@': 8             continue 9         else:10             nls.append(t) 11 12     return ' '.join(nls)

 

转载于:https://www.cnblogs.com/wxiaoli/p/11600004.html

你可能感兴趣的文章
文件操作
查看>>
NYOJ-613//HDU-1176-免费馅饼,数字三角形的兄弟~~
查看>>
graphite custom functions
查看>>
ssh无密码登陆屌丝指南
查看>>
一个自己写的判断2个相同对象的属性值差异的工具类
查看>>
oracle连接的三个配置文件(转)
查看>>
Java 8 中如何优雅的处理集合
查看>>
Centos下源码安装git
查看>>
控件发布:div2dropdownlist(div模拟dropdownlist控件)
查看>>
[置顶] 细说Cookies
查看>>
[wp7软件]wp7~~新闻资讯,阅读软件下载大全! 集合贴~~~
查看>>
二叉树的遍历问题总结
查看>>
聊天室(C++客户端+Pyhton服务器)_1.框架搭设
查看>>
绝对定位
查看>>
dpkg 删除 百度网盘 程序
查看>>
服务器nginx安装
查看>>
std::nothrow
查看>>
JQuery(一)安装&选择器 样式篇
查看>>
浏览器的DNS缓存查看和清除
查看>>
浏览器跨域问题
查看>>