几种简单的文本数据预处理方法
下载数据: http://www.gutenberg.org/cache/epub/5200/pg5200.txt
将开头和结尾的一些信息去掉,使得开头如下:
One morning, when Gregor Samsa woke from troubled dreams, he found himself transformed in his bed into a horrible vermin.
结尾如下:
And, as if in confirmation of their new dreams and good intentions, as soon as they reached their destination Grete was the first to get up and stretch out her young body.
保存为:metamorphosis_clean.txt
加载数据:
filename = 'metamorphosis_clean.txt'
file = open(filename, 'rt')
text = file.read()
file.close()
1. 用空格分隔:
words = text.split()
print(words[:100])
# ['One', 'morning,', 'when', 'Gregor', 'Samsa', 'woke', 'from', 'troubled', 'dreams,', 'he', ...]
2. 用 re 分隔单词: 和上一种方法的区别是,'armour-like' 被识别成两个词 'armour', 'like','"What's' 变成了 'What', 's'
import re
words = re.split(r'W+', text)
print(words[:100])
3. 用空格分隔并去掉标点: string 里的 string.punctuation 可以知道都有哪些算是标点符号, maketrans() 可以建立一个空的映射表,其中 string.punctuation 是要被去掉的列表, translate() 可以将一个字符串集映射到另一个集, 也就是 'armour-like' 被识别成 'armourlike','"What's' 被识别成 'Whats'
words = text.split()
import string
table = str.maketrans('', '', string.punctuation)
stripped = [w.translate(table) for w in words]
print(stripped[:100])
4. 都变成小写: 当然大写可以用 word.upper()。
words = [word.lower() for word in words]
print(words[:100])
安装 NLTK: nltk.download() 后弹出对话框,选择 all,点击 download
import nltk
nltk.download()
5. 分成句子: 用到 sent_tokenize()
from nltk import sent_tokenize
sentences = sent_tokenize(text)
print(sentences[0])
6. 分成单词: 用到 word_tokenize, 这次 'armour-like' 还是 'armour-like','"What's' 就是 'What', "'s",
from nltk.tokenize import word_tokenize
tokens = word_tokenize(text)
print(tokens[:100])
7. 过滤标点: 只保留 alphabetic,其他的滤掉, 这样的话 “armour-like” 和 “‘s” 也被滤掉了。
from nltk.tokenize import word_tokenize
tokens = word_tokenize(text)
words = [word for word in tokens if word.isalpha()]
print(tokens[:100])
8. 过滤掉没有深刻含义的 stop words: 在 stopwords.words('english') 可以查看这样的词表。
from nltk.corpus import stopwords
stop_words = set(stopwords.words('english'))
words = [w for w in words if not w in stop_words]
print(words[:100])
9. 转化成词根: 运行 porter.stem(word) 之后,单词会变成相应的词根形式,例如 “fishing,” “fished,” “fisher” 会变成 “fish”
from nltk.tokenize import word_tokenize
tokens = word_tokenize(text)
from nltk.stem.porter import PorterStemmer
porter = PorterStemmer()
stemmed = [porter.stem(word) for word in tokens]
print(stemmed[:100])
学习资源: http://blog.csdn.net/lanxu_yy/article/details/29002543 https://machinelearningmastery.com/clean-text-machine-learning-python/
- 数据库负载急剧提高的应急处理(二) (r9笔记第55天)
- 社团划分——有向图的Label Propagation算法
- Python基础——网络编程
- 分区表的一个持续改进方案(r9笔记第53天)
- python jieba分词(结巴分词)、提取词,加载词,修改词频,定义词库
- MySQL中的NULL和空串比较 (r9笔记第52天)
- Core-periphery decomposition--核心-外围模型R代码整理
- 停止数据库没有响应的问题分析(r9笔记第51天)
- Hive——巧用transform处理复杂的字符串问题
- 停止数据库没有响应的问题分析(r9笔记第50天)
- 一个SQL语句引发的ORA-00600错误排查(一) (r9笔记第64天)
- 一个SQL语句引发的ORA-00600错误排查(二)(r9笔记第65天)
- 关于all_procedures的问题分析 (r9笔记第61天)
- 半自动化搭建Data Guard的想法和实践(一) (r9笔记第74天)
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- JS(jQuery)实现聊天接收到消息语言自动提醒功能详解【提示“您有新的消息请注意查收”】
- OpenCV4.1.0+VS2017环境配置的方法步骤
- 详解如何实现Laravel的服务容器的方法示例
- laravel 数据迁移与 Eloquent ORM的实现方法
- PDO::query讲解
- Laravel5框架自定义错误页面配置操作示例
- PHP-FPM和Nginx的通信机制详解
- PHP PDOStatement::columnCount讲解
- PHP中上传文件打印错误错误类型分析
- Laravel如何创建服务器提供者实例代码
- PDO::quote讲解
- php intval函数用法总结
- Python Selenium模块安装使用教程详解
- Python selenium模块实现定位过程解析
- Django ORM判断查询结果是否为空,判断django中的orm为空实例