知识卡片 文本分词
时间:2022-07-22
本文章向大家介绍知识卡片 文本分词,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
jieba库是一个强大的中文分词库,对中文进行分词。(pip install jieba)
jieba有三种分词模式:精确模式、全模式和搜索引擎模式,下面是三种模式的特点:
1、精确模式:把句子最精确地分开,适合做文本分析。
2、全模式:把句子中所有的可以成词的词语都切开, 速度快,但有歧义。
3、搜索引擎模式:在精确模式的基础上,对长词再次进行切分,提高召回率,
适合用于搜索引擎的分词
代码如下:
import jieba
words = '数据科学公众号团队致力于分享关于数据科学的编程语言以及算法等知识'
# 精确模式
print("/".join(jieba.lcut(words)))
# 全模式
print("/".join(jieba.lcut(words,cut_all=True)))
# 搜索引擎模式
print("/".join(jieba.lcut_for_search(words, )))
结果如下:
# 精确模式 语文阅读的文本分词
数据/科学/公众/号/团队/致力于/分享/关于/数据/科学/的/编程语言/以及/算法/等/知识
# 全模式 列出所有可以成词的文本
数据/科学/公众/号/团队/致力/致力于/分享/关于/数据/科学/的/编程/编程语言/语言/以及/算法/等/知识
# 搜索引擎模式 加强对长词的切分,提高搜索的召回率
数据/科学/公众/号/团队/致力/致力于/分享/关于/数据/科学/的/编程/语言/编程语言/以及/算法/等/知识
jieba 结巴Github网址推荐:https://github.com/fxsjy/jieba
- 厚土Go学习笔记 | 14. switch 的条件写的有点灵活,不过风格还是go的一贯风格
- Go语言·我的性能我做主
- 47. 访问MySql数据库实现增删改查 | 厚土Go学习笔记
- system表空间不足的问题分析(二) (r8笔记第5天)
- golang基于redis lua封装的优先级去重队列
- python基础知识——内置数据结构(元组)
- python基础知识——控制语句
- python基础知识——基本语法
- 11g主库归档自动删除的小问题分析 (r8笔记第1天)
- JavaWeb02-CSS,JS(Java真正的全栈开发)
- 数据处理——One-Hot Encoding
- JavaWeb20-文件上传;下载(Java真正的全栈开发)
- 转--每周一个GoLang设计模式之组合模式
- 简单易学的机器学习算法——Softmax Regression
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法