Python 自然语言处理《釜山行》人物关系
时间:2022-04-26
本文章向大家介绍Python 自然语言处理《釜山行》人物关系,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。
前两天的 R 语言版:R 语言分析《釜山行》人物关系 让很多人都很惊叹,今天小编发糖,给大家送上 Python 版。
本文使用 jieba 库对 《釜山行》中的人物关系进行提取,然后使用 Gephi 软件进行关系可视化处理,得到可视化的人物关系。
1. 使用 jieba 库对《釜山行》的剧本进行关系实体。这里的实体指的是人物。
names = {} # 姓名字典relationships = {} # 关系字典#limenames 记录的是每一行出现的名字, 也就是说,只有出现在用一行的名字才认为是有关系的lineNames = [] # 每段内人物关系
jieba.load_userdict("dict.txt") # 加载字典with codecs.open("busan.txt", "r", "utf8") as f: for line in f.readlines(): #按行输出文件
#print line
#poss 包含两个key,一个是word,一个是flag
"""
words=pseg.cut("我爱北京天安门")
for word ,flag in words:
print ('%s %s' %(word,flag))
输出的格式是:
我 r
爱 v
北京 ns
天安门 ns
"""
poss = pseg.cut(line) # 分词并返回该词词性
#给list添加一个为空的list
lineNames.append([]) # 为新读入的一段添加人物名称列表
for w in poss: if w.flag != "nr" or len(w.word) < 2: continue # 当分词长度小于2或该词词性不为nr时认为该词不为人名
#[-1]表示最后一个元素
#limenames 记录的是每一行出现的名字, 也就是说,只有出现在用一行的名字才认为是有关系的
lineNames[-1].append(w.word) # 为当前段的环境增加一个人物
if names.get(w.word) is None:
names[w.word] = 0
relationships[w.word] = {}
names[w.word] += 1 # 该人物出现次数加 1
运行的结果是:在names得到的是人名和人名出现的次数
2 出现实体之间的关系
提取中文之间的实体关系是一个很复杂的算法,但是这里并不需要提取到具体的关系。只需要直到他们之间是否有关系。所以,判断是否有关系,通过一句话里面是否有这两个实体。如果一句话里面包含这两个实体,我们可以认为他们是存在关系的。(但也可能并不存在,只是存在关系的可能性很大)
lineNames = [] # 用linenames记录每一行出现的人名如果这一行没有人名,就push一个空list,如果有,就把人push进去。
建立实体之间关系:
# explore relationshipsfor line in lineNames: # 对于每一段
for name1 in line:
for name2 in line: # 每段中的任意两个人
if name1 == name2:
continue #如果名字1 和名字2 不相同的话
#也就是说,关系的抽取是基于 这一行有没有出现这两个名字
if relationships[name1].get(name2) is None: # 若两人尚未同时出现则新建项
relationships[name1][name2]= 1
else:
relationships[name1][name2] = relationships[name1][name2]+ 1 # 两人共同出现次数加 1
3.输出关系
with codecs.open("busan_node.txt", "w", "utf-8") as f:
f.write("Id Label Weightrn") for name, times in names.items():
f.write(name + " " + name + " " + str(times) + "rn")with codecs.open("busan_edge.txt", "w", "gbk") as f:
f.write("Source Target Weightrn") for name, edges in relationships.items(): for v, w in edges.items(): if w > 3:
f.write(name + " " + v + " " + str(w) + "rn")
得到实体之间的关系
4. 用gephi进行可视化处理
生成一张可视化的关系图
- ExtJs学习笔记(24)-Drag/Drop拖动功能
- 人工智能尚处探索阶段,为何我们对此异常焦虑
- ExtJs学习笔记(22)-XTemplate + WCF 打造无刷新数据分页
- 同步服务器系统时间操作记录
- kvm虚拟化管理平台WebVirtMgr部署-完整记录(安装Windows虚拟机)-(4)
- ExtJs学习笔记(11)_Absolute布局和Accordion布局
- ExtJs学习笔记(9)_Window的基本用法
- DateTime在ExtJs中无法正确序列化的问题
- ELK实时日志分析平台环境部署--完整记录
- 梳理Linux下OSI七层网络与TCP/IP五层网络架构
- 字符编码-使用c#研究
- iframe高度自适应的IE解决方案
- javascript读写本机文本文件
- 崔立鹏:腾讯云为知识竞技游戏提供解决方案
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法