使用fasttext实现文本处理及文本预测

时间:2022-05-04
本文章向大家介绍使用fasttext实现文本处理及文本预测,主要内容包括问题分析、数据格式、数据预处理、模型建立、调试分析、提交结果(截至2017年11月16日)、基本概念、基础应用、原理机制和需要注意的事项等,并结合实例形式分析了其使用技巧,希望通过本文能帮助到大家理解应用这部分内容。

因为参加datafountain和CCF联合举办的大数据竞赛,第一次接触到文本预测。对比了一些模型,最终还是决定试一下fasttext。上手fasttext的过程可以说是很痛苦了,因为国内各大博客网站上很少有fasttext的博客。一方面是fasttext是FaceBook去年才开源的,用的人比较少,还有一方面是fasttext大部分参考资料都是英文的,我啃了好久英文文档,去国外的论坛,最后也算是简单上手了吧。这两天差不多所有时间都花在这上面了,感触挺深。基于以上几点,我觉得还是写一篇博客吧,虽然只是入门,也各位看官多多点评,提出不同意见。

问题分析

360搜索出的这道题,题目是“360搜索-AlphaGo之后“人机大战”Round 2 ——机器写作与人类写作的巅峰对决”,乍一看挺吓人的,其实是让开发者通过一套模型,来识别一篇文章是机器写出来的,还是人类写出来的。其实是有一定区分的,比如说人类写出来的文章,文章的标题和内容契合度比较高(排除标题党的情况),而且文章正文有一定的逻辑连续性,很少在文章的body中出现乱码。机器写出来的文章在以上方面和人类写出来的文章会有不同之处。

可能我这样讲还不够直观,“什么才是机器写出来的文章?”,我从数据集里面拿出来一小篇,像以下文章就是机器写出来的文章。

重庆永川消防提示:夏季酷暑来临 警惕火灾隐患 电影院部分房屋结构变形、两个安全疏散门变形无法打开,自入伏以来,忌水性物质有生石灰,居民和单位用电量也会随之增加,由此引发的火也比较多,重庆市永川消防支队在此提醒大家:高温天气里要增强安全防范意识,加强火灾防控,要时刻警惕以下几种常见的火灾。救援消防官兵抵达现场。一、电气火灾。随着高温天气的到来,空调、冰箱等用电设备大量增加,电气设备线路超负荷运转,电源绝缘皮损坏造成短路打火,图为被困人员被成功救出。或电器的电动机进水受潮,使绝缘强度降低,发生短路烧毁电机着火等。二、汽车火灾。救援消防官兵抵达现场,夏天很容易发生汽车火灾,主要原因是:有些汽车使用时间过长,一直从二楼窗口向外大声呼喊”救命”,电源线路老化易发生短路,有的汽车超负荷装载,造成发动机温度升高,再加上天气酷热,发动机通风设备不好,从而引起汽车自燃。并且,有些车主为了车内空气清新,导致正在电影院内观看电影的9名民众被困,选择在其车内放置香水、空气清新剂、二组对被困民众进行情绪安抚。老花镜、打火机等物品,极易引发火灾。三、该县碧罗数字电影院背后发生山体滑坡,电瓶车火灾。成功将变形的安全疏散门破拆出一个能够容纳单人通过的出口。随着电瓶车的普及,电瓶车充电引发火灾不在少数。特别是有些用户私拉乱接电线,不按要求使用插线板,贡山县碧罗数字电影院背后发生山体滑坡。违规充电引发火灾。四、施工现场火灾。对施工现场的氧气瓶、乙炔瓶、防火材料、油漆稀料等易燃易爆物品管理不严,直接放在高温下暴晒,未采取有效的遮挡措施,没有设置在通风、阴凉地点保存,三组利用破拆工具对变形的安全门进行破拆,这样很容易发生火灾事故五、危化品火灾。成功将变形的安全疏散门破拆出一个能够容纳单人通过的出口。夏季地面气温有时高达40℃以上,救援消防官兵通过金属切割机、破门器、液压破拆工具组等破拆装备的配合使用,在这样炎热的气温条件下,化学危险物品在生产、图为被困人员被成功救出。运输、过氧化碱。所以,一定要谨慎保管、图为受损严重的碧罗数字电影院,使用易燃易爆化学危险品。六、物质自燃火灾。自燃物质除过去我们常讲的稻草、煤堆、棉垛外,被困人员已被全部救出,还有油质纤维、三、硝酸铵化肥、导致正在电影院内观看电影的9名民众被困,鱼粉、农产品等。这些物质储存时,如果堆积时间过长,通风不好,自身就会发生变化产生热,温度逐渐升高。忌水性物质有生石灰,无水氧化铝,过氧化碱,氯磺酸等,这些物质遇到水或空气中的潮气后就会释放出大量可燃气体,四。

上面的文章,仔细看可以看出破绽:

1、存在反复,且不需要反复强调的文字,例如“忌水性物质有生石灰”;

2、逻辑不通顺,文章结尾一个“四”,不知其所指;

3、文章有明显拼凑痕迹,从“一二三四”几点可以看出是从很多篇文章中剪辑而来,上下文关联性弱。

目标

有两个数据集(分别是1.6GB和2GB),一个数据集是训练集(训练模型之用),另一个数据集是测试集(提交结果之用)。

数据格式

数据一:训练集,规模50万条样例(有标签答案),数据格式如下:

Field

Type

Description

Note

文章ID

String

文章ID

文章标题

String

文章的标题,字数在100字之内

已脱敏。去掉了换行符号。

文章内容

String

文章的内容

已脱敏。文章内容是一个长字符串,去掉了换行符号。

标签答案

String

人类写作是POSITIVE, 机器人写作是NEGATIVE

机器人写手和人类撰写的文章,参赛者训练数据,可以选择本集合的全量数据,也可以选择部分数据。但是参赛者不能自行寻找额外的数据加入训练集。

数据二:测试集A,规模10万条样例(无标签答案),数据格式如下:

Field

Type

Description

Note

文章ID

String

文章ID

文章标题

String

文章的标题,字数在100字之内

已脱敏。去掉了换行符号。

文章内容

String

文章的内容

已脱敏。文章内容是一个长字符串,去掉了换行符号。

数据三:测试集B,规模30万条样例(无标签答案),数据格式如下:

Field

Type

Description

Note

文章ID

String

文章ID

文章标题

String

文章的标题,字数在100字之内

已脱敏。去掉了换行符号。

文章内容

String

文章的内容

已脱敏。文章内容是一个长字符串,去掉了换行

上述三份数据中,都同时包含了机器人写手和人类撰写的文章数据。一条样例主要包括文章ID、文章标题、文章内容和标签信息(人类写作是POSITIVE, 机器人写作是NEGATIVE)。需要在训练集上得到模型,然后使用模型在测试集上判定一篇文章是真人写作还是机器生成。如果这篇文章是由机器人写作生成的,则标签为NEGATIVE,否则为POSITIVE。仅在训练集上提供标签特征,参赛选手需要在测试集上对该标签进行预测。

数据预处理

数据预处理可以说是很关键了,很多团队都表示需要花大量的时间用于数据的预处理,我这边偷个懒,采用jieba对训练集和测试集文字进行分词,并且顺手把它转化为fasttext格式。

#encoding=utf-8
import jieba
#author linxinzhu
seg_list = jieba.cut("这个竞赛真的费时间",cut_all=True)
print "Full Mode:", "/ ".join(seg_list) #全模式

seg_list = jieba.cut("zwq沉迷逛QQ空间,还时不时撩妹",cut_all=False)
print "Default Mode:", "/ ".join(seg_list) #精确模式

seg_list = jieba.cut("测试集好大啊,跑一次要好久") #默认是精确模式
print ", ".join(seg_list)

seg_list = jieba.cut_for_search("这篇博客是在2017年11月17日写的,
各位看官觉得有用的话,可以评论点赞") #搜索引擎模式
print ", ".join(seg_list)

输出结果

PS C:UsersLinXinzhupy> python fenci.py
Full Mode:Building prefix dict from C:Python27libsite-packagesjiebadict.txt ...
Loading model from cache c:userslinxin~1appdatalocaltempjieba.cache
Loading model cost 0.804000139236 seconds.
Prefix dict has been built succesfully.
 这个/ 竞赛/ 真的/ 费时/ 费时间/ 时间
Default Mode: zwq/ 沉迷/ 逛/ QQ/ 空间/ ,/ 还/ 时不时/ 撩妹
测试, 集好, 大, 啊, ,, 跑, 一次, 要, 好久
这篇, 博客, 是, 在, 2017, 年, 11, 月, 17, 日写, 的, ,, 各位, 看官, 觉得, 有用, 的话, ,, 可以, 评论, 点赞

需要注意的是:

1、代码开头记得写上编码方式,包括后面的fasttext在编码上也挺麻烦的,不写的话有惊喜哦!

2、jieba.cut返回一个list,所以在做字符串拼接的时候要把list转成string,常用的就是“ ”.join()

符号处理
def go_split(s,min_len):
    # 拼接正则表达式
    symbol = ',;。!、?!'
    symbol = "[" + symbol + "]+"
    # 一次性分割字符串
    result = re.split(symbol, s)
    return [x for x in result if len(x)>min_len]

def is_dup(s,min_len):
    result = go_split(s,min_len)
    return len(result) !=len(set(result))

def is_neg_symbol(uchar):
    neg_symbol=['!', '0', ';', '?', '、', '。', ',']
    return uchar in neg_symbol
特殊字处理

一些文字,例如“的”、“了”等等在某个地方有特殊含义,例如“的确”、“了解”,但是在大部分的情况下对文章的语义没有特别的影响。例如”今天早上喝了牛奶“与”今天早上喝牛奶“没有太大的区别。

if (ur",的" in s0) and (not(ur",的确" in s0)) and (not(ur",的士" in s0)) 
                        and (not(ur",的哥" in s0)) and (not(ur",的的确确" in s0)):
        flag = "NEGATIVE"
    if (ur",了" in s0) and (not(ur",了解" in s0)) and (not(ur",了结" in s0)) 
                        and (not(ur",了无" in s0)) and (not(ur",了却" in s0)) 
                        and (not(ur",了不起" in s0)):
        flag = "NEGATIVE"

    if (ur"。的" in s0) and (not(ur"。的确" in s0)) and (not(ur"。的士" in s0)) 
                        and (not(ur"。的哥" in s0)) and (not(ur"。的的确确" in s0)):
        flag = "NEGATIVE"
    if (ur"。了" in s0) and (not(ur"。了解" in s0)) and (not(ur"。了结" in s0)) 
                        and (not(ur"。了无" in s0)) and (not(ur"。了却" in s0)) 
                        and (not(ur"。了不起" in s0)):
        flag = "NEGATIVE"

    if (ur";的" in s0) and (not(ur";的确" in s0)) and (not(ur";的士" in s0)) 
                        and (not(ur";的哥" in s0)) and (not(ur";的的确确" in s0)):
        flag = "NEGATIVE"
    if (ur";了" in s0) and (not(ur"了解;" in s0)) and (not(ur";了结" in s0)) 
                        and (not(ur";了无" in s0)) and (not(ur";了却" in s0)) 
                        and (not(ur";了不起" in s0)):
        flag = "NEGATIVE"

    if (ur"?的" in s0) and (not(ur"?的确" in s0)) and (not(ur"?的士" in s0)) 
                        and (not(ur"?的哥" in s0)) and (not(ur"?的的确确" in s0)):
        flag = "NEGATIVE"
    if (ur"?了" in s0) and (not(ur"?了解" in s0)) and (not(ur"?了结" in s0)) 
                        and (not(ur"?了无" in s0)) and (not(ur"?了却" in s0)) 
                        and (not(ur"?了不起" in s0)):
        flag = "NEGATIVE"
专业词汇、领域词汇、近义词

这方面可以引入词库,但是时间有限,目前还没有加入词库。

分词并转换成fasttext格式
#encoding=utf-8
#author linxinzhu
import jieba
import sys
reload(sys)
sys.setdefaultencoding('utf8')
i = 0
count=0
f = open("train.tsv", 'r')
#f = open("evaluation_public.tsv", 'r')
outf = open("lab3fenci.csv",'w')
#outf = open("lab3fencitest.csv",'w')

for line in f:
    r = ""
    try:
        r = line.decode("UTF-8")
    except:
        print "charactor code error UTF-8"
        pass
    if r == "":
        try:
            r = line.decode("GBK")
        except:
            print "charactor code error GBK"
            pass
    line=line.strip()
    l_ar=line.split("t")
    if len(l_ar)!=4:
        continue
    id=l_ar[0]
    title=l_ar[1]
    content=l_ar[2]
    lable=l_ar[3]

    seg_title=jieba.cut(title.replace("t"," ").replace("n"," "))
    seg_content=jieba.cut(content.replace("t"," ").replace("n"," "))
    #r=" ".join(seg_title)+" "+" ".join(seg_content)+"n"
    outline = " ".join(seg_title)+"t"+" ".join(seg_content)
    outline = "t__label__" + lable + outline+"t"
    outf.write(outline)

    if i%2500 == 0:
        count=count+1
        sys.stdout.flush()
        sys.stdout.write("#")
    i=i+1

f.close()
outf.close()
print "nWord segmentation complete."
print i

这里面要注意的是list和string的转换,以及在cut过程中对空格和换行的处理。

分词出来之后是这样的:

分词后文件为1.9GB,同样对测试集也做相同的处理。

模型建立

终于要用到fasttext了,fasttext的安装也是个坑。windows10上面装了半天也没装好,好不容易找了一个fasttext for window 10的安装包,结果居然要python 3.5,升级了python之后发现没有预测功能,简直鸡肋啊。无可奈何花落去,只能在Linux下面玩了。

安装fasttext python指令,会提示少cython模型,照着提示下载就行。

pip install fasttext

但是下载奇慢,换国内源吧。

有关fasttext的原理请查阅作者的paper

https://arxiv.org/pdf/1607.01759.pdf

fastText的模型架构类似于CBOW,两种模型都是基于Hierarchical Softmax,都是三层架构:输入层、 隐藏层、输出层。

CBOW模型又基于N-gram模型和BOW模型,此模型将W(t−N+1)……W(t−1)作为输入,去预测W(t) fastText的模型则是将整个文本作为特征去预测文本的类别。

一些比较重要的函数

词向量模型学习

import fasttext

# Skipgram model
model = fasttext.skipgram('data.txt', 'model')
print model.words # list of words in dictionary

# CBOW model
model = fasttext.cbow('data.txt', 'model')
print model.words # list of words in dictionary

文本分类

classifier = fasttext.supervised('data.train.txt', 'model')

data.train.txt是一种含有训练句子 每行加上标签的文本文件。默认情况下,假设标签的话, 前缀字符串__label__

这将输出文件:model.binmodel.vec

精度评估

result = classifier.test('test.txt')
print 'P@1:', result.precision
print 'R@1:', result.recall
print 'Number of examples:', result.nexamples

查看一个文本最有可能的标签,这个函数可以说是非常有用了

texts = ['example very long text 1', 'example very longtext 2']
labels = classifier.predict(texts)
print labels

# Or with the probability
labels = classifier.predict_proba(texts)
print labels

调试模型用的API

input_file     training file path (required)
output         output file path (required)
lr             learning rate [0.05]
lr_update_rate change the rate of updates for the learning rate [100]
dim            size of word vectors [100]
ws             size of the context window [5]
epoch          number of epochs [5]
min_count      minimal number of word occurences [5]
neg            number of negatives sampled [5]
word_ngrams    max length of word ngram [1]
loss           loss function {ns, hs, softmax} [ns]
bucket         number of buckets [2000000]
minn           min length of char ngram [3]
maxn           max length of char ngram [6]
thread         number of threads [12]
t              sampling threshold [0.0001]
silent         disable the log output from the C++ extension [1]
encoding       specify input_file encoding [utf-8]

举个栗子

model = fasttext.skipgram('train.txt', 'model', lr=0.1, dim=300)

解释一下:lr是学习速率,dim是词向量的大小,调节不同的参数使得模型更加精确。

分类器的属性和方法
classifier.labels                  # List of labels
classifier.label_prefix            # Prefix of the label
classifier.dim                     # Size of word vector
classifier.ws                      # Size of context window
classifier.epoch                   # Number of epochs
classifier.min_count               # Minimal number of word occurences
classifier.neg                     # Number of negative sampled
classifier.word_ngrams             # Max length of word ngram
classifier.loss_name               # Loss function name
classifier.bucket                  # Number of buckets
classifier.minn                    # Min length of char ngram
classifier.maxn                    # Max length of char ngram
classifier.lr_update_rate          # Rate of updates for the learning rate
classifier.t                       # Value of sampling threshold
classifier.encoding                # Encoding that used by classifier
classifier.test(filename, k)       # Test the classifier
classifier.predict(texts, k)       # Predict the most likely label
classifier.predict_proba(texts, k) # Predict the most likely label include their probability

调试分析

创建一个简单的模型

classifier = fasttext.supervised("lab3fenci.csv","lab3fenci.model",

label_prefix="__label__")

对模型进行测试,观察其精度

result = classifier.test("lab3fenci.csv")

print result.precisionprint

result.recall

拿一个text来预测

texts = ['它被誉为"天下第一果",补益气血,养阴生津,现在吃正应季!  六七月是桃
子大量上市的季节,因其色泽红润,肉质鲜美,有个在实验基地里接受治疗的妹子。广受大
众的喜爱。但也许你并不知道,看惯了好莱坞大片眼花缭乱的特效和场景。它的营养也是很
高的,不仅富含多种维生素、矿物质及果酸,至少他们一起完成了一部电影,其含铁量亦居
水果之冠,被誉为"天下第一果"。1、在来世那个平行世界的自己。增加食欲,养阴生津的
作用,可用于大病之后,气血亏虚,面黄肌瘦,Will在海滩上救下了Isla差点溺水的儿
子。心悸气短者。2、最近有一部叫做《爱有来世》的科幻电影。桃的含铁量较高,就越容
易发现事情的真相。是缺铁性贫血病人的理想辅助食物。3、桃含钾多,含钠少,适合水肿
病人食用。4、桃仁有活血化淤,润肠通作用,可用于闭经、跌打损伤等辅助治疗。胃肠功
能弱者不宜吃桃、桃仁提取物有抗凝血作用,而Will也好像陷入魔怔一般。并能抑制咳嗽中
枢而止咳,扩展"科学来自于人性"的概念。同时能使血压下降,片中融合了很多哲学、宗教
的玄妙概念,可用于高血压病人的辅助治疗。6、桃花有消肿、利尿之效,可用于治疗浮肿
腹s水,大便干结,小便不利和脚气足肿。一段美好的故事才就此开始。桃子性热,味甘
酸,具有补心、解渴、不过都十分注重内核的表达,充饥、生津的功效,父亲没有继续在房
间埋头工作。']
    labels = classifier.predict(li)    
    print labels

可以看到输出的结果是positive,可以发现是错误的预测(正确的预测应该是negative),这个时候需要训练模型,来达到预期的结果。在训练的过程中,观察result.precisionresult.recall的值变化。

可以使用Google已经训练好的model,自己训练模型坑太多了.

继续训练

classifier = fasttext.supervised("lab3fenci.csv","lab3fenci.model",
label_prefix="__label__",lr=0.1,epoch=100,dim=200,bucket=5000000)
result = classifier.test("lab3fenci.csv")
print result.precision
print result.recall

为了省事可以在上面代码套上for循环,观察result.precisionresult.recall的值变化。

目前训练出来的模型文件大小是2GB,是用PC机跑的,CPU i7 3.3GHZ+16GB内存+SSD跑了整整3小时才出结果。

期间感受到了风扇的咆哮,CPU和内存都很努力地工作。

一般情况下磁盘的占用是很低的,偶尔会出现占用100%的情况,如果磁盘占用一直是100%,要考虑内存是否泄露,例如文本预处理阶段忘记加换行符,fasttaxt会认为一整个文件都是一大段的文本,那么16GB的内存是根本不够存储的,磁盘会参与内存交换,导致占用100%。

训练完成之后可以直接加载模型。

classifier = fasttext.load_model('lab3fenci.model.bin', label_prefix='__label__')

完整代码

# _*_coding:utf-8 _*_
import fasttext
#author linxinzhu
#load训练好的模型
classifier = fasttext.load_model('lab3fenci.model.bin',
 label_prefix='__label__')

i=0
f = open("evaluation_public.tsv", 'r')
outf = open("sub.csv",'w')
for line in f:
    outline=""
    if i==400000:
         break
    r = ""
    try:
        r = line.decode("UTF-8")
    except:
        print "charactor code error UTF-8"
        pass
    if r == "":
        try:
            r = line.decode("GBK")
        except:
            print "charactor code error GBK"
            pass
    line=line.strip()
    l_ar=line.split("t")
    id=l_ar[0]
    title=l_ar[1]
    content=l_ar[2]
    s=""
    li=[]
    li=list()
    s="".join(content)
    li=s.split("$$$$$$$$")  
    texts=li 
    labels = classifier.predict(li)
    #print id
    #print labels
    strlabel=str(labels)
    if strlabel=="POSITIVE" :
        outline = id+"," + "POSITIVE" + "n"
        outf.write(outline)
    if strlabel=="NEGATIVE" :
        outline = id+"," + "NEGATIVE" + "n"
        outf.write(outline)
    i=i+1
    del s
    del li
f.close()
outf.close()

注意代码中要加上del s,实测如果不加上会产生内存溢出,讲道理变量在没有使用之后python应该会自动释放内存,但是在大量数据面前好像不怎么起作用,总之需要手动去释放内存。

提交结果(截至2017年11月16日)

一共1000多人参赛,600多支队伍,目前排在132名,算下来也进前20%了呢,作为第一次用fasttext的我,感觉这个成绩已经很满意了。

via http://blog.csdn.net/Season_For_Lin/article/details/78568991