博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
基于gensim的Wiki百科中文word2vec训练
阅读量:5780 次
发布时间:2019-06-18

本文共 4686 字,大约阅读时间需要 15 分钟。

Word2Vec简介

Word2Vec是词(Word)的一种表示方式。不同于one-hot vector,word2vec可以通过计算各个词之间的距离,来表示词与词之间的相似度。word2vec提取了更多的特征,它使得具有相同上下文语义的词尽可能离得近一些,而不太相关的词尽可能离得较远一些。例如,【腾讯】和【网易】两个词向量将会离得很近,同理【宝马】和【保时捷】两个词向量将会离得很近。而【腾讯】和【宝马】/【保时捷】,【网易】和【宝马】/【保时捷】将会离得较远一些。因为【腾讯】和【网易】都同属于互联网类目,而【宝马】和【保时捷】都同属于汽车类目。人以类聚,物以群分嘛!互联网圈子中谈的毕竟都是互联网相关的话题,而汽车圈子中谈论的都是和汽车相关的话题。

我们怎么得到一个词的word2vec呢?下面我们将介绍如何使用python gensim得到我们想要的词向量。总的来说,包括以下几个步骤:

  • wiki中文数据预处理

  • 文本数据分词

  • gensim word2vec训练

wiki中文数据预处理

首先,下载wiki中文数据:。因为zhwiki数据中包含很多繁体字,所以我们想获得简体语料库,接下来需要做以下两件事:

  • 使用gensim模块中的WikiCorpus从bz2中获取原始文本数据

  • 使用OpenCC将繁体字转换为简体字

WikiCorpus获取原始文本数据

数据处理的python代码如下:

from __future__ import print_functionfrom gensim.corpora import WikiCorpusimport jiebaimport codecsimport osimport sixfrom gensim.models import Word2Vecfrom gensim.models.word2vec import LineSentenceimport multiprocessing class Config:    data_path = 'xxx/zhwiki'    zhwiki_bz2 = 'zhwiki-latest-pages-articles.xml.bz2'    zhwiki_raw = 'zhwiki_raw.txt'    zhwiki_raw_t2s = 'zhwiki_raw_t2s.txt'    zhwiki_seg_t2s = 'zhwiki_seg.txt'    embedded_model_t2s = 'embedding_model_t2s/zhwiki_embedding_t2s.model'    embedded_vector_t2s = 'embedding_model_t2s/vector_t2s'  def dataprocess(_config):    i = 0    if six.PY3:        output = open(os.path.join(_config.data_path, _config.zhwiki_raw), 'w')    output = codecs.open(os.path.join(_config.data_path, _config.zhwiki_raw), 'w')    wiki = WikiCorpus(os.path.join(_config.data_path, _config.zhwiki_bz2), lemmatize=False, dictionary={})    for text in wiki.get_texts():        if six.PY3:            output.write(b' '.join(text).decode('utf-8', 'ignore') + '\n')        else:            output.write(' '.join(text) + '\n')        i += 1        if i % 10000 == 0:            print('Saved ' + str(i) + ' articles')    output.close()    print('Finished Saved ' + str(i) + ' articles')config = Config()dataprocess(config)

使用OpenCC将繁体字转换为简体字

这里,需要预先安装OpenCC,关于OpenCC在linux环境中的安装方法,请参考。仅仅需要两行linux命令就可以完成繁体字转换为简体字的任务,而且速度很快。

$ cd /xxx/zhwiki/$ opencc -i zhwiki_raw.txt -o zhwiki_t2s.txt -c t2s.json

文本数据分词

对于分词这个任务,我们直接使用了python的jieba分词模块。你也可以使用哈工大的ltp或者斯坦福的nltk python接口进行分词,准确率及权威度挺高的。不过这两个安装的时候会花费很长时间,尤其是斯坦福的。关于jieba的分词处理代码,参考如下:

def is_alpha(tok):    try:        return tok.encode('ascii').isalpha()    except UnicodeEncodeError:        return Falsedef zhwiki_segment(_config, remove_alpha=True):    i = 0    if six.PY3:        output = open(os.path.join(_config.data_path, _config.zhwiki_seg_t2s), 'w', encoding='utf-8')    output = codecs.open(os.path.join(_config.data_path, _config.zhwiki_seg_t2s), 'w', encoding='utf-8')    print('Start...')    with codecs.open(os.path.join(_config.data_path, _config.zhwiki_raw_t2s), 'r', encoding='utf-8') as raw_input:        for line in raw_input.readlines():            line = line.strip()            i += 1            print('line ' + str(i))            text = line.split()            if True:                text = [w for w in text if not is_alpha(w)]            word_cut_seed = [jieba.cut(t) for t in text]            tmp = ''            for sent in word_cut_seed:                for tok in sent:                    tmp += tok + ' '            tmp = tmp.strip()            if tmp:                output.write(tmp + '\n')        output.close()zhwiki_segment(config)

gensim word2vec训练

python的gensim模块提供了word2vec训练,为我们模型的训练提供了很大的方便。关于gensim的使用方法,可以参考。

本次训练的词向量大小size为50,训练窗口为5,最小词频为5,并使用了多线程,具体代码如下:

def word2vec(_config, saved=False):    print('Start...')    model = Word2Vec(LineSentence(os.path.join(_config.data_path, _config.zhwiki_seg_t2s)),                     size=50, window=5, min_count=5, workers=multiprocessing.cpu_count())    if saved:        model.save(os.path.join(_config.data_path, _config.embedded_model_t2s))        model.save_word2vec_format(os.path.join(_config.data_path, _config.embedded_vector_t2s), binary=False)    print("Finished!")    return model  def wordsimilarity(word, model):    semi = ''    try:        semi = model.most_similar(word, topn=10)    except KeyError:        print('The word not in vocabulary!')    for term in semi:        print('%s,%s' % (term[0],term[1]))model = word2vec(config, saved=True)

word2vec训练已经完成,我们得到了想要的模型以及词向量,并保存到本地。下面我们分别查看同【宝马】和【腾讯】最相近的前10个词语。可以发现:和【宝马】相近的词大都属于汽车行业,而且是汽车品牌;和【腾讯】相近的词大都属于互联网行业。

>>> wordsimilarity(word=u'宝马', model=model)保时捷,0.92567974329固特异,0.888278841972劳斯莱斯,0.884045600891奥迪,0.881808757782马自达,0.881799697876亚菲特,0.880708634853欧宝,0.877104878426雪铁龙,0.876984715462玛莎拉蒂,0.868475496769桑塔纳,0.865387916565>>> wordsimilarity(word=u'腾讯', model=model)网易,0.880213916302优酷,0.873666107655腾讯网,0.87026232481广州日报,0.859486758709微信,0.835543811321天涯社区,0.834927380085李彦宏,0.832848489285土豆网,0.831390202045团购,0.829696238041搜狐网,0.825544642448

转载地址:http://sxuyx.baihongyu.com/

你可能感兴趣的文章
【跃迁之路】【460天】程序员高效学习方法论探索系列(实验阶段217-2018.05.11)...
查看>>
jQuery|元素遍历
查看>>
FreeNAS8 ISCSI target & initiator for linux/windows
查看>>
Rainbond 5.0.4版本发布-做最好用的云应用操作系统
查看>>
Java判断是否为垃圾_Java GC如何判断对象是否为垃圾
查看>>
多项式前k项和java_多项式朴素贝叶斯softmax改变
查看>>
OracleLinux安装说明
查看>>
标准与扩展ACL 、 命名ACL 、 总结和答疑
查看>>
使用@media实现IE hack的方法
查看>>
oracle体系结构
查看>>
使用CocoaPods过程中的几个问题
查看>>
机房带宽暴涨问题分析及解决方法
查看>>
XP 安装ORACLE
查看>>
八、 vSphere 6.7 U1(八):分布式交换机配置(vMotion迁移网段)
查看>>
php5编译安装常见错误和解决办法集锦
查看>>
ORACLE配置,修改tnsnames.ora文件实例
查看>>
Workstation服务无法启动导致无法访问文件服务器
查看>>
我的友情链接
查看>>
JS中比较数字大小
查看>>
jQuery插件的开发
查看>>