推荐系统技术之文本相似性计算(三)
发布时间:2021-03-07 17:47:14 所属栏目:大数据 来源:网络整理
导读:副标题#e# 今天这篇也比较长,但中间有部分是代码,7,8,9最后三节的信息我认为较为有用。前面说了两篇了,推荐系统技术之文本相似性计算(一)和推荐系统技术 --- 文本相似性计算(二)分别介绍了 TFIDF 和向量空间的相关东西,然后介绍了 主题模型 ,这
然后把html标签干掉,一堆正则就行了,剩下的基本上就是正文了,另外,技术站的东西还特殊处理了一下,把 最后,把标点符号干掉,把特殊符号干掉,调整一下格式,最后的每一篇文章都变成下面的样子 4.1 分词--建立词典--准备数字语料分词是基础,首先进行分词from gensim import corpora,modelssimilaritiesutils tfidfModel modelsTfidfModelcorpus#存储tfidfModel tfidfModel"allTFIDF.mdl"这一句是关键,我们用了原始的数字语料,生成了一个TFIDF模型,这个模型能干什么呢? gensim 重载了[]操作符 ,我们可以用类似[(1,2)....] 的原始向量传进去,变成一个tfidf的向量,像这样模型数据(allTFIDF.mdl) ,生成了一份全部语料的TFIDF向量的索引数据(allTFIDF.idx) ,加上上面的词典数据(all.dic) ,我们现在有三份数据了,后面再说怎么用,现在先继续LDA部分。4.2 LDA模型
LDA上一篇讲了那么多,在gensim 看来就是下面几行代码,而且使用了传说中的机器学习 哦。只能说gensim的代码封装得太简洁了。#通过TFIDF向量生成LDA模型,id2word表示编号的对应词典,num_topics表示主题数,我们这里设定的50,主题太多时间受不了。lda LdaModel id2worddictionarynum_topics50#把模型保存下来 lda"allLDA50Topic.mdl"#把所有TFIDF向量变成LDA的向量 corpus_lda lda#建立索引,把LDA数据保存下来 indexLDA corpus_ldaindexLDA"allLDA50Topic.idx"虽然只有这三步,但是还是挺耗时的,在log打开的情况下可以看到处理过程,我随便截取了几个,像下面一样,很明显,前面几个主题都和汽车相关,后面几个主题都和技术相关,看样子还算比较靠谱的。#38 (0.020): 0.003*新奇 + 0.003*骏 + 0.002*途安 + 0.002*配备 + 0.002*都市 + 0.001*除 + 0.001*昂科威 #27 (0.020): 0.003*配置 + 0.003*内饰 + 0.003*车型 + 0.002*气囊 + 0.002*瑞风 + 0.002*万元 + 0.002*逸致 #21 (0.020): 0.035*命令 + 0.018*浏览器 + 0.007*第三方 + 0.007*安装 + 0.006*控制台 #25 (0.020): 0.064*文件 + 0.004*约束 + 0.004*练习 + 0.003*复制到 + 0.003*就行了 + 0.003*反编译 |
站长推荐
热点阅读