使用R语言挖掘QQ群聊天记录
发布时间:2020-12-30 20:14:43 所属栏目:大数据 来源:网络整理
导读:副标题#e# 数据挖掘入门与实战 ?公众号: datadw 1、获取数据 从 QQ 消息管理器中导出消息记录,保存的文本类型选择 txt 文件。这里获取的是某群从 2016-04-18 到?2016-05-07 期间的聊天记录,记录样本如下所示。 2、数据预处理 打开 R 软件,先通过 File—
每天活跃人数统计 根据flat.day数据观察每天活跃用户变化 numday为每天发言人数numday <- apply(flat.mat,2,sum) tempdf <- data.frame(time=ymd(names(numday)),numday) qplot(x=time,y=numday,ymax=numday,0); line-height: 1.5 !important;">')
再观察十强选手的日内情况 连续对话的次数,以三十分钟为间隔 连续对话的次数,以三十分钟为间隔
画社交网络图 得到 93 多组对话newdata2$group <- group igraph进行十强之间的网络分析 建立关系矩阵,如果两个用户同时在一次群讨论中出现,则计数+1newdata3 <- dcast(newdata2,id~group,sum,0); line-height: 1.5 !important;">groupin% user[1:10,]$Var1))#newdata4 <- ifelse(newdata3[,-1] > 0,0) rownames(newdata4) <- newdata3[,1] relmatrix <- newdata4 %*% t(newdata4) 很容易看出哪两个人聊得最多
找到配对 找到配对pairlist=data.frame(pair=1:length(attributes(deldiag)$dimnames[[1]])) rownames(pairlist)<-attributes(deldiag)$dimnames[[1]]for(i in (1:length(deldiag[1,]))) { pairlist[i,1]<-attributes(which(deldiag[i,]==max(deldiag[i,]),arr.ind=T))$names[1] } pairlist pairmatrix=data.frame(pairA=1:length(attributes(deldiag)$dimnames[[1]]),pairB=1:length(attributes(deldiag)$dimnames[[1]])) pairmatrix=data.frame(pair=1:length(attributes(deldiag)$dimnames[[1]]))in (1:dim(deldiag)[1])) { deldiag[i,] <- ifelse(deldiag[i,] == max(deldiag[i,0) } deldiag ? 新浪微博名称:大数据_机器学习 数据挖掘入门与实战 搜索添加微信公众号:datadw 教你机器学习,教你数据挖掘 长按图片,识别二维码,点关注 (编辑:海南站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |