加入收藏 | 设为首页 | 会员中心 | 我要投稿 网站开发网_盐城站长网 (https://www.0515zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

使用R语言挖掘QQ群聊天记录

发布时间:2020-12-30 21:46:01 所属栏目:大数据 来源:网络整理
导读:副标题#e# 数据挖掘入门与实战 ?公众号: datadw 1、获取数据 从 QQ 消息管理器中导出消息记录,保存的文本类型选择 txt 文件。这里获取的是某群从 2016-04-18 到?2016-05-07 期间的聊天记录,记录样本如下所示。 2、数据预处理 打开 R 软件,先通过 File—


user <- as.data.frame(table(newdata$id))   用 table 统计频数

user <- user[order(user$Freq,decreasing=T),] user[1:10,] 显示前十大发言人的 ID 和 发言次数

topuser <- user[1:10,]$Var1 存前十大发言人的 ID

  • 根据活跃天数统计前十大活跃用户

 活跃天数计算 将数据展开为宽表,每一行为用户,每一列为日期,对应数值为发言次数

flat.day <- dcast(newdata,id~date,length,value.var=') flat.mat <- as.matrix(flat.day[-1]) 转为矩阵 转为0-1值,以观察是否活跃

flat.mat <- ifelse(flat.mat>0,1,0) 根据上线天数求和

topday <- data.frame(flat.day[,1],apply(flat.mat,sum)) names(topday) <- c(iddays') topday <- topday[order(topday$days,] 获得前十大活跃用户topday[1:10,]

?

  • (编辑:网站开发网_盐城站长网 )

    【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!