使用 R 语言挖掘 QQ 群聊天记录
发布时间:2020-12-30 21:43:32 所属栏目:大数据 来源:网络整理
导读:副标题#e# 1、获取数据 从 QQ 消息管理器中导出消息记录,保存的文本类型选择 txt 文件。这里获取的是某群从 2016-04-18 到?2016-05-07 期间的聊天记录,记录样本如下所示。 2、数据预处理 打开 R 软件,先通过 File—Change dir 切换到聊天文件所在目录。
|
一星期中每天合计的聊天记录次数,可以看到该 QQ 群的聊天兴致随星期的分布。 qplot(wday,data=newdata,geom='bar') 周三是工作日,还这么活跃,周六话最多,周日估计出去玩了,周一专心上班。
qplot(hour,geom='bar') 这群一天中聊得最嗨的是上午 10 点和下午 17 点,形成两个高峰。
user <- as.data.frame(table(newdata$id)) ?# 用 table 统计频数
# 活跃天数计算# 将数据展开为宽表,每一行为用户,每一列为日期,对应数值为发言次数
# 观察每天的发言次数# online.day为每天的发言次数online.day <- sapply(flat.day[,-1],sum) ?# -1 表示去除第一列,第一列是 IDtempdf <- data.frame(time=ymd(names(online.day)),online.day )
|
站长推荐

