协同过滤算法：在抖音狂给1000个小姐姐点赞的事被老婆发现了！

发布时间：2020-03-20 02:57:20 所属栏目：创业来源：做站长

导读：副标题#e# 产品经理要不要懂技术？要的！本系列文章将从最简单的概念开始，逐步讲解推荐系统的发展历程和最新实践。以产品经理的视角，阐述推荐系统涉及的算法，技术和架构。本章是第二章，将系统性地通过图文的方式介绍协同过滤算法。我有个兄弟，是抖音

如下图，通过用户B对图书1的评分 * 未知图书与图书1的相似度来预测用户B对剩下图书的评分。如图书2的预测评分 = 图书1的评分5分 * 图书1和图书2的相似度0.27 ，从而用户B对图书2的评分是：5×0.27=1.35。同样方式计算出其他图书的评分预测。

从上面的结果来看，用户B对其他图书评分比较低，这几本图书推荐的可能性大大减少。

物品协同过滤实际使用

这是推荐系统里最朴素的算法，因为它的计算量会随着用户和物品的数量呈指数增长，所以它并不适合在大量用户或大量物品的场景使用。在它诞生的年代，还没有大数据，这种计算方式耗费大量内存，需要做大量的优化。我尝试过用100万用户，100万物品和500万条的数据在256G内存的机器上做过尝试，计算一分钟后就宣告内存耗尽。

因为这个缺点，就需要新的算法来计算物品的协同过滤。

前面提到，计算任意两物品之间的相似度后，有两个使用场景。针对这两个场景，分别有不同的迭代算法：

根据相似度排序推荐最近邻物品：使用如Word2vec，Item2vec等Embedding类的算法，将物品嵌入固定的向量空间中，再使用LSH算法(局部敏感哈希算法)取最近邻物品。这个后续文章会介绍。
根据相似度预测评分推荐物品：本章后续介绍的SVD算法。

虽然这个算法使用较少了，但是物品协同过滤的思想都是一脉相乘的，理解了这个简单的cosine相似度计算方式，可以更好理解后续的迭代算法。

最后补充一下，物品协同过滤的一个缺点，或者说是协同过滤的缺点，对于一个新物品，协同过滤是无法推荐的。因为新物品用户无评分，导致它跟所有物品的相似度都是为0，这个是使用这个算法时非常需要注意的一个点。

三、用户协同过滤计算

用户协同过滤（UserCF）的计算方式跟物品协同过滤（ItemCF）的计算方式类似。不同的是由计算两两物品的相似度，转换成计算两两用户的相似度。

如下图所示：

协同过滤算法：在抖音狂给1000个小姐姐点赞的事被老婆发现了！

评分了相同图书的用户为相似用户，他们的相似度同样也用cosine相似度公式来计算。计算完相似度后，就可以根据用户间的相似性，预测用户对未评分图书进行评分预测。

但是在亚马逊上，由于用户评分的稀疏性（很多用户压根不评分），没有评分的用户无法跟其他用户计算相似性，从而导致很多用户之间没有相似度。所以2001年的时候，亚马逊选择物品协同过滤算法来做推荐，并发表了论文。这个论文也导致大家一度认为物品协同过滤优于用户协同过滤。

其实只有最合适的算法，没有最优的算法。

时间到了移动互联网的今天，我们更多是用点击数据，用户好友关系，通讯录或者甚至是同一个WIFI地址来计算用户协同过滤，数据稀疏性得到一定程度上的解决。现在，用户的协同过滤在信息流内容推荐，社交性的推荐系统有着很好的利用。比如抖音，因为内容更新频繁，用户协同过滤可以作为很好的召回手段，所以也就会出现老公点赞的视频会被推荐给他老婆的情景。

同样地，这里介绍的cosine相似度的算法，也不是工业界现在最佳实践的用户相似度计算方式了。用户相似度的计算，现在的最佳实践也同样也是用Embedding的方式实现。

（编辑：网站开发网_盐城站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

2/4

首页

尾页

自称新势力2.0，电动屋	新年伊始，没有农村的
数字人民币正式上线，	马云果然兑现了诺言