基于协同过滤和Embedding的冷启动推荐算法研究

邓琦 廖琴 罗元帅

【关键词】Embedding;冷启动;算法

一、现有的个性化系统推荐方案

个性化推荐算法主要包括召回算法和排序算法。通过召回算法,每个用户可以从完整的内容库(例如,数百万个视频内容)中选取数以千或百计可能感兴趣的候选内容,例如协同过滤(Collaborative Filtering[1])算法和FM算法(Factorization Machines[2])。排序算法对召回的候选内容进行排序,按照用户感兴趣的程度对内容进行排序,并展示给用户,例如逻辑回归(Logistic Regression[3])算法和DeepFM[4]算法。

二、现有技术的缺点及需要解决的问题

通常针对有行为的用户,一般通过算法模型计算推荐结果。然而在互联网场景中,用户和内容都是在不断增长变化的,必定会频繁面对新内容和新用户,由于新用户没有行为或行为很少,难以通过算法模型为其推荐内容,一般为其推荐预圈选好的少部分优质内容,称之为用户冷启动。

由于用户兴趣的差异性,为新用户推荐最新最热等预圈选内容会使得推荐结果缺乏个性化,只能满足部分人的需求。即便是结合少量标签进行用户画像推荐,效果也不够理想,为新用户提供个性化推荐是急需解决的问题。

三、基于协同过滤的冷启动推荐算法

协同过滤召回算法适用于用户行为丰富的场景,例如为用户A推荐其相似用户B喜欢的内容,需要有足够的数据计算A和B的相似度。本文结合协同过滤算法、聚类算法和Embedding算法进行用户冷启动推荐。具体实现如下:

(一)用户聚类(分群)

本文使用深度学习卷积神经网络(CNN)算法从用户基础信息(性别、年龄和地区等)、昵称信息和头像信息提取特征,随后利用Kmeans[5]聚类算法对用户进行聚类,得到不同的用户群。

(二)用户群行为合并

由于单个新用户行为稀疏,难以直接使用协同过滤算法,因此可以将同一用户群的用户行为进行合并。在此基础上,由于不同用户到聚类中心点的距离不一样(可理解为用户属于不同类别的相似度不一样),因此不同用户的行为权重有所差别,不能直接合并。本文提出了一种加权行为合并方案,对用户群i,假设用户j到聚类中心点的距离为di,j用户群i中所有用户到中心点的最大距离为max(di),可定义用户j的行为权重为wi,j用户离聚类中心点越近权重越大,表示用户与该类的相似度越大,公式如下:

wi,j =1-di,j / max (di)

根据上式求得的权重,对同一用户群内的用户行为进行加权合并。假设用户对电影的原始评分只有0和1,用户群i(其中用户群i有n个用户)对电影k的得分是每个用户对电影k分数的加权求和,公式如下:

new_scorei,k = =1 wi,j * scorek

由于用户群中不同用户的行为都合并在一起了,使原本稀疏的矩阵变得稠密,因此合并后的用户群适合使用协同过滤算法。

(三)基于用户群进行协同过滤+embedding进行推荐通过上述的聚类和行为合并,得到用户群样本后,可以将一个用户群i看作一个用户,然后基于用户协同过滤计算用户群i的相似度,为用户群推荐最相似用户群的评分topK内容。假设经协同过滤得到“用户群1”最相似的用户群为“用户群99”,取“用户群99”评分最高且“用户群1”未看过的1000部电影作为“用户群1”的初步推荐结果。这是为用户群整体所做的推荐,难以通过上述权重计算公式拆分每个用户的评分,也不宜为用户群所有用户推荐一样的内容。

基于此,由于用户群维度有较为丰富的行为,针对该用户群进行DeepFM建模,得到各用户群embedding向量。通过Step1CNN提取的特征构造用户embedding向量。

最后计算用户embedding向量到候选内容embedding向量的距离(相似度),为每个内容推荐距离最近(最相似)的topN个内容,例如100个。

四、总结

新用戶行为稀疏,难以通过模型为其推荐内容,通常通过年龄、性别、地区等用户画像的方式划分用户群进行分群推荐,缺少个性化。本文结合协同过滤、聚类和embedding提出了一种新的用户冷启动方法,可以有效地为不同用户推荐更丰富的内容,能更好地解决用户冷启动问题。

猜你喜欢 用户群中心点聚类 改良量角器,让量角不再困难小学教学参考(数学)(2021年5期)2021-07-11柴油发电机中性点漂移原因分析及处理装备维修技术(2020年4期)2020-11-23Scratch 3.9更新了什么?电脑报(2020年12期)2020-06-30基于模糊聚类和支持向量回归的成绩预测华东师范大学学报(自然科学版)(2019年5期)2019-11-11从资源出发的面向用户群的高校图书馆资源推荐模型分析求知导刊(2019年17期)2019-10-18磨课,一段痛苦与快乐交织的过程新课程·小学(2019年1期)2019-03-18基于流形学习的自适应反馈聚类中心确定方法软件(2017年6期)2017-09-23基于密度的自适应搜索增量聚类法电子技术与软件工程(2016年23期)2017-03-06OPPO、vivo为什么会上位?销售与市场·渠道版(2016年10期)2016-11-19公共图书馆的用户群和服务人员的分析黑龙江史志(2014年12期)2014-11-24 相关热词搜索: 协同 算法 过滤