基于矩阵分解原理的推荐系统
本文,我们将创建一个电影推荐系统。
原理:矩阵分解
矩阵分解是推荐系统系列中的一种算法,顾名思义,就是将矩阵分解成两个(或多个)矩阵,它们相乘后得到原始矩阵。在推荐系统中,我们通常从用户与项目之间的交互/评分矩阵开始,矩阵分解算法会将用户和项目特征矩阵分解,这也称为嵌入。下面以电影推荐中的评分,购买等矩阵为例。
通常,在数据集中,要挖掘用户和项目属性的潜在特征。本质上,潜在特征是用户/项目在任意空间中的表示,表示用户如何评价电影。在电影推荐系统的示例中,一个用户样本中包含了他所观看的多个电影,潜在特征的值越高,则表示他喜欢该类型的电影,那么就应该推荐此类型的电影。
准备
本文所用数据来自kaggle(https://www.kaggle.com/CooperUnion/anime-recommendations-database),包含了76000个用户样本。
首先,导入数据和有关库。
from recsys import *
from generic_preprocessing import
from IPython.display import HTML ## 以Ipython Notebook显示
import pandas as pd,numpy as np
anime = pd.read_csv('anime.csv')
ratings = pd.read_csv('rating.csv').iloc[:5000000]
以上代码中的recsys
模块来自:https://github.com/aayushmnit/cookbook/blob/master/recsys.py,generic_preprocessing
模块来自:https://github.com/aayushmnit/cookbook/blob/master/generic_preprocessing.py
为了创建推荐系统,我们需要一个可交互的矩阵。为此,使用recsys
模块中的create_interaction_matrix
函数,这个眼熟要求以Pandas的DataFrame类型的数据为输入,输入数据的列必须有诸如用户id,项目id和评分等。此函数的中如果设置norm=True
,则意味着任何评分的值都应该是正的。在这个示例中,没有必要设置,因为实际的购买数据和评分都是正的。
# 利用评分数据创建矩阵
interactions = create_interaction_matrix(df = ratings,
user_col = ‘user_id’,
item_col = ‘anime_id’,
rating_col = ‘rating’)
interactions.shape
然后用create_user_dict
和create_item_dict
函数(recsys
模块)创建关于用户和项目的字典。
# 用户字典
user_dict = create_user_dict(interactions=interactions)
# 项目字典
movies_dict = create_item_dict(df = anime,
id_col = 'anime_id',
name_col = 'name')
矩阵分解模型
用recsys
中的runMF
函数来创建矩阵分解模型,这个函数的参数:
-
interaction
:前面所创建的矩阵 -
n_components
:对于每个用户和项目嵌入的数量 -
loss
:定义一个损失函数,本例中我们使用warp损失函数(详见:https://making.lyst.com/lightfm/docs/examples/warp_loss.html),因为我们更关心矩阵的秩。 -
epoch
:运行的次数 -
n_jobs
:并行处理中使用的核数
mf_model = runMF(interactions = interactions,
n_components = 30,
loss = 'warp',
epoch = 30,
n_jobs = 4)
本系统的完整代码请参考:https://colab.research.google.com/drive/1qPA_t4O0KXHZY7fI8N69U5ikTDC9wpRy
原文链接:https://medium.com/@pytholabs/anime-recommendation-with-matrix-factorization-pytholabs-a59f7ed05516
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- redis
- synchronized底层是怎么实现的?
- RSA
- Syncd - 开源自动化部署工具
- pointer-events:none禁用鼠标事件
- TiCDC 首个 GA 版本发布,特性与场景全揭秘
- Linux远程ssh执行命令expect使用及几种方法
- 数据结构--线性表和链表的基础知识
- Salesforce LWC学习(二十五) Jest Test
- 自建npm包-搭建,打包,调试,发布
- 你对排序算法了解多少
- 【大数据架构】大数据数据仓库与数据中台架构
- JavaScript中的内置对象、面向对象与原型
- Java.lang.Illegalaccessexception 或 java.lang.NoSuchMethodError
- Python 爬虫进阶必备 | 关于某电商 token 参数加密逻辑分析