什么是特征工程

特征工程就是利用工程手段从"用户信息""物品信息""场景信息"中提取特征的过程。
怎么挑出有用特征

构建推荐系统特征工程的原则

特征其实是对某个行为过程相关信息的抽象表达。将这些行为过程中的信息以特征的形式抽取出来
原则:尽可能地让特征工程抽取出的一组特征,能够保留推荐环境及用户行为过程中的所有"有用"信息,并且尽量摒弃冗余信息。
电影类型我是否感兴趣、电影是不是大片、导演和演员我是否喜欢、电影海报是否吸引人、我是否已经观看过该影片以及我当时的心情。

 

推荐系统中的常用特征

前面我以电影推荐为例,讲解了特征工程的基本原则,互联网中的推荐系统当然不仅限于电影推荐,短视频、新闻、音乐等等都是经典的推荐场景,那么它们常用的特征之间有没有共性呢?确实是有的,推荐系统中常用的特征有五大类

1. 用户行为数据

2. 用户关系数据

用户关系数据也可以分为"显性"和"隐性"两种,或者称为"强关系"和"弱关系"。如图 4 所示,用户与用户之间可以通过"关注""好友关系"等连接建立"强关系",也可以通过"互相点赞""同处一个社区",甚至"同看一部电影"建立"弱关系"。
可以直接利用关系数据,通过"好友"的特征为用户添加新的属性特征;甚至可以利用用户关系数据直接建立社会化推荐系统

3. 属性、标签类数据

4. 内容类数据

一般来说,内容类数据无法直接转换成推荐系统可以"消化"的特征,需要通过自然语言处理、计算机视觉等技术手段提取关键内容特征,再输入推荐系统。例如,在图片类、视频类或是带有图片的信息流推荐场景中,我们往往会利用计算机视觉模型进行目标检测,抽取图片特征,再把这些特征(要素)转换成标签类数据供推荐系统使用。

5. 场景信息(上下文信息)

最后一大类是场景信息,或称为上下文信息(Context Information),它是描述推荐行为产生的场景的信息。最常用的上下文信息是"时间"和通过 GPS、IP 地址获得的"地点"信息。根据推荐场景的不同,上下文信息的范围极广,除了我们上面提到的时间和地点,还包括"当前所处推荐页面""季节""月份""是否节假日""天气""空气质量""社会大事件"等等
 
 

  • 无标签