Xueqiu Engineering Blog

thoughts on creating xueqiu

ResysChina 2012 Conference Note

| Comments

2012.12.1日,我们参加了ResysChina 2012推荐系统大会。 大会是由ResysChina(一个面向推荐系统领域的专业社区)主办,一年一次的推荐系统行业质量比较高的大会。 大会链接:http://www.resyschina.com/2012/ (有部分slides可下载)

本次会议分为主题嘉宾演讲和创业团队分享两部分。

嘉宾分享:

Facebook推荐系统–石言心

2008年加入Facebook, 就一直从事机器学习、推荐相关工作。感觉Facebook这块还是很强的。

他们把各种网站内容(例如,照片,朋友,游戏)和广告合在一起进行推荐,就是说一个推荐api返回的内容揉合了网站内容和广告。 每种内容都有非常不同的特性需要机器学习模型来学习。 各用户的各不同内容之间通过一定规则转换一个标准分。

推荐的哲学:新广告的出现占用了系统和其他的广告的展现机会。为了各方的利益均衡,广告主应该支付一个费用。具体竞价公式忘记了。 有个index引擎,索引用户的所有特征。用推荐器从索引里选取相应物料进行投放。选择1%的用户进行训练和实验,后验和预测的误差,决定新的模型是否会被广泛应用。小时级别的模型训练。

同时讲到了他们大规模数据的存储与处理,及快速的进行机器学习和反馈。

Recommendation anytime, anywhere in Hulu–项亮

Hulu是一家美国视频网站,现为美国第三大视频网站。有一半多的技术在北京, 北京的团队主要负责搜索引擎、推荐系统、web播放器等。 Hulu的mission: 用户:提供个性化体验,帮他们快速找到和发现符合其兴趣的内容。 内容合作方:更好的把内容展现给目标用户。 Hulu:提高用户参与度。

历史:使用推荐技术的历史。从个性化视频推荐,到整站个性化。

推荐产品的两种类型: 内容发现:帮助用户找到感兴趣的内容。 方便导航:让用户最快到达用户感兴趣的内容。

数据驱动产品决策: 目标:帮用户简单、快速的跟之前看过的剧。(比如:你昨天看了越狱的第4集,今天你如果登陆我们会提醒你看第5集)。 排序:最早通过最后观看时间排序。 但需要考虑各种情况(比如: 是否要考虑用户对每个视频的完成度。是否看完了,看了多少分钟。 每天发布的剧和每周发布的剧怎么排序。 ) 需要加很多规则来解决每个问题。 系统变得越来越复杂: 有很多冲突的规则 每个人有自己的规则 所以,转为采用机器学习的方法和使用数据来解决 从观看历史中抽取特征 建立模型来预测用户要看的下一个视频

基于规则vs机器学习: 基于规则: 容易理解,基于领域知识,白盒。 很难定义适合的规则,不是基于数据,不同规则经常冲突。 机器学习: 基于数据。 难以解释,基本上是黑盒. 基于机器学习的系统: 一个好得基于机器学习的系统应该: 基于数据进行决策 能对其怎么运作的能提供详尽的解释 能很容易地增加领域知识

腾讯精准用户定向和效果广告–王益

分享介绍技术团队如何在腾讯严格的用户隐私保护政策下,从多种用户数据中精准挖掘用户兴趣;以及利用挖掘结果,实现推荐和广告系统中的实时获取和排序。

效果广告: 搜索广告 上下文广告 用户定向广告 无线 社交

语义分析: 问题:查询和广告描述都是短文本,信息量少,有歧义,直接文本内容匹配效果不好。 apple pie iphone crack

解决: *从海量文本数据中归纳“知识”,帮助理解语义。 知识:同一个主题的词聚成一类(topic) topic 1 = { apple, tree, pie, fruit, …} topic 2 = { computer, iphone, ipod, crack, apple, …} 理解:词空间到topic空间的投影 “apple pie” topic 1: 99%, topic 2: 1% “iphone crack”topic 1: 1%,topic 2: 99%

搜索引擎扩展: 对一个query,用该query在搜索引擎进行查询,用搜索引擎中蕴含的“知识”补足信息。 隐含语义分析: LSA pLSA NMF LDA Peacock

用户意图分析: 问题: 用户行为数据覆盖率低 搜搜queries 拍拍transactions 覆盖5%用户

解决: 用 user feature 扩展用户兴趣 QQ profile:性别、年龄段、职业、学历 用户关系:微博fan了谁、QQ聊了谁、QQmail写给谁

算法和系统: 新的模型 用co-clustering思路,发掘用户行为模式,得到意图 用regression思路,得到用户feature和意图的关联。 新的并行算法 目前的并行co-clustering算法不能学习大量意图; 新算法同时 shard 训练数据和意图。 Go语言 语言支持concurrency,代码量是C++版本的40%。 实时推演算法

百度推荐系统的探索过程–刘其文

1:介绍了百度统一推荐平台CoreEngine 什么是CoreEngine: 是一个巨大的信息库 TA了解你是谁 TA能够判断什么是对你有价值的 TA能够知道你在什么时间、场景下需要

2:主要讲了三个关键问题: 如何判断内容质量: 用户决定一切:根据用户行为来判断内容质量。 后验:通过后验数据来判断效果。 先验:主要通过基础质量、热度、时效性来判断。

如何为用户建模: 用户反馈:正反馈 负反馈

如何给推荐结果排序 根据相关性、多样性、惊喜度等排序,没有一个统一的排序标准。 机器学习排序:

如何把多层次的需求转化成单一优化指标: 离线评估: 供参考的baseline 人工评估: 太依赖于主观经验 在线评估: A/B test是最客观的评价

3: CoreEngine的启示: 没有“银弹” 需要根据产品目标、数据现状、资源现状选择算法 不要手握锤子就把一切看做钉子 推荐只是实现产品目标的方式,不是产品目标本身

介绍了百度在推荐系统数据、架构、策略和产品方面的一些探索过程。搭建了统一的基础推荐平台,且进行了跨产品推荐。 百度推荐系统组据说有大概100人的团队。

创业团队:

S购物党

口碑搜索、正品比价,购物党通过商品、评价、价格等因素帮消费者解决买什么、去哪买的问题。 就是介绍了下自己的产品,没讲啥和推荐有关的内容。

豌豆猜:

是豌豆荚推出的个性化应用推荐引擎。 通过分析用户的下载、安装和卸载行为,豌豆们为您挑选贴心、聪明、有趣 的应用。豌豆猜会记住您「不喜欢」的应用,并变得更加智能。 效果:据说下载量提升不少,具体数字没记。 方法:基于内容推荐和基于协同过滤综合。 实现:目前用的mahout,据说以后可能换(mahout大而全,使用的部分算法实现为考虑通用性效率不太高)。

说他们做新产品的原则是 “糙,快,猛”!先做个东西出来,不用太好看,看用户反馈,反馈明显的,再优化,否则放弃。

微博寻人:

做了一个人–人,人–微博关键字,人–微博关系链。 数据源是爬的weibo的,专门有个产品叫中国爬萌(专业爬weibo,数据量仅次于sina)。

总设计师:梁斌,此人灰常幽默。 语录: 世界不公平,不平等的根源在于信息不对称,我的理想是让信息对称,人人平等。 大家对现在微博寻人的用户量可能没概念,大概就是盘古搜索的量。 有人提问如何赚钱,梁总说:为人民群众服务的时候,薅羊毛不能薅的太早!

各大公司大规模数据处理、机器学习、推荐系统这块还是比较重视的,并不同程度上使用在其产品上。 近几年越来越多的公司推出了推荐系统相关的功能,以提升用户体验、增加公司收入(个性化广告)。 还出现了不少以推荐为核心的公司和产品,比如简网、无觅、今晚看啥、百分点等。

我们的推荐系统目前也就实现了从无到有的阶段,以后在推荐质量反馈、大数据量处理、多种内容推荐、提高学习和反馈速度等各方面需要不断提升。

Comments