3. 世纪佳缘,一种另类的推荐系统

推荐系统

哥决定推迟写facebook了,有一些零零散散的东西想先写掉。最近特别想写东西,不如趁这个机会把一些考虑都用纸笔的方式记录下来。在公司的时候还特喜欢画画,自闭症的症状又开始发作了。哥去开世界精神病大会的时候绞尽脑汁给自己写了三点研究方向,其实是一个冷笑话,结果大家都没有笑,所以回来的时候一怒之下就都给扔了,没有人笑的笑话是不值得保留的,就像会被忘记的质性材料一样。人工智能做了这么多年,还没有能够代替人类工作的A.I.出现,那么连世界上最伟大的人脑都记不住的东西,还用得着用硬盘去记录吗?回答“是”的,你们都是尾随陈老师的摄影爱好者。

哥有两个比较明文的爱好,一是专家系统,一是推荐系统,今天就讲讲推荐系统:比如世纪佳缘怎样为你推荐一个称心如意的配偶。废话不说,直接上结论。

故事1:当你去amazon买婴儿尿不湿的时候,系统会问你,你也要买奶粉吗,这个比较容易理解;当你去amazon买那个的时候,系统也会问你,你还要买奶粉吗,你是不是想抽它,虽然它推荐得很准确。这个典型就是对用户的聚类分析,背后的逻辑是类似的用户有类似的需求。在世纪佳缘也是这样。男人女人征婚的时候特别喜欢写征婚要求,这部分的匹配对于系统来说是很好做的,可是这个部分的匹配起到的作用并不会很大,因为女人说话有一半是假的,男人说话全是假的。

抛开不谈。重点谈谈,怎么量化“眼缘”,并进行匹配。很简单,不量化就是最好的量化,男人A和男人B都浏览了某女人W的页面并表示了兴趣,那么可以就可以简单的将男人B曾经浏览过的历史推荐给男人B了,系统几乎没有什么负荷,这里面的核心技术就在于,让用户自己思考,用户的人类智能是一笔宝贵的财富。

故事1.5:对故事1做一个小小的改进,如果男人A是楼主这样的快手流选手,每小时可以点开40个不同女性的页面进行浏览,那么如果把这样的浏览历史全部推荐给慢手流选手男人B,将是一个非常不愉快的用户体验。解决的方法很简单,当男人A和男人B的交集超过一定数量之后系统才认为他们两个是类似用户。这是聚类路径的问题,推荐系统的8种基本逻辑之一,不细讲。

故事1.5.1:为什么我们认为这是一个不愉快的用户体验,很简单,这个系统背后是没有算法的,系统什么也没做,然后用户批评系统什么也没做,系统会很郁闷,因为系统的确就什么也没做嘛。

故事2:男人都是花心的,你今天给他推荐范冰冰,他买了一张邮票开始聊天,聊得挺好,明天给他推荐陈好,他又去买了一张邮票!(PS:在这一点上楼主无疑是百里挑一的好男人,楼主坚持范冰冰路线一百年不动摇,楼主的娘觉得这个思路不错)那么怎么解决这个问题呢,还记得吗,我们的系统是个空系统,后台其实什么算法也没有。其实解决方法也很简单(假设他始终迟迟不做决定),第一天推荐给他40个女人,第二天将其中20个换掉(由于他是一个典型的迟迟不做决定的用户,具体的例子可以参考一个一年不上线的死用户,不具体考虑换哪20个的问题,可以认为是随机),第三天将其中5个换掉,第四至第七天保持不变,第二周第一天将其中1个换掉,以后每过3*rand()天,将1*rand()个换掉。这时候用户就会以为自己得到了良好的用户体验。

故事2.1: 系统干了什么?系统根本不知道你喜欢什么类型的女人,根本不知道推荐的对不对,但是只推荐这40+rand()个给你,假装很professinal的进行了匹配,其实系统什么也没干。用户B体验到了什么?系统推荐的这40个女人我都觉得很漂亮,首先这40个女人是用户A选出来的,系统什么也没做,其次, 系统推荐的女人名单出现了微调,但是总体而言趋于稳定,用户认为匹配很准确嘛,其实系统什么也没做。

故事2.2:我干嘛要分析这个案例?也很简单,在没有数据的时候我们怎样做数据挖掘:利用丰富而强大的人类智能,人脑云计算。实际上现在世纪佳缘有了这么庞大的用户群和成功案例,应该足够做深度的数据挖掘了,但据我观察他们并没有这个打算,这可能还是和传说中HR都是英文系和计算机系的悖论有关吧。

后记:哥喜欢用男人和女人做例子,因为这个话题会引起大多数人的emotional反应,失去理性思考的能力,这样哥在其中讲述的背后机制就不那么容易被剽窃了。

CC BY-NC 4.0

results matching ""

    No results matching ""