?
硅谷观察之大数据篇的【上】篇中,我把硅谷地区大数据生长状况基本梳理了一个相对完整的形状出来。有朋友看了【下】的预告后在微博上给我留言说,听说下篇要介绍一些公司的大数据部门情况,问能不能点名加个Google尤其是Google Maps,因为特别想知道这个世界上最大的搜索引擎以及每天必不可少的出行神器是怎么当一个挖掘机的。于是,上周我又去了Google采访。本篇将一共呈现硅谷四大不同类型的公司如何玩转大数据,其中包括了著名FLAG中的三家(Apple在大数据这块来说表现并不突出)。
本篇内容来自对Evernote AI负责人Zeesha Currimbhoy、LinkedIn大数据部门资深总监Simon Zhang、前Facebook基础架构工程师Ashish Thusoo和Google大数据部门一线工程师及Google Maps相关负责人的专访。Enjoy~~
Evernote:今年新建AI部门剑指深度学习
Evernote的全球大会上,CEO Phil Libin提到,Evernote的一个重要方向就是“让Evernote变成一个强大的大脑”。要实现这个目标,就不得不提他们刚刚整合改组的Augmented Intelligence团队(以下简称AI team)。我在斯坦福约到AI team的manager Zeesha Currimbhoy,在此分析一下从她那里得到的一手资料。
是什么
今年早些时候,这个2岁的数据处理团队改组为由Zeesha带领的Augmented Intelligence team,总共十人不到,很低调,平日几乎听不到声响。他们究竟在做什么?
与我们常说的AI(artificial Intelligence)不同,Evernote的团队名叫做Augmented Intelligence,通常情况下简称为IA。
Zeesha显然是这个团队里元老级的人物:“我是在2012年加入Evernote的,直接加入到了当时刚刚建立的数据处理团队,这也就是现在AI team的雏形。我们最开始的项目都是简单易行的小项目,比如按照你的个人打字方式来优化用户的输入体验。”
传统意义上的AI指的是通过大量数据和算法让机器学会分析并作出决定。而这里讲到IA则是让电脑进行一定量的运算,而终极目的是以之武装人脑,让人来更好的做决定。这两个概念在具体实施中自然有不少相通之处,但是其出发点却是完全不同的。
这个区别也是Evernote AI team的亮点所在。作为一个笔记记录工具,Evernote与Google之类的搜索引擎相比,最大的区别就是它非常的个人化。用户所储存的笔记、网站链接、照片、视频等都是他思维方式和关注点的体现。
从哪来Zeesha小组的初衷便是,通过分析用户储存的笔记来学习其思维方式,然后以相同的模式从第三方数据库(也就是互联网上的各种开源信息)抽取信息推送给用户,从而达到帮助用户思考的过程。从这个意义上讲,Zeesha版的未来Evernote更像是一个大脑的超级外挂,为人脑提供各种强大的可理解的数据支持。
目前整个团队的切入点是很小而专注的。
“我们不仅仅是帮助用户做搜索,更重要的是在正确的时间给用户推送正确的信息。”
实现这个目标的第一步就是给用户自己的笔记分类,找到关联点。今年早些时候,Evernote已经在Mac的英文版上实行了一项叫做“Descriptive Search”的功能。用户可以直接描述想要搜索的条目,Evernote就会自动返回所有相关信息。
例如,用户可以直接搜索“2012后在布拉格的所有图片”,或者“所有素食菜单”。不管用户的笔记是怎样分类的,Decriptive Search都可以搜索到相关的信息并且避免返回过大范围的数据。而这还仅仅是AI team长期目标的开始,这个团队将在此基础上开发一系列智能化的产品。
到哪去不用说,这样一个新创团队自然也面临这诸多方面的挑战。当下一个比较重要的技术难点就是Evernote用户的数据量。虽然Evernote的用户量已经达到了一亿,但是由于整个团队的关注点在个人化分析,外加隐私保护等诸多原因,AI team并没有做跨用户的数据分析。
这样做的结果就是团队需要分析一亿组各不相同的小数据组。比如,假设我只在Evernote上面存了10个笔记,那Evernote也应该能够通过这些少量的数据来分析出有效结果。当然,这些技术的直接结果是用户用Evernote越多,得到的个性化用户体验就越好。长期来讲,也是一个可以增加用户黏性的特点。
不过Zeesha也坦言:“的确,我们都知道没有大数据就没有所谓的智能分析。但是我们现在所做的正是在这样的前提下来找到新的合适的算法。”她并没有深入去讲目前团队所用的是什么思路,但是考虑到这个领域一时还没有很成功的先例,我们有理由期待在Zeesha带领下的Evernote AI team在近期做出一些有意思的成果。
Facebook:大数据主要用于外部广告精准投放和内部交流
Facebook有一个超过30人的团队花了近4年的时间才建立了Facebook的数据处理平台。如今,Facebook仍需要超过100名工程师来支持这个平台的日常运行。可想而知,光是大数据分析的基础设施就已经是一个耗时耗力的项目了。
Facebook的一大价值就在于其超过13.5亿活跃用户每天发布的数据。而其大数据部门经过七八年的摸索,才在2013年把部门的key foundation定位成广告的精准投放,开始建了一整套自己的数据处理系统和团队。并进行了一系列配套的收购活动,比如买下世界第二大广告平台Atlas。
据前Facebook Data Infrastructure Manager Ashish Thusoo介绍,Facebook的数据处理平台是一个self-service, self-managing的平台,管理着超过1 Exabyte的数据。公司内部的各个部门可以直接看到处理过的实时数据,并根据需求进一步分析。
目前公司超过30%的团队,包括工程师、Product Managers、Business Analysts等多个职位人群每个月都一定会使用这项服务。这个数据处理平台的建立让各个不同部门之间可以通过数据容易地交流,明显改变了公司的运行方式。
追溯历史,Facebook最早有大数据的雏形是在2005年,当时是小扎克亲自做的。方法很简单:用Memcache和MySQL进行数据存储和管理。
很快bug就显现了,用户量带来数据的急速增大,使用Memcache和MySQL对Facebook的快速开发生命周期(改变-修复-发布)带来了阻碍,系统同步不一致的情况经常发生。基于这个问题的解决方案是每秒100万读操作和几百万写操作的TAO(“The Associations and Objects”)分布式数据库,主要解决特定资源过量访问时服务器挂掉的bug。
小扎克在2013年第一季度战略时提到的最重点就是公司的大数据方向,还特别提出不对盈利做过多需求,而是要求基于大数据来做好以下三个功能:
发布新的广告产品。比如类似好友,管理特定好友和可以提升广告商精确投放的功能。除与Datalogix, Epsilon,Acxiom和BlueKai合作外,以加强广告商定向投放广告的能力。
通过收购Atlas Adv