硅谷观察之大数据篇【下】：硅谷巨头们的大数据玩法 - 数据库编程

ertising Suite，加强广告商判断数字媒体广告投资回报率（ROI）。

LinkedIn：大数据如何直接支持销售和变现赚钱

LinkedIn大数据部门的一个重要功用是分析挖掘网站上巨大的用户和雇主信息，并直接用来支持销售并变现。其最核心团队商业分析团队的总监Simon Zhang说，现在国内大家都在讨论云，讨论云计算，讨论大数据，讨论大数据平台，但很少有人讲：我如何用数据产生更多价值，通俗点讲，直接赚到钱。

但这个问题很重要，因为关系到直接收入。四年半前 LinkedIn内所有用户的简历里抽取出来大概有 300万公司信息，作为销售人员不可能给每个公司都打电话，所以问题来了：哪家公司应该打？打了后会是个有用的call？

销售们去问Simon，他说只有通过数据分析。而这个问题的答案在没有大数据部门之前这些决策都是拍脑袋想象的。

Simon和当时部门仅有的另外三个同事写出了一个模型后发现：真正买LinkedIn服务的人，在决定的那个环节上，其实是一线的产品经理，和用LinkedIn在上面猎聘的那些人。但他们做决策后是上面的老板签字，这是一个迷惑项。数据分析结果出来后，他们销售人员改变投放策略，把目标群体放在这些中层的管理人身上，销售转化率瞬间增加了三倍。

那时LinkedIn才 500 个人，Simon一个人支持 200名销售人员。他当时预测谷歌要花 10 个 Million美金在猎聘这一块上，销售人员说，Simon，这是不可能的事。

“但是数据就是这么显示的，只有可能多不会少。我意识到，一定要流程化这个步骤。”

今天LinkedIn 的“猎头”这块业务占据了总收入的60%。是怎么在四年里发展起来的，他透露当时建造这个模型有以下这么几个步骤：

分析每个公司它有多少员工。
分析这个公司它招了多少人。
分析人的位置功能职位级别一切参数，这些都是我们模型里面的各种功能。然后去分析，他们内部有多少HR 员工，有多少负责猎头的人，他们猎头的流失率，他们每天在Linkedin的活动时间是多少。

这是LinkedIn大数据部门最早做的事情。

Simon告诉36氪，公司内部从大数据分析这一个基本项上，可以不断迭代出新产品线LinkedIn的三大商业模型是人才解决方案、市场营销解决方案和付费订阅，也是我们传统的三大收入支柱。事实上我们还有一个，也就是第四个商业模型，叫“销售解决方案”，已经在今年7 月底上线。

这是卖给企业级用户的。回到刚才销售例子，LinkedIn大数据系统是一个牛逼的模型，只需要改动里面一下关键字，或者一个参数，就可以变成另一个产品。“我们希望能帮到企业级用户，让他们在最快的速度里知道谁会想买你的东西。”

虽然这第四个商业模式目前看来对收入的贡献还不多，只占1%，但anyway有着无限的想象空间，公司内部对这个产品期待很高。“我还不能告诉你它的增长率，但这方向代表的是趋势，Linkedin 的 B2B 是一个不用怀疑的大的趋势。”Simon说。

Google：一个闭环的大数据生态圈

作为世界上最大的搜索引擎，Google和大数据的关系又是怎样的呢？感谢微博上留言的朋友，这可确实是一个很有意思的议题。

Google在大数据方面的基础产品最早是2003年发布的第一个大规模商用分布式文件系统GFS（Google File System），主要由MapReduce和Big Table这两部分组成。前者是用于大数据并行计算的软件架构，后者则被认为是现代NOSQL数据库的鼻祖。

GFS为大数据的计算实现提供了可能，现在涌现出的各种文件系统和NOSQL数据库不可否认的都受到Google这些早期项目的影响。

随后2004和2006年分别发布的Map Reduce和BigTable，奠定了Google三大大数据产品基石。这三个产品的发布都是创始人谢尔盖-布林和拉里-佩奇主导的，这两人都是斯坦福大学的博士，科研的力量渗透到工业界，总是一件很美妙的事。

2011年，Google推出了基于Google基础架构为客户提供大数据的查询服务和存储服务的BigQuery，有点类似于Amazon的AWS，虽然目前从市场占有率上看与AWS还不在一个数量级，但价格体系更有优势。Google通过这个迎上了互联网公司拼服务的风潮，让多家第三方服务中集成了BigQuery可视化查询工具。抢占了大数据存储和分析的市场。

BigQuery和GAE（Google App Engine）等Google自有业务服务器构建了一个大数据生态圈，程序创建，数据收集，数据处理和数据分析等形成了闭环。

再来看Google的产品线，搜索，广告，地图，图像，音乐，视频这些，都是要靠大数据来支撑，根据不同种类数据建立模型进行优化来提升用户体验提升市场占有率的。

单独说一下Google maps，这个全球在移动地图市场拥有超过40%的市场占有率的产品，也是美国这边的出行神器。它几乎标示了全球有互联网覆盖的每个角落，对建筑物的3D视觉处理也早在去年就完成，这个数据处理的工作量可能是目前最大的了，但这也仅限于数据集中的层面。真正的数据分析和挖掘体现在：输入一个地点时，最近被最多用户采用的路径会被最先推荐给用户。

Google还把Google+，Panoramio和其他Google云平台的图片进行了标记和处理，将图片内容和地理位置信息地结合在一起，图像识别和社交系统评分处理后，Google能够把质量比较高的的图片推送给用户，优化了用户看地图时的视觉感受。

大数据为Google带来了丰厚的利润，比如在美国你一旦上网就能感觉到时无处不在的Google广告（AdSense）。当然，它是一把双刃剑，给站长们带来收入的同时，但如何平衡用户隐私的问题，是大数据处理需要克服的又一个技术难关，或许还需要互联网秩序的进一步完善去支持。

像在【上】中所说，除Facebook等几个很领先的公司外，大部分公司要么还没有能力自行处理数据的能力。最后附上两个例子，想说这边的大公司没有独立大数据部门也是正常的，采取外包合作是普遍现象：

Pinterest：

Pinterest曾尝试自行通过Amazon EMR建立数据处理平台，但是因为其稳定性无法控制和数据量增长过快的原因，最终决定改为使用Qubole提供的服务。在Qubole这个第三方平台上，Pinterest有能力处理其0.7亿用户每天所产生的海量数据，并且能够完成包括ETL、搜索、ad

hoc query等不同种类的数据处理方式。尽管Pinterest也是一个技术性公司，也有足够优秀的工程师来建立数据处理团队，他们依然选择了Qubole这样的专业团队来完成数据处理服务。

Nike:

不仅仅硅谷的互联网公司，众多传统企业也逐渐开始使用大数据相关技术。一个典型的例子就是Nike。Nike从2012年起与API服务公司Apigee合作，一方面，他们通过Apigee的API完善公司内部的数据管理系统，让各个部门的数据进行整合，使得公司内部运行更加顺畅、有效率。另一方面，他们也通过API开发Nike Fuel Band相关的移动产品。更是在2014年开启了Nike+

FuelLab项目，开放了相关API，使得众多的开放者可以利用Nike所收集的大量数据开发数据分析产品，成功地连接了Nike传统的零售

硅谷观察之大数据篇【下】：硅谷巨头们的大数据玩法(二)