用 MapReduce 解决与云计算相关的 Big Data 问题 - 技术

TOP

用 MapReduce 解决与云计算相关的 Big Data 问题(一)

2011-03-22 12:44:34 【大中小】浏览:2448次

微观经济学指出，比起让大多数成员来执行要在该系统中存在所必需的活动，基于专业分工的系统生产力更高。换句话说，对于每个任务，全能的人的生产力比不上专门从事特定任务的人。这称为比较优势 — 如果一个人相当精通某种服务，而不熟悉其他服务，他在提供这种服务方面就具有优势。专业分工可以促进特定技能的提升。（Robert Frank 和 Ben Bernanke 所著的 Principles of Microeconomics 很好地论述了这一现象；有一个故事说，Peace Corps 的一位志愿者在尼泊尔雇佣了一位名叫 Birkhaman 的厨师；这位厨师几乎无所不能；从宰羊到修理闹钟，他什么都会干。在尼泊尔，即使是水平最低的工人也能够提供很多种服务。）

云计算就是比较优势原理的直接示例。在本文中，我将讨论 MapReduce 编程(www.cppentry.com)模式（最初为对并行的复杂性进行抽象而设计）为什么非常适合云计算，尤其是在处理涉及大量数据的问题时。

通过让把两个数字相加的位置变得透明和不相关，可以在 MapReduce 抽象的基础上完美进行云计算。在研究示例之前，我们先看看 MapReduce 为什么很成功。

为什么要在云中使用 MapReduce

MapReduce 编程(www.cppentry.com)模式是在 Google 开发出来的。Google 工程师发表的文章 "MapReduce: Simplified Data Processing on Large Clusters" 清楚地解释了 MapReduce 的工作方式。这篇文章导致的结果是，从 2004 年到现在出现了许多开放源码的 MapReduce 实现。

MapReduce 系统获得成功的原因之一是，它为编写需要大规模并行处理的代码提供了简单的编程(www.cppentry.com)模式。它受到了 Lisp 的函数编程(www.cppentry.com)特性和其他函数式语言的启发。

现在，讨论 MapReduce 和云计算为什么非常相配。MapReduce 的关键特点是它能够对开发人员隐藏操作并行语义 — 并行编程(www.cppentry.com)的具体工作方式。

即使您的公司拥有数千台计算机（这几乎不可能），这个特点也非常有意义。即使组织有多余的处理能力，要想在组织内建立网格，也常常要克服许多技术、行政和后勤障碍。

分布式计算中的 Erlang

云计算的潮流催生了许多新东西，包括 Erlang。Erlang 是一种独特的编程(www.cppentry.com)语言，它提供了用来描述操作系统的许多特性。这些特殊的特性让它成为构建大型分布式系统的理想语言。很自然，许多分布式算法的 “云” 实现都是用 Erlang 编写的，比如 CouchDB 或 Disco。甚至在云这个词出现之前，就已经使用 Erlang 构建云系统了。

突然之间，云计算成了非常引人注目的思想。

有了云，开发人员就可以通过编写脚本供应任意数量的计算机，运行 MapReduce 作业，而且只按照使用每个系统的时间付费。使用时间可以是 10 分钟，也可以是 10 个月，无论是哪种情况，都同样简便。

这种模式的精彩案例出现在 Yelp（"Real people. Real reviews®: A review site for local businesses"）。在此公司的工程博客上，最近发表了一篇关于如何使用 MapReduce 增强特性的文章，题目为 “People Who Viewed This Also Viewed...”。这是一个典型的 Big Data 问题，因为 Yelp 每天生成 100GB 的日志数据。

工程师最初建立了自己的 Hadoop 集群，但是最终他们编写了自己的 MapReduce 框架 mrjob，它在 Amazon 的 Elastic MapReduce 服务上运行。Yelp 的搜索和数据挖掘工程师 Dave M 说：

“我们如何增强 People Who Viewed this Also Viewed... 特性？正如您所猜测的，我们使用 MapReduce。MapReduce 是把大任务分解为小任务的最简单的方法。Mapper 读取输入行并返回 (key, value) 元组。把每个键和对应的所有值发送给一个 Reducer ... 我们在 mrjob Python 框架中编写了这个简单的 MapReduce 作业，它执行单词频率统计。

”

Dave M 还说：

“我们以前所做的像许多公司一样运行 Hadoop 集群一样 ... 当我们把代码放到 web 服务器上时，就已经把它送到 Hadoop 计算机上。

这不错，因为我们的作业可以引用代码库中的任何其他代码。

这也很不好。在把作业放进生产环境之前，根本无法确定它是否有效。最糟糕的是，我们的集群在大多数时候空闲着，甚至时常出现一个非常大的作业，会占用所有节点，所有其他任务不得不等待。”

在 Amazon 云上运行的 MapReduce 帮助 Yelp 淘汰了 Hadoop 集群。经过一年时间，Yelp 的 mrjob 框架现在非常稳定了，所以 Yelp 现在在 GitHub 上共享它。

云计算和 MapReduce 的组合看起来非常适合处理 Big Data 作业。现在，讲解如何处理大量日志数据。

真实环境中的日志文件处理

许多人都要面对的一个真实问题是如何处理大量日志数据。清单 1 中的代码示例（也可以下载）演示我如何只使用 Python 的多处理模块汇总 6.3GB 的 Internet Information Services (IIS) 日志文件。在一台 MacBook Pro 笔记本上，它只用大约 2 分钟就运行完了，结果是生成了最常出现的 25 个 IP 地址。

清单 1. 使用 Python 的 MP 模块汇总 6.3GB 的日志文件

Code Listing: iis_map_reduce_ipsum.py """N-Core Map Reduce Log Parser/Summation""" from collections import defaultdict from operator import itemgetter from glob import glob from multiprocessing import Pool, current_process from itertools import chain def ip_start_mapper(logfile): log = open(logfile) for line in log: yield line.split() def ip_cut(lines): for line in lines: try: ip = line[8] except IndexError: continue yield ip, 1 def mapper(logfile): print "Processing Log File: %s-%s" % (current_process().name, logfile) lines = ip_start_mapper(logfile) cut_lines = ip_cut(lines) return ip_partition(cut_lines) def ip_partition(lines): partitioned_data = defaultdict(list) for ip, count in lines: partitioned_data[ip].append(count) return partitioned_data.items() def re

首页上一页 1 2 下一页尾页 1/2/2
【大中小】【打印】【繁体】【投稿】【收藏】【推荐】【举报】【评论】【关闭】【返回顶部】

上一篇：将您的 web 应用程序转化为多租户..	下一篇：云计算基础