MongoDB MapReduce 性能提升20倍的优化宝典 - c++编程基础

"reduce" : 250364,
"output" : 250255
},
"ok" : 1
}
...

所需时间减少到了100秒，这意味着与一个单独的线程相比，速度约提高2倍。尽管不如预期，但已经很不错了。在这里，我使用了4个核心，只提升了2倍，如果使用8核CPU，大约会提升4倍。

使用纯JavaScript模式

在线程之间分割输入数据时，有一些非常有趣的东西：每个线程只拥有约25万主键来输出，而不是100万。这意味着我们可以使用“纯JS模式”——通过jsMode:true来启用。开启后，MongoDB不会在JS和BSON之间反复转换，相反，它会从内部的一个50万主键的JS字典来reduces所有对象。下面来看看该操作是否对速度提升有帮助。

代码
> var mapred = function(min, max) {
return db.runCommand({ mapreduce: "uniques",
map: function () { emit(this.dim0, 1); },
reduce: function (key, values) { return Array.sum(values); },
out: { replace: "mrout" + min, db: "mrdb" + min },
sort: {dim0: 1},
query: { dim0: { $gte: min, $lt: max } },
jsMode: true }) }
> threads = []; for (var i = 0; i < numThreads; ++i) { var min = (i == 0) 0 : keys[i * inc].dim0; var max = (i * inc + inc >= keys.length) MaxKey : keys[i * inc + inc].dim0 ; print("min:" + min + " max:" + max); var t = new ScopedThread(mapred, min, max); threads.push(t); t.start() }
min:0 max:274736
min:274736 max:524997
min:524997 max:775025
min:775025 max:{ "$maxKey" : 1 }
connecting to: test
connecting to: test
connecting to: test
connecting to: test
> for (var i in threads) { var t = threads[i]; t.join(); printjson(t.returnData()); }
...
{
"result" : {
"db" : "mrdb274736",
"collection" : "mrout274736"
},
"timeMillis" : 70507,
"counts" : {
"input" : 2500013,
"emit" : 2500013,
"reduce" : 250156,
"output" : 250255
},
"ok" : 1
}
...

现在时间降低到70秒。看来jsMode确实有帮助，尤其是当对象有很多字段时。该示例中是一个单一的数字字段，不过仍然提升了30%。

MongoDB v2.6版本中的改进

在MongoDB v2.6版本的开发中，移除了一段关于在JS函数调用时的一个可选“args”参数的代码。该参数是不标准的，也不建议使用，它由于历史原因遗留了下来（见SERVER-4654）。让我们从Git库中pull最新的MongoDB并编译，然后再次运行测试用例：

代码
...
{
"result" : {
"db" : "mrdb274736",
"collection" : "mrout274736"
},
"timeMillis" : 62785,
"counts" : {
"input" : 2500013,
"emit" : 2500013,
"reduce" : 250156,
"output" : 250255
},
"ok" : 1
}
...

从结果来看，时间降低到了60秒，速度大约提升了10-15％。同时，这种更改也改善了JS引擎的整体堆消耗量。

结论

回头来看，对于同样的MR任务，与最开始时的1200秒相比，速度已经提升了20倍。这种优化应该适用于大多数情况，即使一些技巧效果不那么理想（比如使用多个输出dbs /集合）。但是这些技巧可以帮助人们来提升MR任务的速度，未来这些特性也许会更加易用——比如，这个ticket 将会使splitVector命令更加可用，这个ticket将会改进同一数据库中的多个MR任务。

MongoDB MapReduce 性能提升20倍的优化宝典 (三)