C++ AMP异构并行编程解析 - c++编程基础

; i < 5; i++) {
std::cout << sum[i] << "\n";
}
}
从这个例子我们可以看到，使用C++ AMP进行异构多线程编程确实是很容易的。开发者如果熟悉C++的话，一般只需要很短的时间就可以上手实现相应的功能。
CUDA、OpenCL与C++ AMP
其实在C++ AMP之前已经有了两个异构编程框架：CUDA与OpenCL。CUDA（Compute Unified Device Architecture）是显卡厂商Nvidia于2007年推出的业界第一款异构并行编程框架。在Nvidia的大力支持下，CUDA拥有良好的开发环境，丰富的函数库，优秀的性能。但是CUDA只能被用于在Nvidia的显卡上进行异构编程，有先天的局限性。OpenCL (Open Computing Language) 是业界第一个跨平台的异构编程框架。它是Apple领衔并联合Nvidia，AMD，IBM，Intel等众多厂商于2008年共同推出的一个开放标准，由单独成立的非营利性组织Khronos Group管理。与C++ AMP类似，OpenCL作为一个开放的标准，并不局限于某个特定的GPU厂商，从这点上来看，Nvidia自己独家的CUDA显得很封闭。我们可以把OpenCL在异构编程上的地位与OpenGL和OpenAL类比，这两个标准分别用于三维图形和计算机音频。
因为CUDA与OpenCL比C++AMP更接近硬件底层，所以前两者的性能更好，然而与C++ AMP的易编程性却要优于CUDA和OpenCL。与C++ AMP基于C++语言特性直接进行扩展不同，OpenCL是基于C99编程语言进行的相关修改和扩展，因此C++ AMP比OpenCL拥有更高层次的抽象，编程更加简单。在CUDA和OpenCL中，kernels（运行在GPU上的代码）必须被封装成特定函数，而在C++ AMP中，代码看起来整洁的多：我们只需要使用for循环中内嵌的lambda函数就能完成异构并行计算，而且它的内存模型也在一定程度上被大大简化了。

那么在OpenCL、CUDA 与C++ AMP之间，开发者该如何选择呢？
1）如果你只需要在Windows平台上进行异构编程，并且看重易编程性的话，C++ AMP无疑是最好的选择。依托于Visual Studio这个强有力的开发工具，再加上基于C++这一更高层抽象带来的先天优势，C++ AMP将为Windows开发者进行异构编程提供良好的支持。
2）如果你只需要在Nvidia的GPU卡上进行异构编程，并且非常看重性能的话，CUDA应该是第一选择：在Nvidia的强力支持下，CUDA在Nvidia硬件上的性能一直保持领先，许多学术研究表明OpenCL与CUDA的性能相差不大，在一部分应用中CUDA的性能稍微好于OpenCL。同时CUDA的开发环境也非常成熟，拥有众多扩展函数库支持。
3）如果你更注重不同平台间的可移植性，OpenCL可能是目前最好的选择。作为第一个异构计算的开放标准，OpenCL已经得到了包括Intel，AMD，Nvidia，IBM，Oracle，ARM，Apple，Redhat等众多软硬件厂商的大力支持。当然，C++ AMP本身也是一个开放的标准，只是目前只有微软自己做了实现，将来C++ AMP的跨平台支持能做到什么程度还是一个未知数。
其实从编程语言的发展来看，易编程性往往比性能更加重要。从Java和.Net的流行，到脚本语言的崛起，编程效率无疑是最重要的指标。更不用说开发者往往可以通过更换下一代GPU硬件来获得更好的性能。从这点来看，C++ AMP通过降低异构编程的编程难度，实际上也是推进了异构编程的普及。下面我们需要看的就是C++ AMP是否能成为真正的业界标准，而不仅仅局限于微软自己的平台，微软这次开放C++ AMP标准的行为也正是为了推广C++ AMP在业界的普及。
总结
目前整个业界的异构硬件体系结构仍然处于快速演变之中。可以看到，许多厂商的处理器正在尝试融合CPU和GPU（例如AMD的Fusion，Intel的Larrabee和Nvidia的Tegra3都融合了CPU和GPU）。如果将来的处理器上集成了CPU和GPU，并通过同一条总线使它们与内存直接相连的话，我们就不需要向今天这样把数据在CPU和GPU之间搬来搬去了。随着异构硬件的发展，与之相对应的异构编程框架在需要随着演变。可以预见，今天我们看到的CUDA，OpenCL和C++ AMP都只处于一个初期形态，将来它们还会有很多新的变化。但是有一点我们可以肯定：将来的异构编程一定会比现在更加容易。

作者 Guancheng

C++ AMP异构并行编程解析(二)