点击上面的链接文字,可以快速关注“东方云洞察”公众号
今天正好接受了一个媒体访谈,也趁这个契机把云计算洞察领域的内容扩充一下,以后会花些精力给大家介绍一下大数据领域的东西。

以下摘自CSDN媒体访谈稿件,过两天大家就会看到上线,今天我就先发了。
大数据经过几年的市场预热,目前应用案例已经逐步丰富起来,热度逐步上升。今天有幸我们请到了引跑信息科技有限公司(以下简称引跑科技)的副总裁,张晓东先生做一个访谈。张总在数据领域从业多年,以前在 IBM、Oracle、华为等公司工作多年,担任了数据库技术专家、资深云架构师、战略部高级总监等职位。从业经历丰富,今天有幸能与张总交流,非常难得。
?
?
下面我们以问答的形式来了解一下引跑科技公司在大数据的成功经验。
?
1. 张总,请先自我介绍下、所在公司以及负责领域。
?
大家好,我是张晓东,在引跑信息科技有限公司负责解决方案销售和市场营销相关的工作,今天很高兴能有机会给大家介绍一下引跑公司的大数据平台及相关产品,并分享一下个人对这个领域的一些看法。大数据很火,未来几年还将继续火下去,就像3年前的云计算一样,我们都知道云计算现在已经从炒作概念,到了实际落地阶段,谁干的怎么样市场已经给出了初步的答案。
大数据处在概念炒作的晚期,市场应用预热的早期,所以未来几年对于大数据我们应该投入更多的关注。
?
引跑公司在2008年成立,是由我们的创始人杨素东整合了一些来自国外Google、HP实验室的一些人才和力量构建的,杨总也获得了国家千人计划、中国云计算专家委员会等一系列荣誉。公司主要专注于做技术,以前和EMC、HP等公司有一些合作,并没有特意的在国内宣传,所以大家对我们不是很熟悉。目前我们拥有近300人的团队,其中75%是研发人员。
引跑科技是全球领先的云计算技术与服务提供商,拥有大数据平台(EngineOne)、虚拟化平台(ScaleOne)、云应用平台(AppOne)、云管理平台(MasterOne)四大平台产品及不同行业云解决方案,并拥有多项核心发明专利与软件著作权。
一下子说这么多名词大家可能有点晕,简单来说,我觉得引跑科技最核心的竞争力就是我们的并行分布式数据库产品DBone和分布式存储Storeone。在这两块领域,我们有信心和全球最顶尖的企业竞争。

?
2. 你们是基于什么样的机缘开发出引跑DBone的?
?
DBone是在我们老板杨素东的带领下开发出来的产品,他在美国留学和工作期间,和一些Google的朋友一起想做一些音频、视频分析的项目,结果数据量很大的时候传统的数据库无法支撑,不得已只好借鉴Google的分布式数据库架构,开始了分布式数据库的探索和实践。
2008年杨总带领一些核心的团队成员回国创业,并专注在分布式数据库、分布式存储方面。经过这些年的打磨,已经成为一个完全自主产权的分布式数据库商业产品,可以作为国内自主可控的大数据基础平台。
?
3. DBone是款什么样的数据库?具有哪些特性?与其他同类数据库相比有哪些优势?
?
总体而言,DBone是一款MPP架构的分布式数据库,按照传统的数据库分类来说是一款基于ShareNothing架构的数据库产品。
MPP架构是一种无共享架构设计,MPP无共享架构是最易于扩展的架构,是云数据库和数据分析的最佳选择;通过MPP共享架构可以提供自动化的并行处理机制,使数据分布在所有的并行节点上,每个节点只处理其中一部分数据;MPP无共享架构是当前最优化的I/O处理架构,所有的节点同时进行并行处理,节点之间完全无共享,无I/O冲突;MPP无共享架构增加节点实现线性扩展,增加节点可线性增加存储、查询和加载性能。
DBOne分布式数据库系统的高性能得益于其良好的体系结构。在DBOne系统中,每个分布式数据存储节点也可以运行自己的操作系统、数据库等。换言之,每个节点内的 CPU 不能访问另一个节点的内存。 DBOne与传统的SMP架构数据库明显不同,通常情况下,DBOne系统中不存在共享资源,因此对它而言,可以使用的资源比传统SMP数据库系统要多,当需要处理的事务或数据达到一定规模时,DBOne的效率要比传统数据库高几倍甚至几十倍。
我给大家提供几个图吧,更容易理解。DBOne分布式数据库通过MPP无共享架构把数据库表内数据行尽可能的均匀分布到每个节点。

?
下图说明了DBOne分布式数据库系统大规模数据存储的基本原理和方法。

?
引跑的分布式数据库产品竞争对手主要是以Oracle Exadata、SAP HANA等产品为目标。适合的应用场景也主要以大数据分析为主,这种架构能够很好的解决超大表的查询、以及PB级别数据处理的性能问题,并能兼顾分布式事务处理的需求,当然强分布式事务的能力可不是哪个MPP数据库都具备的,引跑的DBone在这个领域还是很有核心能力的。
相对于Hadoop等开源大数据处理解决方案,引跑的EnginOne大数据整体解决方案,能够很好的支持上亿级大表的嵌套查询,3-4层的嵌套查询能够很好的支持,通过两阶段提交的方式, 能很好的支持强事物。下面的表格列出了我们的大数据平台和Hadoop2.0为核心的解决方案对比。

?
4. 该数据库其架构是怎样的?有开源技术吗?
?
DBOne分布式数据库是一个弹性的、高性能、高可靠性,支持多应用、事务处理的分布式关系型数据库系统,支持热迁移、热备份、热恢复,提供标准的JDBC,ODBC, JSON, OGC等接口,或查询服务器(QueryServer)模式,支持所有主流应用开发语言如Java, C#, C, C++, Python, Perl等。
DBOne分布式数据库提供一站式数据库管理工具,方便客户对数据库的部署、迁移、备份、恢复、容灾等常用操作。同时可用于OLTP、OLAP类型的应用,可管理海量的结构化、半结构化、地理空间数据,同时拥有弹性扩展的能力。
架构如下图所示,大体上讲就是一个引擎层进行统一管理和调度,其负责SQL解析、优化、路由、分发、合并等操作, 同时将底层的众多存储节点管理起来。分布式存储节点使用引跑自行设计和完全自主可控的IDB(Intple DB)关系型数据库产品,每个数据服务节点处理具体的数据相关操作。

早期我们借助了一些开源数据库产品的实现架构和部分功能代码,例如PostgreSQL、MySQL数据库等。分布式存储方面对于谷歌的GFS架构也有一定的参考,但是代码都是我们经过几年的不断改进积累下来的,目前已经完全实现的自主可控,在某些军方项目上都严格的做过和开源软件的代码比对,这对我们是最好的肯定。
?
5. 在开发DBone过程中有没有遇到难点?是如何解决的?
数据库作为一个基础平台,需要适配上层的应用,底层需要和操作系统、存储、硬件等进行适配,所以DBone的开发过程中有很多繁琐的工作要去做,需要不断的试验和修订才能更好的适配上下两层。最终我们提供了对业界开放标准的完全支持,例如:JDBC,ODBC,JSON, OGC等接口,或查询服务器(QueryServer)模式,支持所有主流应用开发语言如Java, C#, C, C++, Python, Perl等。
另外一个问题就是性能问题,DBone是通过一个引擎层作为上层的核心,客户的请求通过智能路由转发,自动的发送到