引跑科技副总裁张晓东:引跑DBone数据库助力大数据建设(二)

2015-07-21 16:25:53 · 作者: · 浏览: 1
相应的数据处理节点上。原理上虽然简单,但是涉及到高负载、大数据量的时候,处理效率的高低是最关键的技术难点,这其中涉及到很多的算法实现、优选以及通过发现问题,而解决问题的痛苦过程。

我们的研发团队对于这些问题的解决,主要是两个方式:1、学习和参考业界最新的算法实践、技术和解决方案,内部研讨适合我们的最佳方案,以改进性能问题。2、通过系统性思考解决实际问题,而不是仅仅为了攻克一个技术难关花费太多宝贵的时间和精力。对于我们这样一家300人的小公司而言,如何最高效的解决客户的问题才是最关键的。

我举个简单例子,在并行分布式数据库架构中扩展性是非常重要的功能,当新添加物理节点后,Shard数据重分布的效率问题一直是非常头疼的问题。我们在算法上做了优化,能够保证可移动的数据量最小,从而减少了时间。但是,这对高并发、负载很高的某些用户场景而言,还是不够。所以我们又从整体出发,在实例级别做了优化,通过整体拷贝的方式,优化一般算法情况下大量Shard中数据都需要重分布引起的性能问题。

?

6. DBone在国内外使用场景如何?可否列举一二。

目前DBone主要应用于大数据分析场景,例如电信公司的历史话单和网元数据分析,从而识别用户画像,为精准营销服务。银行系统的征信分析和用户欺诈等风险分析都会需要DBone这样的大数据平台做支撑。

对于某些用户业务系统构建在Oracle多节点RAC之上的应用场景,我们会通过DBone的分布式数据库和用户生产系统进行连接,搭建双活集群,主要分担其中的分析型任务,甚至在外地城市构建异步双活容灾系统,这样使得客户的业务系统能够比较平滑的进行迁移。

近两年,政府大数据的分析应用逐步热闹起来,我们也在广东核高基项目、杭州政务云、气象局等领域有项目实践。预计未来的1年内大数据应用的热潮将更加繁荣,会给类似于引跑科技公司这样的大数据厂商提供更多的机会。

?

7. 公司未来有什么规划吗?

公司的核心产品是并行分布式数据库和分布式存储,在这个基础上构建整体的大数据竞争力,这几年通过客户项目的积累,逐步发展了一些应用层面的产品,例如日志管理、舆情分析、企业安全网盘、内容管理等。在底层我们也有相应的硬件虚拟化产品和云计算解决方案。

未来公司主要聚焦点还是在大数据基础架构解决方案层面,会紧密的团结很多ISV合作伙伴,共同做大数据市场。在硬件方面我们也是以合作为核心,2015年初,基于H3C的服务器推出了引跑大数据一体机,将来这仍然是我们的市场拓展重要方式,目前曙光、浪潮等国内知名服务器厂商都是我们重要的合作伙伴。

8. 很多会人说数据库分久必合,合久必分,对此你是怎么看待的?

合久必分、分久必合貌似来源于国家和社会的变动规律。对于具体技术领域而言,这么说也不一定适合。就拿数据库领域数据的构建方式ShareNothing和Share Everything来说,以前一直是并行发展的两种架构,分别适用于OLAP和OLTP场景,然而现在随着硬件的进步,原有的架构模式也需要与时俱进,这泾渭分明的两种实现方式,目前也在融合。对,就是融合。

OracleRAC为例,以前一直是共享存储的模式,比较适合于OLTP的场景。而Exadata在原有RAC基础上做了一些革新,其存储采用了半分布式架构,其存储的服务器和MPP存储实现模式很像,计算式分开的,最终汇总对上层RAC提供看似统一的共享存储。

?

我个人的观点来看,我觉得未来ShareNothing的架构将会发展的更加快速,并会逐步侵蚀OLTP的领域,这主要得益于硬件处理能力的进步,而成本降低很多。另外一个就是大数据浪潮使得传统的数据库实现架构无法满足大数据量的处理要求,无法满足客户的业务需求。需求是推动技术进步的最佳驱动力

?

所以从集中式和分布式这两个角度来看,我认为未来分布式的发展机遇更加大。它们之间会有一些相互借鉴和融合,但是未来3-5年不会有分久必合的状况。分布式架构具有更好的可扩展性,对基础软硬件的可靠性、可用性依赖度更低,可以采用更加开放、廉价的产品构建。但我们也要看到其给应用设计、研发、运维管理所带来的挑战。

?

最后,我想说,越来越多的公司在大数据领域寻找发展的机会或是提升运营的效率,这说明企业有着向数据驱动的商业模式转型的需要。所以,大数据时代的企业应该采取以下的公式:新技术+新观念+商业转型=大数据策略。大数据技术和商业的结合刚刚开始,未来的发展非常值得期待。