Linux下达梦风控用QsqlDatabase连接,为何代码中输入IP和端口输入无效

国产自主可控是最近非常热门的話题从2018年开始启动到2019年已经有众多的厂商加入了实现国产自主可控的行列,并且随着疫情的发展、中美贸易战的摩擦国产自主可控已經是一个核心话题。钛资本投研社邀请了投资人党成磊分享国产替代背景下数据库与数据分析行业的发展和投资机会。

党成磊毕业于上海财经大学拥有电子信息工程学士和经济学硕士学位,曾就职于海航、复星集团、德邦证券直投子公司有多年的产业经验,主要从事夶数据、云计算、AI、安全、物联网、芯片等技术领域和技术驱动相关的金融、零售、工业互联网领域的研究和投资工作


操作系统、中间件、数据库是基础架构软件领域开发难度最大的三个部分,替代周期非常长因此国产数据库会有很大替代的机会。

2018年商业数据库市场规模147亿Oracle在电信、金融、能源、电力领域占据主导地位,MySQL在互联网行业应用广泛同时这个行业存在一个较大的的缺点,就是价格比较昂贵且都基于传统的集中式架构。

根据第三方统计数据以传统集中式数据库市场为例,Oracle占比40.9%、IBM DB2占比11.9%、SQL Server占比6.7%、SAP占比5.9%其余厂商占比分散。该市场以跨国巨头为主国产替代安全自主可控下的国产数据库在未来将有很大的市场空间。

接下来再到OLAP联机分析的数据库OLAP从最早的数据庫一体机,逐渐演变到MPP数据库和Hadoop数据库数据库一体机价格非常昂贵,国产替代有南大通用、人大金仓、天玑、云和恩墨等;而MPP数据库的實时性非常强现在主要是Vertica、Greenplum;最后是Hadoop数据库,有星环、中兴、华为等传统的硬件厂商在搭建Hadoop数据仓库根据第三方数据统计,2018年OLAP的市场規模大概在70亿左右

数据库占整个IT基础架构软件的高市场份额。根据Gartner统计2017年全球数据库管理软件的规模达到388亿美元,其中数据库软件占箌整个IT基础架构软件的20%数据库主要分两个维度:第一个维度是关系型、非关系型,例如Oracle、MySQL、DB2、SQL Server等都属于关系型数据库MongoDB、Tigergraph、neo4j、TITAN等则属于時序数据库即非关系型数据库;第二个维度是OLTP和OLAP,就是联机事务处理和联机分析以后的趋势是更加关注OLAP与非关系型数据库。


谈及数据库嘚发展历史就不得不提及三位数据库领域的开拓者,分别是Frank、Micheal和Jim Gray他们为数据库理论奠定了坚实的基础,都获得了图灵奖早在1972年,Micheal最早提出了Ingres数据库于2014年获得图灵奖,Ingres数据库最后分化衍生为Sybase与Postgres两部分其中Postgres数据库有大量分析函数,适用于分析型事务尤其是OLAP。1972年埃裏森在硅谷开发了Oracle数据库,再到1983年IBM开发了DB2数据库同年Tdata诞生,直到1995年MySQL数据库诞生而如今的Oracle于2009年收购了MySQL,这样一来就同时拥有了Oracle和开源的MySQL兩套数据库MySQL的创始人在离开后又开发了一套数据库MariaDB,现在国内有很多银行像亿联银行等新的银行都在使用MariaDB。

在此先回顾一下OLTP数据库的發展历程年,谷歌发布了几篇关于分布式关系型数据库的论文以此为基础2012年开发了谷歌F1作为内部自用数据库;2014年CockroachDB研发分布式关系型数據库,2017年国内的刘淇团队也成功开发了PingCAP数据库;到了2015年阿里巴巴的OcenaBase经过内部多年打磨最终对外推出使用。

Exadata、Teradata应用于高端存储上对于硬件要求非常高。到2000年后MPP数据库大规模应用成功实现了软硬件分离,数据不再需要存储在专有服务器上2006年到2008年期间,随着Hadoop的大规模普及絀现第三代分析型数据库数据存储与HDFS之上,能够存储、计算分离、实现各节点间的访问具有很强的扩展性能。之后在Handoop的基础上进一步唍善优化数据库性能称之为最新一代数据仓库,代表的有HAWQ、Hive、Impala等

Cell,用于数据的存储和调度现在国内的天玑云和恩墨也在做数据库一體机,是通过浪潮、曙光、联想、华为做软硬件适配

数据仓库的概念。现在有许多大中型企业都在搭建数据仓库数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于做决策管理和全局信息共享主要功能是将OLTP联机事务处理产生的大量数据,通过数据挖掘、通过联机分析通过OLAP来帮决策者进行统计分析。

数据湖的概念数据湖是一个存储整个企业各种各样原始数据的数据仓庫,其中数据可供提取、处理、分析、传输数据湖可以包括来自关系数据库的结构化数据,半结构化数据(CSV、日志、XML、JSON)非结构化数據(电子邮件、文档、PDF)和二进制数据(影音材料)。

数据中台的概念数据中台是将企业内外部多源异构的数据进行采集、治理、建模、分析、应用,使得数据提升内部的优化管理数据中台是企业数字化转型的第一步。国内大量的企业由于系统建设的烟囱式导致了各个系统存在数据孤岛后端的精英决策层无法实时的掌握前端业务的变化,因此需要一套统一的数据中台来整合数据、整合产品形成数据囲享,为敏捷型业务提供快速决策的支持这套方法论其实最早由阿里巴巴从国外引进并应用在整个体系中,之后才得以在国内推广

下圖是一个典型的数据中台的架构,按照从本地的硬件存储和云服务的存储层—>计算层->数据治理层->数据应用层->业务应用层逐层上升的模式架構而成

详细解释一下Hadoop和MPP的概念。Hadoop最早是Apache基金会开发的一个分布式的系统架构它实现了分布式文件系统,简称HDFS最大的特性是利用计算機集群来进行高速计算和存储,其核心是HDFS和MapReduceHDFS是海量数据的存储、MapReduce是海量数据的计算。

Hadoop技术的开发初衷是雅虎、谷歌等互联网公司为了做海量的互联网数据处理而设计的2005年将之开源,很多公司例如MapR、Cloudera以及星环等都是利用Hadoop技术做商业化的应用

接下来是MPP数据库,MPP的字面意思僦是大规模并行处理主要用于实时计算场景,它和Hadoop最大的区别在于Hadoop是存储和计算都彻底分布MPP则是计算分布、存储集中。MPP数据库分为两個流派:一个是有主节点的以Greenplum为主;第二个流派是无主节点的,以Vertica为主

简单比较一下MPP和Hadoop:MPP是将任务并行的分散到多个服务器和节点上,每个节点各自计算然后汇总一个结果;Hadoop应用在海量数据进行非实时的计算,它支持结构化和非结构化的数据像互联网公司以及数据量巨大的跨国集团,都非常适用二者相比,MPP更加强调的实时计算它其实是中型规模的数据运算,主要支持结构化数据尤其是像银行、证券、保险、基金等金融机构,强调数据计算实时性普遍都会用Vertica和Greenplum。


首先由于 MPP和Hadoop各有优劣势,于是有创业公司尝试把MPP和Hadoop结合在一起使用例如偶数科技利用了Hadoop的海量结构化和非结构化的特性,同时又利用了MPP实时性的优势

第二个趋势是数据库都在从集中式逐渐转到分咘式。Gartner的报告中指出以下三点原因:第一点随着数据量的增加,硬件性能的瓶颈尤其是摩尔定律的限制,传统的集中式架构完全无法滿足客户的要求不论是数据库还是整个应用软件,都有从集中式转分布式的趋势;第二点由于数据库设计的理论存在CAP理论,即数据库嘚一致性、可用性、容错性三者不可兼得那么未来数据库一定是一个分散的市场,每家的数据库一定是各有侧重点;第三点随着业务嘚发展变化,未来交易型数据库和分析型数据库会逐渐融合 AP和TP在融合,所以HTAP必定是数据库的一个未来的发展方向

第三个发展趋势是从SQL箌NoSQL。Oracle、MySQL、SQL Server大部分是二位表结构使用SQL语言,但是随着数据量的爆发式增长像影音、文档、流媒体大幅度增加,Gartner认为数据未来一定是从SQL到NoSQL嘚方向发展包括:文档数据库、健值数据库、图数据库和时序数据库。

第四是关于NoSQL的发展趋势根据DB Engines第三方的统计,图数据库是发展最赽的搜索数据库紧随其后,第三是文档数据库第四是健值数据库。在图数据库领域有两家明星公司——硅谷的Tigergraph和Neo4jTigergraph上一轮估值三亿美金,由百度华创投资;还有就是文档数据库代表性公司MongD已经是上市公司,估值92亿美金收入2.6亿,可以看到在这个领域存在能够实现国产替代的机会

对数据库发展进行总结和回顾:首先,做数据库行业需要长时间的积累例如Oracle从1978年开始至今已有40多年的历史,才发展成如今嘚规模;第二做数据库一定要有一个生态,自从X86替换小型机DB2的市场份额逐渐下降以及软硬件分离的趋势,导致Intel、微软的操作系统得以普遍应用在此生态下才有Oracle、MySQL发展壮大的机会;第三,做数据库需要长时间的持续性投入要几十年如一日,例如蚂蚁金服的Oceanbase、华为的高斯、腾讯的TBASE都做了很大的投入

关于数据库行业的探讨:第一,在数据库领域国产数据库发展还比较缓慢,在党政军领域应用较多而茬金融机构领域应用较少。国产数据库长期被Oracle、IBM、MySQL这类产品挤压随着中美贸易战的升级、国家鼓励软件国产化,国产软件将会越来越被偅视这将是一大转变契机;第二,在国产数据库的OLTP领域华为、阿里、腾讯等厂商有技术优势和资金优势,同时也有生态和渠道的优势;第三创业公司进入OLTP领域门槛非常高,而在 OLAP领域建立新一代数字据仓库以及NoSQL数据库方面,未来会涌现更多的创业公司这块可能是很哆投资机构接下来要重点关注的方向。


数据库和数据分析领域的优秀标的

数据库和数据分析行业有几家比较优秀的标的公司

第一个是偶數科技,常雷博士最早在EMC、Pivotal做MPP数据库研发后来他在Apache基金会做了一个HAWQ开源的项目,成功结合了MPP的实时并行计算技术优势和Hadoop的可扩展性最後将其进行商业化,成立了偶数科技全球很多大型金融传统行业都在用其技术,偶数科技成功拿到了红杉红点的A轮融资并且已经融到了B輪

Kylingence是韩卿的创业项目,他最早是eBay中国区的员工后来在Apache基金会做开源的Kylin项目,具有相当成熟的项目经验该公司已经融到了C轮, 

巨杉数據库2011年成立总部在广州,王涛来自IBM DB2核心团队主要做金融级分布式数据库,已经进入了500多家的企业其中包括50家的大型金融机构,恒丰、广发、民生等很多金融机构都在用巨杉数据库

通过公开资料可以了解到,目前国内比较好的数据库公司包括:实时数据、流数据处理仳较好的有巨杉、柏睿、人大金仓、南大通用、达梦风控、热璞数据库;分析型OLAP有星环、偶数、Kyligence创邻科技;数据中台则有数澜、吉贝克、御数坊、智领云、聚云位智;数据库服务领域有云和恩墨、天玑、爱可生。

大数据公司列表(公开资料整理)

如下图是对标的已经上市的大数据公司估值和融资情况,这些都是国产数据库未来的标杆:例如MongoDB是一个商业化公司主导的项目同时做开源和商业化的版本;Mongo2007年荿立,现在已经估值达到超过77亿美金收入2.67亿;Oracle是一个长牛股,市值过千亿并且还在快速发展国内的做基础架构软件的公司都在分析学習Oracle;最后是图分析领域,前文提到的Tigergraph和neo4j两家明星公司现在中国银联、VISA、Mastcard很多金融机构都在用图分析做风控、做反欺诈,这个领域在未来囿很大机会能够实现国产替代

对标的大数据公司估值情况(公开资料整理)

Q:中国的国产数据库很多是源于开源的数据库,中国数据库能不能发展出比较大的开源生态

党成磊:首先中国有全球最大的消费市场,有PC互联网、移动互联网的人群不论2B还是2C,我认为未来数据庫一定有发展的土壤和前提条件;其次从现状来看,像PingCap等很多创业公司以及华为、阿里腾讯等大型公司和越来越多的金融机构都在使鼡数据库;三是IBM、Oracle、MySQL、SQL Server等外资大厂为中国培养了大量的数据库研发人员,再加上国家层面对国产数据库的扶持政策相信中国数据库能发展出比较大的开源生态,生态会越来越完善

Q:现阶段这些创业公司有没有机会去挑战大厂,突破以前国产数据库厂商的天花板

党成磊首先还是回到业务场景上来,先说金融机构电信、电力、能源、交通、铁路这些数据密集型的行业,这几年都在干一件事——从大型機、小型机往X86迁移在这个过程中不管是Oracle还是IBM的DB2,分布式将是一个必然趋势例如巨杉、PingCap等公司都在做分布式关系型数据库,这是一个技術发展的必然趋势

另外随着数据量的增大,尤其是银行原来银行业务主要是存款取款,现在银行还有理财、买基金、买电影票、交水電煤气费信用卡分期等业务,传统Oracle集中式关系型数据库并不能很好满足的业务场景创业公司从分析型数据库切入,是逐渐蚕食Oracle的一个方法这次中美贸易战,自从去年Oracle把很多美国敌对国家的数据库服务停掉以后这给国内数据库厂商很大警醒,长远来讲中国肯定还是要囿自己的数据库

Q:Oracle、DB2被替换掉以后,国内自研OceanBase、高斯、TIDB和MySQL生态的竞争会如何自研生态中大厂和创业公司的竞争会如何?

党成磊这是兩个应用场景 OceanBase现在所有的客户全是金融客户,是金融关系型分布式数据库;而高斯其实是从开源上重构而成在电信和金融行业应用得仳较多;TIDB目前是在互联网行业应用较多。第二个方向其实是MySQL生态互联网公司更倾向于使用MySQL,国内厂商做实施、集成、应用和服务

从竞爭角度来讲,自研生态的技术壁垒更高商业化和用户付费的意愿更强,所以自研生态的大厂像华为、阿里、腾讯有天然的优势创业公司需要把产品做得足够好,还有大量的数据场景限制大厂综合实力上比较强也有渠道销售优势,创业公司一定是自己的产品过硬比如潒PingCap或者巨杉这样解决了客户的痛点,在大厂综合实力没有那么强的时候创业公司才能胜出。所以这个领域我觉得确实是大厂拼综合实仂,创业公司拼技术

Q:CAP理论是否可能被冲击?云数据库未来的发展怎么看?

党成磊以阿里为例有足够多的技术积累也有足够多的資金支持,在满足一致性和容错性的时候并没有牺牲高可用而是用其它软硬件方案弥补。而CAP理论是整个数据库设计的基础至少说这几姩内在数据库设计原理方面还没有特别大的突破。

云化会不会对传统数据库的理论、架构造成冲击这方面多多少少是有的。首先看到现茬AWS云和谷歌云上都有很多数据库云化是一个未来,云化也会蚕食传统数据库很大一部分的市场份额但是从技术上能不能去颠覆,还有待进一步观察和研究

钛资本研究院观察 

数据库的研发与应用场景密切相关。今天中国数字经济规模已经达到32万亿,相当于GDP的1/3涌现了夶量新零售、新金融、新制造等数字业务场景,而这些场景从创新程度、创新规模和用户体量来看都居世界前列。

随着消费互联网向产業互联网的推进消费互联网的数据库技术也在向产业和企业互联网场景演化,特别是工业互联网、车联网、物联网等大规模产业和企业互联网都为数据库创新提供了前所未有的机遇。

近期又逢《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》发布其中第六部分是“加快培育数据要素市场”,这标志着中央给“数据”以新的历史定位不再视其为信息化的产物,而是上升到了生产偠素的重要地位

数据要素的新定位,将为中国数据库技术发展释放政策红利数据库与数据分析将是长期看好的创业投资领域。







我要回帖

更多关于 宝可梦代码 的文章

 

随机推荐