曹操读书--知行合一,化于无形

Confluent上市与Cloudera私有化背后:从硅谷大数据公司的势力更替看数据分析的未来

作者 :钛媒体 App 2021-06-29 15:52:13 审稿人 : admin 围观 : 评论

图片来源@视觉中国h28曹操读书网

图片来源@视觉中国h28曹操读书网

文 | 爱分析h28曹操读书网

随着数字化的深入,Hadoop架构的分析平台在成本和业务需求上越来越不能适应企业的要求,因此国内外领先的大数据公司都在转向云原生。云原生架构由于具有弹性伸缩、低成本、敏捷性的优势,正在逐步取代Hadoop,成为新一代数据分析平台的基础。而新一代的数据分析平台也将具备云原生、存算分离、容器化、自动化、湖仓融合、订阅制等特征。区别于美国市场,中国市场的私有云会与公有云共同发力,企业应该看清趋势,尽早做好下一代数据平台架构的选型和搭建。h28曹操读书网

h28曹操读书网

技术的发展都有着自己的生命周期。在技术从起步到成长,再到成熟、衰退,最终被新技术所取代的过程中,商业化公司一直起到了重要的推动作用,但它们也终将因为技术的迭代而改变自身的走向。h28曹操读书网

大数据行业近期发生的两件大事,印证了数据分析领域的技术也遵循着这样的演变规律:两家硅谷大数据公司分别IPO和私有化。h28曹操读书网

6月25日,Apache Kafka商业化公司Confluent正式登陆纳斯达克,首日开涨25%,市值超过110亿美元。Confluent成立于2014年,其提供的是一个实时事件流平台,具有高吞吐、低延时、高可用和数据持久性的能力。公司在2018年推出云原生版本产品Confluent Cloud,并将云原生作为公司的主要战略。h28曹操读书网

而在此前的6月初,Cloudera却被私有化退市,这一消息令人唏嘘。因为Cloudera从2008年成立至今一直是Hadoop生态的领导者,其开发的产品以及背后基于Hadoop开源技术的生态曾是企业首选的大数据分析解决方案。但Cloudera自2017年5月上市以来一直表现不佳,先后经历过股价腰斩,与业内第二名Hortonworks的合并抱团,以及现在的私有化退市,也代表了Hadoop的颓势。h28曹操读书网

作为同是出自Apache的顶级项目,为何Confluent和Cloudera却在同一时间在资本市场走向了完全相反的方向?Hadoop为何走向衰落,数据分析技术的未来又会走向何方?爱分析基于对相关领域的持续研究和积累,以及对业内专家的访谈,尝试对这两起事件折射出的数据分析技术的演进趋势做出分析解读。h28曹操读书网

01 成本与业务需求双重因素驱动下,Hadoop从兴起走向衰落

从企业用户的视角,成本和业务需求实现是技术选型的核心考量。而这两个因素在不同时代的演变,既造就了Hadoop的兴起,也解释了现在Hadoop为何开始走向衰落。h28曹操读书网

在数据分析技术的演进过程中,成本是首要驱动因素。h28曹操读书网

在2004年Hadoop诞生之前的近20年中,数据分析技术一直被大规模并行处理(MPP)架构所主导。以Teradata为代表的MPP数仓产品采用基于专有物理硬件的软硬件一体机架构,因此企业在扩展存储和计算资源时需要付出高昂的成本。随着大数据时代的到来,数据量不断加大,企业越来越不堪成本支出的重负,纷纷转向了在软件层面开源免费,硬件层面可以采用廉价PC服务器的Hadoop架构。h28曹操读书网

但Hadoop架构在成本上对客户而言依然不是最优解。在数字化应用已经无所不在的今天,企业对存储和计算资源都提出了更高的要求。Hadoop没能进一步解决算力和资源的优化问题,也在扩容成本和运维成本上逐渐不能适应企业要求。h28曹操读书网

在扩容成本方面,Hadoop虽然在软件架构层面实现了计算与存储的分离,但其在硬件层面仍然基于无共享架构,计算和存储资源是耦合的。然而今天企业在计算和存储资源上的扩展需求往往并不同步:计算资源通常仅需在负载高峰期进行扩展,而存储资源的扩展一般是长期、线性的过程。企业无法按需独立扩展计算和存储资源,必然带来资源的浪费。此外,Hadoop的扩容时间成本也非常高,通常Hadoop集群扩容一倍,企业仅在硬件的采购和部署上花费的时间就需要半年或以上。h28曹操读书网

在运维成本方面,由于Hadoop的解决方案通常是从其生态中的数百个开源项目中选择一堆技术组件组合起来实现相关功能,这样的体系非常复杂,且组件间的耦合度非常高。随着Hadoop生态技术组件越来越庞杂,组件之间的耦合性和差异性要求开发和运维人员具备全栈能力,给企业带来了不菲的运维成本。h28曹操读书网

成本因素之外,业务需求的变化则在另一个层面驱动了数据分析技术的迭代。h28曹操读书网

在数仓时代,企业的数据分析需求以处理结构化数据、为业务人员作报表应用为主,MPP架构在当时能够很好地满足这些需求。h28曹操读书网

但随着互联网、移动互联网的逐步普及,企业内沉淀的数据量呈现出爆发式增长,不仅数据量本身变得很大,数据类型也从原来的结构化数据为主,发展为包含各类结构化、半结构化、非结构化,以及图片和音视频数据。MPP架构无法承接对大量非结构化和半结构化数据的处理,而Hadoop架构由于生态内具有众多组件能够实现不同功能,可以处理复杂类型的数据,其分布式架构也能够为企业实现大数据分析的高性能,以Hadoop为基础的数据湖架构兴起。h28曹操读书网

然而近年来,企业面临的数据分析业务需求也发生了重要改变,使得Hadoop越来越不能很好地满足企业日益复杂的分析需求。这些改变主要体现在三个方面:h28曹操读书网

1)随着数字化转型浪潮的推进,企业有越来越多在线化、互联网化的业务场景,上云的渗透率越来越高,大量数据的产生、采集和应用都发生在云端,而更适应本地化部署特性的Hadoop很难满足企业数据流动的需要。h28曹操读书网

2)同样随着企业数字化的深入,企业产生了大量创新性的数据应用需求,需要快速落地、快速迭代。而Hadoop架构由于过于繁重,无法适应企业对数据应用的敏捷性需求。h28曹操读书网

3)人工智能和机器学习在数据分析领域的应用正在加速落地,而一些高级的分析框架,比如TensorFlow,其分布式架构在设计之初就是基于云原生架构,没有考虑过Hadoop架构,因此在Hadoop上很难部署和运行这类高级分析框架。h28曹操读书网

02 云原生架构的浪潮已经到来

既然Hadoop在面对新的数据分析需求时已经展现出种种不足,那下一代架构是什么?事实上,包括Confluent在内的新一代大数据公司已经回答了这个问题——拥抱云原生。云原生是指在应用的设计阶段就为了云的运行环境而设计,包含微服务、容器化、DevOps、持续交付等特征,充分利用和发挥云平台的弹性和分布式架构的优势。h28曹操读书网

由于意识到企业用户的需求正在往云端、存储计算分离、敏捷等方向上发展,一些领先的大数据公司早在几年前就将重点放在了云原生版本的产品上,也由此获得了显著的成功。h28曹操读书网

以刚刚IPO的Confluent公司为例,其所代表的开源流数据工具Kafka最早也是源自于Hadoop生态。Kafka为不同数据源之间数据的交换这个任务而生,Confluent将Kafka商业化推出Confluent Platform并取得了成功,随后在2018年推出了云原生的版本Confluent Cloud,为用户提供完全托管的云端服务,具备弹性伸缩以及支持用户敏捷开发等特性。h28曹操读书网

根据Confluent招股说明书,Confluent Cloud在2020年取得了3140万美元的订阅收入,2019年、2020年和2021年前3个月的增速分别达到454%、117%和124%。尽管Confluent Cloud的收入目前仅占到公司总收入的20%左右,但其表现出的成长性远超本地产品Confluent Platform约50%的增速。Confluent在招股说明书中也强调了公司云原生的战略,并将Confluent Cloud视为公司未来收入增长的最重要产品。这应该也是资本市场给与Confluent高度认可的主要原因。h28曹操读书网

h28曹操读书网

在此之前,去年IPO、市值曾达800亿美元的明星大数据公司Snowflake,更是云原生的代表。Snowflake针对云计算环境将产品特性进行了深度优化,在云端向客户提供简单易用、弹性伸缩、按使用量计费的一站式数据管理和分析平台。其突出特征是支持计算、存储节点单独扩展,从而实现了资源的精细化管理,有效降低了扩容成本,同时可以做到按使用量付费。h28曹操读书网

同样是硅谷热门的大数据公司Databricks,其提供的是一个云上的面向数据分析师和数据科学家的大数据分析平台,用户可以通过Databricks在云端环境中实施整个大数据方案,从数据提取、数据转换、交互式处理,到数据产品等。Databricks底层计算使用Spark,存储使用Delta云存储服务,支撑了企业在云端对各种结构化、半结构化和非结构化数据的分析。h28曹操读书网

国内厂商中,源自Apache Kylin的大数据管理和分析平台提供商Kyligence也是一个典型的案例。据Kyligence联合创始人兼CEO韩卿表示,公司在成立之初产品是基于Hadoop架构的,但在2018年左右,公司敏锐地预判到客户的需求逐渐在往云原生、存储计算分离的方向上发展。因此Kyligence对原有产品架构做了一些新的设计,在2019 年推出了完全脱离Hadoop平台的云原生产品Kyligence Cloud,其底层使用了云原生架构,存储使用云厂商的对象存储,计算使用Spark+容器化,资源可以直接对接云平台的IaaS服务和ECS。Kyligence Cloud通过多维数据立方体(cube)预计算、分布式聚合索引和云原生弹性架构结合,不仅显著简化了云上数据仓库和数据湖的数据处理和分析工作,同时也大幅降低了企业使用云分析的成本。因此,Kyligence Cloud获得了诸如UBS等国内外头部公司的认可和采用。h28曹操读书网

可以看到,云原生架构的浪潮已经到来。总结起来,云原生架构之所以在当下被越来越多地采纳,主要在于其三方面的显著优势:弹性伸缩、低成本和敏捷性。h28曹操读书网

h28曹操读书网

首先是云原生架构为数据分析带来的弹性伸缩能力。因为云原生架构可以轻松实现计算和存储资源的分离,企业可以做到按照实际需求分别购买存储和计算资源,并随启随停,真正实现按照资源消费量来付费,与此同时,在云端的扩容也可以在几分钟内完成 。这种使用方式极大地优化了企业对资源的使用效率,降低了使用成本。h28曹操读书网

其次,云原生架构也极大地降低了企业的运维成本。因为在云原生架构下,云厂商提供了完整的IaaS基础设施,省去了企业硬件投入和运维工作的同时,企业也能充分运用IaaS的底层分布式框架实现各种操作,从而大大降低系统复杂性,提高系统运行效率。h28曹操读书网

最后是敏捷性。随着企业数字化和智能化应用的深入,云原生架构弹性伸缩、存算分离支撑下的按需付费特性,能够让企业花费很少的成本先尝试新应用。如果应用效果好,企业可以在此基础上加大投入继续推进;如果方向出现问题,企业可以及时停止项目,沉没成本能够控制在很低的水平。这样的敏捷性很好地支撑了企业去尝试各种新的数据应用,从而增强了企业的竞争优势。h28曹操读书网

03 云原生时代,新一代数据分析平台将具备哪些特征?

基于对企业数字化转型与数据分析需求的趋势判断,并结合领先大数据公司在产品设计上采取的技术路线,可以看到,以云原生架构为基础的全新的数据分析平台将成为未来的主流。云原生特性作为技术架构层面的变化,也将为企业数据分析应用带来更多的可能。对此,爱分析从技术、数据架构和商业模式三个维度总结了下一代数据分析平台将具备的特征。h28曹操读书网

从技术维度,下一代数据分析平台将会具备云原生、存算分离、容器化和自动化四个特征。h28曹操读书网

1)云原生。随着云计算的逐渐普及,企业上云步伐的加快,企业主要的IT基础设施都将部署在云端,因此数据分析平台以及数据的分析和应用都将主要在云端进行。h28曹操读书网

2)存算分离。随着企业对数据分析应用需求的持续增加,计算资源的扩展需求进一步增长,存算分离的价值也将凸显。企业可以按需对存储和计算资源在云端分别进行扩容,由此能够以很低的成本获得近乎无限的算力。h28曹操读书网

3)容器化。基于云原生的背景,未来企业的数据应用在很多情况下,将会跨云甚至跨基础设施进行。容器化的价值在于可以让企业在不同的基础架构之上快速构建统一的数据分析平台,实现数据应用的平滑迁移。h28曹操读书网

4)自动化。传统的数据分析平台在分析和应用的多个环节仍然依靠人工进行处理,比如数据标注、数据清洗。通过在数据分析平台中应用AI增强技术,首先可以在云端对存储和计算资源分别做自动优化,提高资源使用效率,为企业降低成本;其次,在数据清洗、数据建模、数据分析等环节使用自动化,能够极大地提升分析平台的易用性,节省大量人力成本,提升数据应用开发的敏捷性。对AI增强技术的大量采用也正是Snowflake具备出众易用性的原因。h28曹操读书网

在数据架构维度,随着数据分析的复杂度以及企业对数据分析实时度的要求越来越高,传统的数据仓库与数据湖割裂的局面将会走向融合。Gartner认为,数据仓库通常是用已知数据解答分析已知问题,数据湖通常是用未知数据解答分析未知问题,而新的数据架构需要解决的是这两种场景之上模糊地带的需求。而根据研究机构EMA将新一代架构定义为“统一分析仓库”(Unified Analytics Warehouse),这种新的数据架构需要具备高性能与企业级完整度、分析灵活性与低延迟、高扩展性及与现有设施的兼容性这三个方面的能力。此外,业内也有“湖仓一体”的提法,尚未达成统一。对此,爱分析会在后续的研究中详细探讨。h28曹操读书网

最后,在商业模式维度,技术架构上的变化也将带来商业逻辑的变化,订阅制、按需付费将会成为企业使用分析平台的主要付费方式。由于在云原生架构下可以支持存算分离和弹性伸缩,企业不再需要在前期先投入大量成本购买硬件,而是可以在云端基于需求按使用量付费,实现“Pay as you go”。订阅制从根本上颠覆了企业使用数据平台的付费方式,其对于企业的核心价值是使得企业可以以很低的成本探索各种创新型的数据应用,从而使数据发挥更大的价值。同时,订阅制也驱动厂商更加持续关注企业客户成功,保持与客户长期共生和互利的关系。以Kyligence为例,其全线产品目前在国内都已经广泛采用订阅模式来服务客户,尤其是在银行、保险等金融行业头部客户也已采纳订阅制,这说明国内企业的付费观念已经发生变化,在美国已经是主流的订阅制的付费模式同样也适合中国市场。h28曹操读书网

04 中国市场的云原生:起步更晚,私有云占据关键地位

以上对数据分析走向云原生架构趋势的总结,主要基于对美国市场的观察。相比美国市场以公有云为主导的市场环境,中国市场会呈现出明显差异。h28曹操读书网

首先,中国云计算市场起步时间较晚,相比美国落后五到七年左右,同时企业尤其是传统企业的上云步伐也不如美国企业激进,大量业务数据仍然停留在传统IT环境中。因此,中国市场转向云原生的渗透仍然有数年的窗口期,在这个架构迭代的窗口期内,包括传统数据库厂商、云厂商和新兴厂商在内,各方参与者的竞争格局将发生新一轮洗牌。h28曹操读书网

其次,由于政策监管、行业特性和观念等因素,国内以金融和政府公共事业为代表的行业企业以及央国企,中长期来看仍将采纳以私有云、行业云为底座的混合架构,公有云很难占据主导地位。因此,面向中国市场的云原生架构的数据分析平台,需要考虑如何在以私有云为主的架构环境下,仍能让企业用户充分享受到云原生特性带来的优势,这背后有大量问题需要解决。h28曹操读书网

以Kyligence为例,其针对国内外市场推出了不同版本的解决方案。在国际市场,Kyligence对接了公有云平台Azure和AWS,用户可以在线购买和使用其产品,服务了包括UBS这样的行业顶尖客户。在国内市场,Kyligence除了提供公有云和本地部署版本的产品,也推出更适合国内企业客户的私有云版本产品,并且其私有云版本产品获得了多个大型金融机构的采用。h28曹操读书网

Hadoop的时代已经走向落幕,云原生是大势所趋。但Hadoop并不会在这个时间点很快消亡,而是会平滑地过渡到下个技术阶段,今天的Hadoop依然是很稳定的大数据解决方案。中国市场相比美国的滞后,给广大企业为未来三到五年做好数据平台架构的选型和相应的技术储备,构建新一代的数据分析平台,预留了充足的时间。对于那些已经把数字化作为根本战略的企业,更应该尽快拥抱这样的趋势,以在未来的企业竞争中保持优势。h28曹操读书网

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体Apph28曹操读书网

h28曹操读书网

核心关键字: 大数据

相关文章

  • 3D云设计第一股赴美上市!我国现存家装企业超10万家,上半年新增4495家
    3D云设计第一股赴美上市!我国现存家装企业超10万家,上半年新增4495家

    日前,家居家装云设计平台“群核科技”正式向美国证券交易委员会递交招股书,冲刺3D云设计第一股。企查查数据显示,目前全国现存家装相关企业10.6万家,其中福建省以2.9万余家排名第一,河南省、广东省分列二三名。从注册量上看,2019年新增5.3万家,同比增长317%;2020年新增2.3万家,同比下降56%;2021年上半年新增4495家相关企业,同比下降97%。随着行业的发展,家装产业竞争逐步白热...

    2021-06-29 14:55:03
  • 黑马成员企业「库无忧」完成数千万人民币Pre-A轮融资,将加大产品研发和算法团队人员建设
    黑马成员企业「库无忧」完成数千万人民币Pre-A轮融资,将加大产品研发和算法团队人员建设

    i黑马讯近日,服装尾货平台交易服务商「库无忧」(吴世春·创业心学黑马实验室8期成员企业)宣布完成数千万人民币的Pre-A轮融资。本轮投资方为野草创投,光济资本担任独家财务顾问。此前,「库无忧」曾获得中国地产五十强海伦堡地产的数百万元天使轮的融资。据悉,本轮融资将主要用算法团队人员补充和产品研发。野草创投创始合伙人李赫然表示,“库存是服装行业的沉疴,近年来,涌现出数家创业公司以技术改造服装供应链的各...

    2021-06-29 11:50:57
  • 为什么那么多企业喜欢媚外?
    为什么那么多企业喜欢媚外?

    作者:卡夫卡很忙来源:局外人的视界(ID:hooyar_380097485)这几天关于农夫山泉的负面消息刷频了。元气森林气泡水火了以后,农夫山泉也上了,搞了一款很时髦的拂晓白桃。当年大家扒皮元气森林的时候,一并也普及了很多饮料知识,其实这些气泡水里都没有什么水果,用的都是香精。作为大自然的搬运工,农夫山泉又不傻,日本的水果贵得离谱,人家真的会跑到福岛去拂晓采摘大自然的白桃?呵呵,虽然说福岛因为核泄漏问题,已经成为全世界臭名昭著的农产品地,也只有湾湾的菜狗这么缺德,冒着残害民众的危险不停的进口,其他的地方一...

    2021-06-29 07:48:21
  • 智能运动健康企业云麦科技完成 2 亿元 C2 轮融资
    智能运动健康企业云麦科技完成 2 亿元 C2 轮融资

    近日,智能运动健康企业云麦科技宣布完成2亿元C2轮融资,本轮融资由乐耕资本领投,长润资本、璀璨资本以及明势资本跟投。本轮融资将主要用于提升产品技术研发能力,品牌建设与渠道拓展。据悉,在此次融资前,云麦科技已完成5轮融资。云麦科技成立于2014年,致力于研发生产各类智能运动健康产品。目前,云麦科技拥有体脂秤、专业筋膜枪以及智能运动装备三条产品线。云麦科技还打造了智能健康数据云、好轻App等多款应用。...

    2021-06-28 16:58:22
  • 酸奶价格上涨背后:我国现存1.79万家酸奶相关企业,22个酸奶品牌吸金超70亿元
    酸奶价格上涨背后:我国现存1.79万家酸奶相关企业,22个酸奶品牌吸金超70亿元

    日前,“酸奶价格上涨”登上微博热搜,不知从何时起,超市货架上的酸奶开始动辄十几元一盒起,酸奶成为继奶茶之后的又一定价越来越高的饮料品类。企查查数据显示,截至目前我国现存“酸奶”相关企业1.79万家,其中2019年新增3900家,2020年新增3470家,2021年1-5月新增1959家,基本每年注册量保持在三千家以上;从地域分布来看,青海、河南、山东分别以2249家、1785家、1635家位列前三...

    2021-06-28 10:56:32
  • 滴普科技「数据智能驱动现在与未来」
    滴普科技「数据智能驱动现在与未来」

    6月18日,由浦发银行与全球知名加速器公司PlugandPlay联合发起的“In+hub”创新社区举办社区启动会暨第一期联合加速营甄选日活动。本次活动聚焦数字场景、数字营销、数字金融、数字工厂以及数字技术5大领域,共30家优秀科创企业参加路演。来自浦发银行、太平洋保险、携程、周大福、好孩子等知名企业代表参与此次甄选。撰文|李畅编辑|李畅“In+hub”是集创新培育、产业对接与金融服务为一体的国际化...

    2021-06-27 06:54:24
  • 奖励高达5000万!深圳鼓励总部企业发展
    奖励高达5000万!深圳鼓励总部企业发展

    创头条6月25日消息  日前,深圳市政府印发《深圳市鼓励总部企业高质量发展实施办法》,明确,在深设立的总部企业,符合一定条件,即可享落户奖、贡献奖、租房与购房补助等多项支持。据悉,《实施办法》将于2021年7月1日起正式实施。《实施办法》对深圳总部企业租用总部自用办公用房补助、首次购置总部自用办公用房补助、申请总部用地建设总部大厦等多个方面进行了详细说明。其中,对在深无自有办公用房的总部企业,租用...

    2021-06-25 17:55:41
  • 国际TRIZ协会副总裁林岳:企业的出路在于创新
    国际TRIZ协会副总裁林岳:企业的出路在于创新

    创头条消息,“企业的出路在于创新。”6月25日,在“科创中国”企业云课堂上,天津大学工学博士、北京理工大学博士后、高级工程师林岳说。林岳谈到中国制造面临的焦点问题,创新能力不强,产品同质化;产品质量问题突出,顾此失彼;核心技术薄弱、共性技术缺位;资源浪费、高能耗、高污染、高成本。林岳列举了大量案例并总结企业构建技术创新体系的路径,我国研发水平与国际先进水平有明显差距,创新与知识是弯道超车的重要手段...

    2021-06-25 15:56:10
  • 国产EDA第一股来了!我国现存芯片设计企业近17万家,今年前五月新增2.23万家
    国产EDA第一股来了!我国现存芯片设计企业近17万家,今年前五月新增2.23万家

    日前,华大九天正式向深交所提交招股书,冲刺国产EDA第一股。此外,杭州广立微、概伦电子等也纷纷开启上市计划,本土EDA企业打响第一股争夺战。企查查数据显示,我国现存关键词为“芯片设计”和“集成电路设计”的企业共有16.83万家。从省份分布来看,广东以6.33万家位列第一,福建、江苏、四川分列第2-4名。近十年芯片设计企业注册量逐年增长,2019年新增3.37万家,同比增长67%;2020年新增4....

    2021-06-25 14:52:54
  • 依赖单一产品 重推广轻研发 小家电企业利仁科技频违规遭处罚
    依赖单一产品 重推广轻研发 小家电企业利仁科技频违规遭处罚

    作者:小溪来源:GPLP犀牛财经(ID:gplpcn)2021年6月22日,中国证监会官网显示,北京利仁科技股份有限公司(下称“利仁科技”)预披露了招股书,拟登陆深交所主板。早在2019年11月,利仁科技曾与华创证券签署《上市辅导协议》,不过双方合作仅持续了一年,2020年12月31日,利仁科技终止了辅导。GPLP犀牛财经注意到,此次利仁科技IPO的保荐机构变更为了安信证券。利仁科技业绩总体上保持...

    2021-06-24 21:54:35
留言与评论(共有 0 条评论)
   
验证码: