蟒蚂蚁

注册

 

发新话题 回复该主题

Databricks中国启示录一场蓄谋已 [复制链接]

1#
白癜风怎样才能治好 https://m.39.net/pf/a_6159813.html

6月底,刚刚结束的Data+AISummit上,Databricks宣布将数据湖表格式DeltaLake的API完全开源。

进入0年以来,无论是Snowflake发布UniStore,还是Databricks巩固Delta开源计划,都是在面对极大的市场空间前景下做出的积极决策。

相比于第一代表格式Hive,Databricks的DeltaLake和ApacheIceberg、ApacheHudi被认为新一代数据湖在开源表格式应用上的“三剑客”。对于其他企业而言,基于成熟的开源架构进行改造,使用社区发布的最佳工具,能够最大限度降低企业构建数据湖的成本,避免重复造轮子。

钛媒体App获悉,从截至0年3月份的一份有关GitHub存储库的贡献数据来看,目前Netflix、Apple、AWS等主要基于ApacheIceberg,国内如阿里巴巴、字节跳动、蚂蚁、中移苏研、华为、腾讯等企业则主要热衷于Hudi,而对DeltaLake的贡献维护,81.3%都来自于Databricks。

事实上,三大开源项目各自有其发展的历史背景及优势特征,但相比于早在、年就已经开源的Apache项目,DeltaLake因其商业化公司Databricks的强势发力,在近些年显得格外耀眼,并且越来越引起其主要竞争对手的眼热。Cloudera、Snowflake就曾表示,DeltaLake自年开源(虽然是部分开源)以来,就已经吸引了一批潜在客户。此外,Iceberg和Hudi的主要创始人也于最近一年相继创立了其商业化公司,即Tabular和Onehouse。

DeltaLake的出现是本身基于湖仓架构演进而来:从最早的传统数仓(EDW),到为满足低成本存储的数据湖(DataLake),再到如今的云原生湖仓、湖仓一体(Lakehouse),可以看到过去40年里大数据架构仍在不断演进。

那么谁能够成为当下Lakehouse架构的最早受益者?从用户侧的反馈,湖仓架构的最大短板其实不完全在于技术,如果企业对数据处理要求不高,传统的数仓就能够满足,对升级到湖仓并非迫切性需求。

但Databricks作为开源+云原生数据存储时代重要的创业代表,伴随逐渐增长起来的用户市场,仍为国内外湖仓架构及产品解决方案的创新派们带来了一定的示范性作用。

在中国市场,尽管企业对云上调用产品、管理研发资源、运维调度等需求明显,但从资金投入、人才积累以及实际应用案例的深度来看,多年以来,中国企业大数据产业基础领域的发展,始终面临着的是一个全方位激烈竞争的市场局面。

DeltaLake应运而生

Databricks成立于年的美国旧金山,由加州大学的几位教授和五位伯克利大学的博士生共同创立。其联合创始人兼首席执行官AliGhodsi,也是开源平台ApacheSpark的创建者之一。

据了解,AliGhodsi从8岁起就热衷于编程,长大后攻读计算机工程专业,并获得了分布式计算领域的博士学位。年,他与IonStoica合作共同成立了Spark。后来他们又与另一支机器学习团队合作,共同推出了基于ApacheSpark开源版本的商业化服务。起初,这并没有激起丝毫水花,市场几乎少有人知晓。年,A16z联合创始人BenHorowitz一笔万美元的投资给带来了希望,BenHorowitz鼓励他们创立一家公司,基于ApacheSpark平台进行商业化产品运营。也就是在这一年,Databricks成立了。

创立之初,Databricks面临的最大一个挑战是,如何得到商业世界对Spark的

分享 转发
TOP
发新话题 回复该主题