Andy Pavlo:2025年度数据库回顾

来源: InfoQ 话题 - 大数据

原文

本文最初发布于Andy Pavlo的个人博客。

又一年过去了。我本希望能多写几篇文章,而不仅仅是年终的长篇大论,但我在春季学期差点丧命,那占用了我所有的时间。尽管如此,我还是会回顾一下过去一年中数据库领域我认为重要的趋势和事件。

数据库领域有许多激动人心且前所未有的发展。氛围编程(Vibe Coding)成了日常用语。Wu-Tang Clan宣布启动时间胶囊项目。Databricks未选择上市,而是进行了两轮巨额融资,而不是只进行一轮大规模融资。

与此同时,其他事件也都在预料之中,不那么令人惊讶。Redis公司在“抽走地毯(rugpull)”一年后换回了他们的许可(我去年就预测到了这一点)。SurrealDB因为没有将写入的数据刷写到磁盘而丢失了数据,但他们的基准测试数据却非常好。Coldplay可以破坏婚姻。不过Astronomer倒是从最后这件事里尝到了不少甜头

在开始之前,我想先回答我每年都会在评论中看到的问题。人们总是问我,在我的分析中,为什么没有提到特定的系统数据库公司。我只能写这么多,除非过去一年中发生了一些有趣或值得注意的事情,要不就没有什么可讨论的。但也并不是所有值得注意的数据库事件,我都适合发表意见。例如,最近有人试图揭露AvgDatabase首席执行官的真实身份,我认为是可以接受的,但MongoDB自杀诉讼案则不属于此类。

好了,我们开始吧。这些文章每年都在变长,所以我给读者朋友们提前道个歉。

之前的文章:

2024年数据库年度回顾

2023年数据库年度回顾

2022年数据库年度回顾

2021年数据库年度回顾

PostgreSQL延续了其统治地位

早在2021年,我就写到,PostgreSQL正在吞噬数据库世界。这一趋势还在持续,因为数据库领域里最有趣的发展还是与PostgreSQL有关。该DBMS在2025年11月发布了最新版本(v18),其中最突出的功能是新增的异步I/O存储子系统,它使PostgreSQL终于摆脱了对操作系统页面缓存的依赖。它还增加了对跳过扫描的支持;即使缺少前缀,查询仍然可以使用多键B+树索引。查询优化器也做了一些改进(如移除多余的自连接)。

精通数据库的行家们会立刻指出,这些功能并不是什么突破性的创新,其他DBMS多年前就已经有这些功能了。PostgreSQL是唯一仍然依赖操作系统页面缓存的主流DBMS。Oracle自2002年(v9i)以来就支持跳过扫描了!因此,你可能会问,为什么我说2025年数据库领域里最热门的事情是与PostgreSQL有关的?

原因在于,数据库领域的大部分精力和活动都投入到了与PostgreSQL相关的公司、产品、项目及其衍生系统上。

收购+发布

在过去的一年里,最热门的数据初创公司(Databricks)为一家PostgreSQL DBaaS公司(Neon支付了10亿美元。接下来,世界上最大的数据库公司之一(Snowflake)为另一家PostgreSQL DBaaS公司(CrunchyData支付了2.5亿美元。然后,地球上最大的科技公司之一(微软)推出了一个新的PostgreSQL DBaaS(HorizonDB)。Neon和HorizonDB沿袭了Amazon Aurora在2010年代初的高级架构,采用单主节点模式分离计算与存储功能。目前,Snowflake的PostgreSQL数据库即服务(DBaaS)使用了和标准PostgreSQL相同的核心架构,它们均基于Crunchy Bridge构建。

分布式PostgreSQL

我上面列出的所有服务都是单主节点架构。也就是说,应用程序将写入发送到主节点,然后主节点将这些更改发送到从副本。但在2025年,有两个新项目宣布要为PostgreSQL创建扩展(即水平分区)服务。2025年6月,Supabase宣布聘请Sugu——Vitess的共同创建者和前PlanetScale联合创始人/CTO——来领导Multigres项目,为PostgreSQL创建分片中间件,类似于Vitess对MySQL进行分片的机制。Sugu在2023年离开PlanetScale,迫不得已休息了两年。如今,他或许已经摆脱了所有的法律纠纷,可以在Supabase大展身手了。你知道,一位数据库工程师加入一家公司不是个小事,因此公告更多地关注个人而不是系统。SingleStore联合创始人兼CTO在2024年加入了微软,领导HorizonDB项目,但微软(错误地)没有大力宣传。Sugu加盟Supabase的震撼程度,堪比Ol' Dirty Bastard(RIP)服刑两年后假释出狱,次日便宣布签下新唱片合约

在关于Multigres的新闻发布一个月后,PlanetScale宣布了自己的Vitess-for-PostgreSQL项目Neki。2025年3月,PlanetScale推出了其PostgreSQL DBaaS的初始版本,但核心架构仍然是单节点的老搭配PostgreSQL和pgBouncer

2026年1月5日更新:有人发邮件提醒我,PgDog也是一个寻求支持PostgreSQL水平分片的开源中间件系统。在心理上,我将PgDog和连接池代理(PgBouncer)归为了一类,但实际上它是Multigres和Neki的竞争对手。

商业格局

随着微软在2025年推出HorizonDB,所有主要的云供应商现在都有自己的PostgreSQL产品项目了。亚马逊自2017年起提供了Aurora PostgreSQL。谷歌在2022年推出了AlloyDB。ServiceNow在2024年推出了RaptorDB服务,其基础是他们2021年收购的Swarm64。即使是IBM自2018年起也有了云版本的PostgreSQL。甲骨文在2023年发布了其PostgreSQL服务,尽管有传言说,其内部PostgreSQL团队在2025年9月的MySQL OCI裁员中受到了附带伤害。

目前仍然有一些独立的(ISV)PostgreSQL DBaaS公司。按实例数来说,Supabase可能是这些公司中最大的。其他公司包括:YugabyteDBTigerData(之前的Timescale)、PlanetScaleXataPgEdgeNile。Xata原本基于Amazon Aurora构建了其架构,但今年,他们宣布切换到自己的基础设施ParadeDB尚未宣布其托管服务。Tembo则在2025年放弃了其托管PostgreSQL产品,转而开发一种可以完成部分数据库优化的编码代理。HydraPostgresML已于2025年倒闭(见倒闭一节),所以他们退出了游戏。其他系统提供了一个兼容Postgres的前端,但后端系统并非源自PostgreSQL(如CockroachDBCedarDBGoogle Spanner)。还有一些托管公司提供PostgreSQL DBaaS以及其他系统,如AivenTessel

Andy的观点

在Databricks和Snowflake收购PostgreSQL公司之后,不知道下一个大买家会是谁。而且,每家主要的技术公司都已经拥有了Postgres产品。EnterpriseDB是最古老的PostgreSQL ISV,但在过去的五年中,他们错过了两次最重要的PostgreSQL收购。但他们可以暂时依靠贝恩资本,或者寄希望于惠普收购他们,尽管那个合作伙伴关系是八年前的。PostgreSQL领域的并购格局令人联想到2000年代末期的OLAP收购浪潮:当AsterDataGreenplumDATAllegro相继被收购后,Vertica成了最后一个在公交站等车的玩家。

好消息是竞争性的分布式PostgreSQL项目已经发展到了三个(MultigresNekiPgDog)。并非第一次有人尝试这样做:用于OLAP工作负载的GreenplumParAccelCitus已经存在了二十年。Citus支持OLTP工作负载,但他们从2010年开始专注于分析领域。对于OLTP,15年前,NTT RiTaDB项目与GridSQL合作创建了Postgres-XC。Postgres-XC的开发人员创建了StormDB,后来Translattice在2013年收购了它。Postgres-X2是一次对XC进行现代化改造的尝试,但开发人员放弃了这项工作。Translattice将StormDB开源为Postgres-XL,但该项目自2018年以来一直处于休眠状态。YugabyteDB2016年推出,可能是部署最广泛的分片PostgreSQL系统(并且仍然是开源的!),但它是一个硬分叉,只与PostgreSQL v15兼容。亚马逊云科技在2024年宣布了自己的分片PostgreSQL(Aurora Limitless),但是闭源的。

我知道微软在2019年收购了Citus,但由于他们总给自己的产品起一些令人困惑的名称,所以很难追踪他们在推出HorizonDB之前做了什么。Citus在2019年被重新命名为Azure Database for PostgreSQL Hyperscale,然后在2022年被更名为Azure Cosmos DB for PostgreSQL。但他们还有使用Citus的Azure Database for PostgreSQL with Elastic Clusters,而该服务与以Citus为基础的Azure Cosmos DB for PostgreSQL并不相同。2023年,微软终止了Azure PostgreSQL Single Server服务,但保留了Azure PostgreSQL Flexible Server。他们有各种各样的Azure服务。这有点像亚马逊云科技忍不住在DSQL的名字前加上 "Aurora"。无论如何,至少微软足够明智,将他们的新系统命名为 "Azure HorizonDB"(目前)。

PlanetScale团队对他们的对手没有好感,并且已知会对NeonTimescale大打出手。数据库公司之间互相攻击并不新鲜(见Yugabyte vs. CockroachDBDatabricks vs. Snowflake)。我怀疑,随着PostgreSQL战争的升温,未来我们将看到更多这样的情况。我建议这些小公司呼吁下,让那些大型的云供应商相互之间不要提及对方的名字

每个数据库都开始支持MCP!

如果说2023年是所有数据库管理系统(DBMS)纷纷添加向量索引的一年,那么2025年就是所有DBMS都开始支持Anthropic公司模型上下文协议(MCP)的一年。MCP是一种标准的客户端-服务器JSON-RPC接口,使大型语言模型(LLM)能够与外部工具和数据源交互,而无需自己编写粘合代码。作为中间件,MCP服务器位于数据库管理系统前面,暴露DBMS提供的工具、数据及操作清单。MCP客户端(如Claude或ChatGPT等LLM宿主)通过向MCP服务器发送请求来发现并使用这些工具,扩展其模型能力。对于数据库场景,MCP服务器会将查询转换为对应的数据库指令(如SQL)或管理命令。换言之,MCP如同一个中间人,使数据库与LLM之间可以建立起足够的信任以开展协作。

Anthropic公司在2024年11月发布了MCP,但在2025年3月OpenAI宣布将在其生态系统中支持MCP后,它才真正起飞。在接下来的几个月里,所有数据库管理系统(DBMS)供应商都发布了适用于所有系统类别的MCP服务器:OLAP(如ClickHouseSnowflakeFireboltYellowbrick)、SQL(如YugabyteDBOraclePlanetScale)和NoSQL(如MongoDBNeo4jRedis)。由于Postgres MCP服务器没有官方的,所以每个Postgres DBaaS都发布了自己的服务器(如TimescaleSupabaseXata)。云供应商则发布了多数据库MCP服务器,可以与他们托管的任何数据库服务进行通信(如亚马逊云科技微软谷歌)。允许单一网关与异构数据库通信,几乎已经实现了理想中的联合数据库,但还不完全。据我所知,在这些MCP服务器中,每个请求每次仅针对单个数据库,因此需要应用程序负责执行跨源连接操作。

除了供应商的官方MCP实现方案外,几乎每种数据库管理系统(DBMS)都存在数百种非官方的MCP服务器实现方案。其中部分方案试图支持多个系统(如DBHubDB MCP Server)。关于PostgreSQL MCP服务器,DBHub曾发布过一篇不错的综述

有一个有趣而又已经证明对代理有帮助的特性是数据库分支。虽然不特定于MCP服务器,但分支允许代理快速测试数据库更改,而不影响生产应用程序。2025年7月,Neon报告说,代理创建了80%的数据库。Neon从一开始设计就支持分支(早先在这个系统还叫Zenith时,Nikita就向我做过演示),而其他系统则是后来才添加了分支支持。要了解更多信息,可以看下Xata最近发表的一篇关于数据库分支的对比文章

Andy的观点

一方面,我很高兴现在有一个标准,可以用来向更多的应用程序暴露数据库的功能。但没有人应该信任一个拥有无限数据库访问权限的应用程序,无论是通过MCP还是系统的常规API。而且,只授予账户最小权限仍然是一个好习惯,特别是在未监控的代理可能在你的数据库中疯狂操作时,对账户做限制显得尤为重要。这意味着,当大型语言模型开始大范围流行时,为每个账户授予管理员权限或所有服务使用同一个账户,诸如这样的懒散做法将彻底行不通。当然,如果你们公司不介意把数据库向全世界开放,并导致某家最富有的公司市值暴跌6000亿美元,那么恶意MCP请求就不是你最需要担心的问题了。

从我对一些MCP服务器实现的粗略检查来看,它们是简单的代理,只是负责将MCP JSON请求转换为数据库查询,并没有通过深入的自省来理解请求的目的以及它是否合适。有人会尝试在你的应用程序中订购18000个水杯,你需要确保它不会导致数据库崩溃。有些MCP服务器有基本的保护机制(如ClickHouse只允许只读查询)。DBHub提供了一些额外的保护,如限制每个请求返回的记录数并实现了查询超时。Supabase的文档提供了MCP代理的最佳实践指南,但也得人类遵循它们才行。当然,如果你依赖于人类做正确的事情,那么坏事就在所难免

企业DBMS有着开源系统缺乏的自动化护栏和其他安全机制,对于智能代理生态系统,它们做了更好的准备,比如,IBM GuardiumOracle Database Firewall能够识别并阻止异常查询。我不是在为这些大型科技公司做宣传。我知道,未来我们将看到更多智能代理妨害生活的例子,比如意外删除数据库。将MCP服务器与代理(如连接池)结合是引入自动化保护机制的绝佳机会。

MongoDB起诉FerretDB

到现在,MongoDB作为NoSQL领域的中坚已经有二十年了。2021年,Percona高层启动了FerretDB项目,旨在提供一款中间件代理,将MongoDB查询转换为适配PostgreSQL后端的SQL。有了这个代理,不用重写查询就可以将MongoDB应用程序无缝地迁移至PostgreSQL。

双方共存数年后,MongoDB于2023年向FerretDB发出停止侵权通知书,指控FerretDB侵犯其专利权、著作权及商标权,并违反了MongoDB文档及有线协议规范的许可条款。2025年5月,MongoDB就这些问题向FerretDB提起联邦诉讼,使这封信件公之于众。双方争议的焦点之一是,FerretDB未经授权便宣称其产品可作为MongoDB“即插即用的替代品”。MongoDB的法庭文件列举了标准指控: (1) 误导开发人员;(2) 弱化商标价值;(3) 损害企业声誉。

让这个故事变得更加复杂的是,微软宣布将与MongoDB兼容的DocumentDB捐赠给Linux基金会。该项目的网站提到,DocumentDB与MongoDB驱动程序兼容,并且旨在“构建一个与MongoDB兼容的开源文档数据库”。还有其他主流的数据库供应商参与了该项目,如亚马逊云科技和Yugabyte。粗看之下,这种语言似乎与MongoDB指控的FerretDB的行为如出一辙。

Andy的观点

我没有找到数据库公司因对方复制其API而起诉对方的例子。最接近的例子是Oracle起诉谷歌在安卓系统中使用了Java API的“清洁室副本”。最终,最高法院以公平使用为由支持了谷歌。这个案例影响了法律上对重新实现行为的处理方式。

我不知道如果这场诉讼真进入庭审阶段会如何发展。陪审团是由随机挑选的路人组成的,他们或许无法理解MongoDB有线协议的具体细节,但他们绝对清楚FerretDB最初的名字是MangoDB。要说服陪审团,相信你给公司起名时仅替换一个字母不是想转移客户,这将非常困难。更何况这根本不是个原创名称:早就有个恶搞数据库管理系统叫MangoDB,它会把所有数据写入/dev/null。

说到数据库系统的命名时,微软选择“DocumentDB”让人觉得遗憾。市面上已经有Amazon DocumentDB(顺便说一下,它也兼容MongoDB,不过亚马逊云科技可能为此付了费)、InterSystems DocDBYugabyte DocDB。微软的“Cosmos DB”在2016年推出时的原始名称也是DocumentDB

最后,MongoDB的法庭文件声称,他们“开创了‘非关系型’数据库”。这个说法是不正确的。第一个通用数据库管理系统是非关系型的,因为关系模型那时候还没有发明出来。通用电气的Integrated Data Store(1964年)使用了网络数据模型,IBM的Information Management System(1966年)使用了层次数据模型。MongoDB也不是第一个文档数据库管理系统。这个头衔应该归属于1980年代末的面向对象数据库管理系统(如Versant)或2000年代的XML数据库管理系统(如MarkLogic)。只是与它们相比,MongoDB取得了压倒性的成功(也许IMS除外)。

文件格式之争

文件格式是数据系统中过去十年间基本处于停滞状态的一个领域。2011年,Meta公司针对Hadoop发布了名为RCFile的列式存储格式。两年后,Meta对RCFile做了优化,并推出了基于PAX的ORC(Optimized Record Columnar File)格式。ORC发布一个月后,Twitter联合Cloudera推出了Parquet的首个版本。近十五年后,Parquet已成为开源领域占支配地位的文件格式。

2025年,有五个新的开源文件格式发布,都在争取取代Parquet的地位:

CWI FastLanes

CMU + Tsinghua F3

SpiralDB Vortex

德国人的AnyBlox

微软Amudai

以下是2024年发布的格式:

Meta Nimble

LanceDB Lance

IoTDB TsFile

SpiralDB今年最引人瞩目的举措是宣布将Vortex捐赠给Linux基金会,并成立了多组织指导委员会。微软则在2025年底悄然终止了Amudai项目(至少将其转为闭源)。其余项目(FastLanes、F3、Anyblox)均属学术原型,其中Anyblox今年斩获了VLDB最佳论文奖

这种新的竞争点燃了Parquet开发社区对其功能进行现代化改进的热情。Parquet PMC主席Julien Le Dem对列式文件格式格局做了深入的技术分析

Andy的观点

Parquet的主要问题并非源于格式本身。该规范可以且已经经过演进。没有人会要求组织机构重写PB级的旧文件以更新至最新的Parquet版本。问题在于,人们用不同的语言实现了大量的读写库,而每个库只支持这个规范的特定子集。通过对实际环境中Parquet文件的分析,我们发现,94%的文件仅使用了2013年发布的v1版本的特性,即便其创建时间戳晚于2020年。这种最低公约数意味着:当有人使用v2版本的特性创建文件时,系统能否正确读取该文件完全取决于其版本兼容性。

我与清华大学的Xinyu ZengRuijun MengHuanchen Zhang、CMU的Martin PrammerJignesh Patel以及Wes McKinney一起开发了F3文件格式。我们的重点是通过提供作为共享对象的原生解码器(Rust crates)和在文件中嵌入这些解码器的WASM版本来解决互操作性问题。如果有人创建了一种新的编码格式,而数据库管理系统尚未提供原生支持,那么它仍然可以使用WASM版本通过传递Arrow缓冲区来读取数据。每个解码器针对单个列,这使得DBMS能够针对单个文件同时使用原生解码器和WASM解码器。AnyBlox采用了一种不同的方法,生成单个WASM程序来解码整个文件。

我不知道谁会赢得文件格式之争。下一场较量很可能围绕GPU支持展开。SpiralDB似乎正在采取正确的举措,但Parquet的普及性将构成一个巨大的挑战。至于DuckLake如何寻求颠覆Iceberg,我甚至还没有讨论……

当然,每当这个话题出现时,总有人会贴出那幅关于标准竞争的xkcd漫画。我已经看过了,别再发邮件给我了。

偶然事件

数据库是大生意。让我们逐一了解下。

收购

市场上有很多动作。为了准备一笔收购,Pinecone在9月份更换了CEO,但我没有听到任何其他的消息。以下是已经发生的收购:

DataStax → IBM

这家Cassandra的坚定支持者年初被IBM收购,估值30亿美元

Quickwit → DataDog

作为Lucene替代方案的领军企业,全文搜索引擎Tantivy已于年初被收购。好消息是,Tantivy的开发工作仍在继续。

SDF → dbt

这次收购对dbt来说是一个很好的补充,也是他们今年发布的Fusion的一部分,使他们能够在DAG中进行更严格的SQL分析。

Voyage.ai → MongoDB

Mongo收购了一家初创AI公司,旨在增强其云产品中的RAG能力。在公告前一周,我最优秀的学生之一加入了Voyage。他以为自己不与数据库公司签约背叛了“家族”,结果最终还是加入了一家数据库公司。

Neon → Databricks

显然,这家PostgreSQL公司引发了一场竞购战,但Databricks以令人垂涎的10亿美元收购了它。Neon至今仍然作为一个独立服务存在,但Databricks迅速在其生态系统中将其更名为Lakebase

CrunchyData → Snowflake

你知道Snowflake不会让Databricks在夏天独占所有风头,所以他们为CrunchyData这家有着13年历史的PostgreSQL公司支付了2.5亿美元。近年来,Crunchy从Citus吸引了一些顶级人才,并在Snowflake收购他们之前扩大了其DBaaS产品。Snowflake在2025年12月宣布公开预览其Postgres服务。

Informatica → Salesforce

Informatica,这家1990年代的老派ETL公司被Salesforce以80亿美元的价格收购。这家公司于1999年上市,2015年转为PE,然后在2021年再次上市。

Couchbase → 私募股权

老实说,我一直不明白Couchbase在2021年是如何上市的,莫非是借了MongoDB的东风?几年前,通过整合加州大学欧文分校AsterixDB项目的一些组件,Couchbase做了一些有趣的工作。

Tecton → Databricks

Tecton为Databricks提供了额外的代理构建工具。我的另一位学生曾在该公司工作,现在是在Databricks。

Tobiko Data → Fivetran

这个团队开发了两个有用的工具:SQLMeshSQLglot。前者是唯一可与dbt(见下文,计划与Fivetran合并)抗衡的开源竞争者。SQLglot是一个便捷的SQL解析器/反解析器,支持启发式的查询优化器。未来几年,Fivetran与SDF将该技术与dbt相结合,将在该领域形成引人注目的技术布局。

SingleStore → 私募股权

购买SingleStore的PE公司(Vector Capital)以前有管理数据库公司的经验。之前在2020年,他们曾经购买了XML数据库公司MarkLogic,并在2023年将其转手给Progress

Codership → MariaDB

在2024年被PE公司收购后,MariaDB公司今年开启了收购狂潮。首当其冲的是开发MariaDB扩展中间件Galera Cluster的公司。详见我2023年对MariaDB混乱局面的全面分析。

SkySQL → MariaDB

然后是MariaDB的第二笔收购。为避免混淆,我需要说明一下:2010年的时候,最初为MariaDB提供支持的商业公司名为“SkySQL Corporation”,2014年,它更名为“MariaDB Corporation”。2020年,MariaDB Corporation推出名为SkySQL的MariaDB数据库即服务(DBaaS)。但因资金持续流失,该公司于2023年将SkySQL Inc.剥离出去,成为一家独立的公司。而2025年,MariaDB Corporation回购了SkySQL Inc.,兜了一圈后回到了原处。今年我的数据库宾果卡上可没有这一步。

Crystal DBA → Temporal

自动化数据库优化工具公司Crystal DBA加入Temporal公司,帮他们自动优化数据库!很高兴得知Crystal创始人、伯克利数据库小组校友Johann Schleier-Smith在那里发展顺利。

HeavyDB → Nvidia

这个系统(之前叫OmniSci,再之前叫MapD)是首批GPU加速数据库之一,于2013年推出。除了一家并购公司披露了这笔成功的交易外,我未能找到有关交易完成的官方公告。随后我们与英伟达召开会议,探讨潜在的数据库研究合作事宜,期间几位HeavyDB的伙伴也现身参与。

DGraph → Istari Digital

Dgraph之前在2023年被Hypermode收购。现在看来,Istari只是买了Dgraph,而不是Hypermode的其他部分(或者他们放弃了)。我还没见过任何积极使用Dgraph的人。

DataChat → Mews

这是最早支持“与数据库对话”的数据库之一,来自威斯康星大学的Jignesh Patel,现为CMU-DB教授。但后来被一家欧洲酒店管理领域的SaaS公司收购了。

Datometry → Snowflake

多年来,Datometry一直致力于将旧版SQL方言(如Teradata)自动转换至新型OLAP系统这一棘手的问题。Snowflake收购他们是为了扩展自己的迁移工具。更多信息参见Datometry 2020年的CMU-DB技术讲座

LibreChat → ClickHouse

像Snowflake收购Datometry一样,ClickHouse的这次收购是提升高性能通用OLAP引擎开发体验的典范。

Mooncake → Databricks

在收购Neon之后,为了使PostgreSQL能够读写Apache Iceberg数据,Databricks收购了Mooncake。更多信息参见他们2025年11月的CMU-DB讲座

Confluent → IBM

这是一个将草根开源项目发展为一家公司的经典案例。Kafka最初于2011年在Linkedin开发,随后在2014年,Confluent作为独立的初创公司分拆出来,于七年后的2021年成功上市。随后IBM斥巨资将其收购。与DataStax的情况相似,目前尚不确定IBM是会对Confluent采取惯常的企业收购策略,还是像RedHat那样使其保持独立运营。

Gel → Vercel

前身为EdgeDB,在PostgreSQL之上提供了一种DSL,被Verel在2025年年底收购。

Kuzu → ???

这款诞生于滑铁卢大学的嵌入式图形DBMS在2025年被一家未具名的公司收购。然后KuzuDB公司宣布放弃该开源项目。LadybugDB项目旨在维护Kuzu代码的一个分支版本。

合并

2025年10月,Fivetrandbt Labs宣布合并成一家公司,这个消息着实让人意外。

据我所知,数据库领域的上一次合并是2019年Cloudera和Hortonworks合并。但那笔交易只是两家在Hadoop领域苦苦寻找定位的公司试图通过合并成一家公司来扭转局面(剧透:他们没有成功)。2022年,MariaDB公司通过SPACAngel Pond Holdings公司合并,技术上讲也算并购,但那是为了让MariaDB能够上市而采取的后门策略。对投资者来说,结果并不好。Fivetran和dbt的合并与这两者不同(更好)——这两家互补的技术公司正联手打造ETL领域的巨头企业,为近期开展正规的IPO做准备。

融资

除非我错过了,或者他们没有宣布,数据库初创公司的早期融资轮次并不算多。围绕向量数据库的炒作已趋于平息,风险投资公司现在只愿为LLM公司花钱。

Databricks:L轮40亿美元

Databricks:K轮10亿美元

ClickHouse:C轮3.5亿美元

Supabase:D轮2亿美元

Timescale:C轮1.1亿美元

Supabase:E轮1亿美元

Astronomer:D轮9300万美元

Tessel:B轮6000万美元

LanceDB:A轮3000万美元

Convex:B轮2400万美元

SpiralDB:A轮2200万美元

ParadeDB:A轮1200万美元

CedarDB:种子轮590万美元

TopK:种子轮550万美元

Columnar:种子轮400万美元

SereneDB:前种子轮210万美元

Starburst:未披露?

TurboPuffer:未披露?

 

名称变更

这是我在年度总结中新增加的一个类别——数据库公司更改其公司或系统的名称。

HarperDB → Harper

这家JSON数据库公司从名字里去掉了后缀"DB" ,旨在强调其作为数据库支持型应用平台的定位,类似于Convex和Heroku。我很欣赏Harper的团队。2021年,他们在CMU-DB技术研讨会上提出的数据库管理系统构想可以说是我听过的最糟糕的方案。好在他们意识到该方案的缺陷后果断放弃,转而采用了LMDB技术。

EdgeDB → Gel

这是一个明智的举动,因为“Edge”这个名字传达了这样一个信息,它是一个用于边缘设备或服务的数据库(如Fly.io)。不过我也不确定“Gel”是否传达了项目更高层次的目标。感兴趣的读者可以观看下他们在2025年CMU-DB技术研讨会上关于Gel查询语言(名称还是EdgeQL)的讲座,由CMU博士校友主讲。

Timescale → TigerData

数据库公司为区别于其核心数据库产品而更名的案例实属罕见。通常情况是公司更名为数据库名称(如“Relational Software, Inc.”更名为“Oracle Systems Corporation”,“10gen, Inc.”更名为“MongoDB, Inc.”)。该公司有了新的定位——通用应用场景的增强版PostgreSQL,因此他们试图摆脱“专业化时间序列数据库管理系统”的固有印象,这一策略有它的合理性,毕竟前者所处的细分市场远小于后者。

倒闭

坦白说,我曾在其中两家失败的初创公司中担任技术顾问。截止目前,我的顾问成功率可以说是惨不忍睹。我也曾担任Splice Machine公司的顾问,但该公司已于2021年倒闭。需要说明的是,我只和他们讨论技术构想,而不涉及商业策略。我确实建议Fauna增加SQL支持功能,但他们没有采纳我的建议。

Fauna

Spanner是一款颇具特色的分布式数据库管理系统,基于Dan Abadi确定性并发控制研究。恰好在NoSQL热潮逐渐消退之际,它提供了强一致性事务处理能力,使事务处理功能再度成为焦点。不过该系统采用专有查询语言,并押注了GraphQL技术。

PostgresML

从名字就可以看出来,该系统旨在使人们能够在他们的PostgreSQL DBMS内运行ML/AI操作。挑战在于,他们需要说服人们将现有的数据库迁移到他们提供的托管平台上。他们推出了pgCat,作为一个代理用于镜像数据库流量。其中一位联合创始人加入了Anthropic。另一位联合创始人创建了一个新的代理项目pgDog

Derby

这是最早用Java编写的数据库管理系统之一,可以追溯到1997年(最初名为"Java DB"或"JBMS")。2000年代,IBM将其捐赠给Apache基金会,并更名为Derby。2025年10月,该项目宣布这个系统将进入“只读模式”,因为没有人对它进行积极地维护了。

Hydra

尽管没有关于初创公司DuckDB-inside-Postgres的官方公告,但其联合创始人和员工都已经分散到了其他公司。

MyScaleDB

这是Clickhouse的一个分支,借助Tantivy增加了向量搜索和全文索引。他们在2025年5月宣布关闭这项服务。

Voltron Data

这个团队应该是数据库公司里的超级组合。想象一下,就像Run the Jewels那样的团队。他们有来自Nvidia Rapids的顶级工程师、Apache Arrow和Python Pandas的发明者,以及来自BlazingSQL的秘鲁GPU奇才。然后再加上来自顶级公司的风险投资1.1亿美元,包括未来的英特尔CEO(以及一名CMU的董事会成员)。他们构建了一个GPU加速的数据库Theseus,但未能及时推出。

最后,尽管不是一个商业机构,但如果不提及IBM阿尔马登研究中心关闭,那将是我的疏忽。这个研究中心是IBM在1986年建立的,几十年来一直是数据库研究的圣地。我2013年曾去阿尔马登参加面试,发现那里的风景很美。IBM研究中心数据库小组已经不是过去的样子了。尽管如此,这个神圣的数据库研究场所的校友名单依然令人印象深刻:Rakesh AgrawalDonald ChamberlinRonald FaginLaura HaasMohanPat SelingerMoshe VardiJennifer WidomGuy Lohman

2026-01-05更新:我遗漏了Gel在2025年12月被Vercel收购的消息。[致谢]

2026-01-05更新:我也遗漏了Supabase在2025年进行了两轮融资的消息。

2026-01-05更新:尽管TurboPuffer没有就融资发表官方声明,但他们的CEO提到,其团队中增加了来自Thrive Capital的成员。[致谢]

2026-01-05更新:显然,我需要一个更好的方法来跟踪融资信息,因为我还遗漏了LanceDB的A轮融资![致谢]

Andy的观点

有人说,我是根据数据库开发公司筹集的资金数额来判断数据库的质量,显然不是这样。我之所以追踪这些动态,是因为数据库研究领域竞争激烈且充满活力。我不仅要与其他高校的学者“竞争”,还需要持续关注大型科技公司和小型创业公司推出的有趣的系统。行业研究实验室已经不是过去的样子了,只有微软研究院仍然在积极招聘顶尖人才,并做出令人难以置信的工作。

我曾在2022年预测,2025年将有大量的数据库公司倒闭。确实,今年关闭的公司比往年多,但并没有达到我预期的规模。

Voltron的倒闭以及类似HeavyDB这样的收购兼并似乎延续了GPU加速数据库不可行的趋势。Kinetica多年来一直靠政府合同维持运营,而Sqream似乎也是在勉强支撑。这些公司仍属于小众领域,至今无人能撼动CPU驱动型DBMS的主导地位。虽不便透露具体厂商的名字,但2026年必将有多家供应商发布GPU加速数据库的重要公告。这进一步印证了OLAP引擎的商品化趋势:现代系统的运行速度已经实现了飞跃,底层操作(扫描、连接)的性能差异微乎其微,系统间的差异化竞争正转向用户体验以及优化器生成的查询计划的质量。

Couchbase和SingleStore被私募股权(PE)公司收购可能预示着数据库行业未来的一个发展趋势。当然,PE收购以前也发生过,但似乎都是在最近:(1)MarkLogic在2020年、(2)Cloudera在2021年、(3)MariaDB在2023年。我能找到的发生在2020年之前的收购只有2007年的SolidDB和2015年的Informatica。PE收购可能会逆转那些数据库公司的发展趋势,它们在被控股公司收购后发展陷入停滞,而那些控股公司则通过榨取维护费持续获利(如Actian、Rocket)。即使是Oracle,也依然在从30年前收购的RDB/VMS上获利!

最后,向Nikita Shamgunov致敬。据我所知,他是唯一一位与人联合创立两家数据库公司(SingleStoreNeon)且两家公司在同一年被收购的人。就像已故说唱歌手DMX在一年内推出两张冠军专辑(It's Dark and Hell Is HotFlesh of My Flesh)那样,我认为短期内无人能打破Nikita的纪录。

数据库元老的表现

我们来看看数据库元老拉里·埃里森的辉煌之年。这位81岁的老人在这一年间取得的成就,远超常人毕生所为。我将按时间顺序逐一梳理。

拉里年初时位列全球富豪榜第三。想到自己身价可能不及马克·扎克伯格,他夜不能寐。有人说拉里的失眠源于饮食变化——自从买下英国的一家著名酒吧后,他馅饼吃多了。但我可以向各位保证,拉里坚持三十年的“素食水瓶座饮食法”从未改变。直到2025年4月,我们得知拉里重登全球富豪榜次席。他的睡眠质量稍有好转,但仍然远未达标。生活中的诸多烦忧仍在持续地折磨他——比如他终于决定出售那辆稀有的半合法迈凯伦F1超跑,车内手套箱里还完好地保存着原厂车主手册。

2025年7月,拉里在13年内发布了他的第三条推文(拉里迷们称之为“#3”)。这条推文介绍了他在牛津大学附近创立的埃里森技术研究院(EIT)的近况。以EIT命名且与牛津大学关联,听起来像是纯研究性的非营利机构,类似于斯坦福的SRI或卡内基梅隆的SEI。但实际情况是,这是一家总部位于加州的有限责任公司旗下的多家营利性公司的统称。当然,不少怪咖在第3条的评论区说承诺提供基于区块链的低温冷冻技术室温超导体。拉里告诉我他根本不理会这些。不过也有人像这位网友一样真正理解其中的奥妙。

今年(可能是本世纪)最大的数据库新闻出现在9月10日星期三美国东部时间大约下午3:00。经过几十年的等待,拉里·约瑟夫·埃里森终于成了世界上最富有的人。那天早上,$ORCL的股价上涨了40%,由于拉里仍然拥有公司40%的股份,所以他的总身价估计是3930亿美元。从这个角度来看,这不仅使拉里成为世界上最富有的人,而且也是整个人类历史上最富有的人。约翰·D·洛克菲勒和安德鲁·卡内基(是的,CMU中的“C”)的峰值净资产,根据通货膨胀调整后,分别只有3400亿美元3100亿美元

在拉里登上世界之巅的同时,Oracle还参与了收购控制TikTok的美国公司,拉里资助派拉蒙(由他第四次婚姻的儿子控制)竞购华纳兄弟。美国总统甚至嘲笑拉里接管CNN新闻部门,因为拉里是派拉蒙的大股东。

Andy的观点

我甚至不知道从哪里开始。当然,当我得知拉里·埃里森因数据库而成为世界上最富有的人时,我感到由衷地欣慰,我们的生活终于发生了一些积极的事情。我不在乎Oracle的股价,因为那些旨在构建AI数据中心而非传统软件业务的高调交易而被人为炒高了。我也不在乎他两个月内个人损失1300亿美元导致排名下滑。这就像你我把一个月的薪水全砸在了FortuneCoins上——虽然有点心疼,还得靠从Taco Bell买来的过期辣酱拌豆子米饭撑两周,但总会好起来的。

有些人说拉里与普通民众脱节,或者说他因为参与和数据库无直接关系的事情而迷失了方向。他们列举了多个例子,比如他在夏威夷的机器人农场以每磅24美元(每公斤41欧元)的价格出售生菜,又比如81岁的男人不可能天生拥有金发

事实是,拉里·埃里森已经征服了企业级数据库领域、竞技帆船科技兄弟健康水疗中心。下一步显然是接管一个每天被成千上万在机场等待的人观看的有线电视频道。每次我和拉里交谈,他都清楚地表明他一点也不在乎人们对他的看法。他知道他的粉丝爱他他的(新)妻子爱他。毕竟,那才是最重要的。

结论

在结束本次回顾之前,我想快速地说出几个名字并提点建议。首先是PT,他在监禁期间仍在有条不紊地参与Turso数据库的开发(外面见)。然后是对JT的遭遇表示遗憾,他因为经常在社交媒体上分享与KevoDB数据库开发有关的信息而丢掉了工作。务必只在测试用数据库中放入假数据,不要因为以1750万美元的价格出售自己的初创公司换得七年的监禁。

我和我的博士生们也成立了一家新的初创公司。希望很快就能有更多的信息带给大家。一言为定。

声明:本文为InfoQ翻译,未经许可禁止转载。

原文链接:https://www.cs.cmu.edu/~pavlo/blog/2026/01/2025-databases-retrospective.html