GenAI时代,多模态、实时数据处理需求呈爆发式增长状态,数据作为核心生产要素,其重要性愈发凸显。面对海量数据处理,如何构建高效、强大的数据管理底座,成为各行各业数智化转型的关键。为了承载复杂的数据形态,应对智能化时代的新需求、新变化,阿里云瑶池数据库团队通过"云原生数据库3.0架构+AI能力内嵌+生态协同创新"的三维突破,打造面向Data+AI时代的新型数据管理平台底座。
▲阿里云数据库产品事业部总监、AnalyticDB PG及生态工具部负责人周文超
近日,阿里云数据库产品事业部总监、AnalyticDB PG及生态工具部负责人周文超,在DTCC 2025专访中分享了阿里云瑶池数据库在多模态数据处理、AI基础设施升级等方向的创新实践。在他看来,尽管技术演进经历了“大数据”、“大模型”等概念迭代,但数据始终是驱动AI价值创新的核心燃料。当结构化数据与非结构化数据的边界逐渐消失,实时流数据(Streaming)、IoT数据等新型数据形态不断涌现,这种异构性要求数据库必须具备多模态数据的统一存储与处理能力。
因此,面向多模态数据管理需求的AI基础设施建设的底层逻辑,应该围绕数据服务需求的智能化升级展开,从存储架构、计算范式、服务模式、效率上的协同优化等多个纬度,实现硬核技术创新。
多模态数据管理带来的架构跃迁
提到数据库技术创新,今天的数据库在底层架构以及整体的技术创新上,与20年前相比有何不同?
从「人」消费数据演进到「大模型」消费数据,数据的使用模式和管理方式正在发生颠覆式改变。在周文超看来,多模态数据处理是一个关键特征。
随着文本、图像、音视频等多模态数据的快速增长,传统数据库面临诸多挑战。首先,存储压力倍增。当非结构化数据的比重不断增加,对存储架构的的弹性扩展与多模态兼容性提出更高要求;其次,实时处理出现瓶颈。以IoT为代表的设备数据,每秒产生上万亿级的数据流,考验着数据库的流批一体处理能力;其三,AI融合创新带来的复杂问题。如何在保障数据安全的前提下,实现数据、模型与推理的无缝协同,成为数据库智能化变革的最大挑战。
为了解决多源、异构数据处理的难题,阿里云瑶池数据库实现了多个关键能力的升级。早期,为了实现信息技术的自主可控,满足去IOE需要,企业基于开源数据库进行了自研,做了更多内核层面的深度重构。到了2017年左右,“软硬结合”成为云原生数据库1.0时代的关键词,这个时期重点在开源、数据中心、全球多活等方面进行了拓展,从而真正实现了云原生数据库的底层构建能力。进入云原生数据库2.0时代,主要工作是打造好周围生态,重点攻克方向是数据的生产与集成、数据的实时处理与存储、数据分析发现等。2.0时代带来的最大改变,不只看重资源的弹性,更多是产品与服务的综合能力提升。从2024年开始,云原生数据库迎来3.0时代,技术创新的主要方向是与AI深度融合,构建一站式多模数据管理平台。在这全新的时代,用户可以基于DMS实现元数据的统一管理,让数据分析、数据管理等操作全部由统一的平台去承载,实现资源的进一步解耦,在计算、存储和内存层面实现三层结构的池化。
“三大技术升级”,重塑数据管理底座
从存算分离,到资源的池化管理,再到更具弹性扩缩容能力的软件服务平台的打造。在过去一年多时间里,阿里云瑶池数据库围绕云原生数据库3.0进行了全面升级,核心突破集中在三个层面:
1. 传统数据库能力的极致优化
在传统数据库典型场景,比如在事务处理(OLTP)与分析处理(OLAP)等经典场景中,阿里云瑶池数据库不只实现了存算分离,而是通过三层解耦架构实现存储、计算与内存的独立弹性伸缩,进行更精细化的资源管理。同时,为了提供更高可用的解决方案,在IDC层面把不同方案进行了深度重构,不管是单机房部署,还是两地三中心或者三地五中心,都做到了从性能到成本的优化,满足本地业务高并发需求,并且支持全 球 级业务连续性。
2. AI就绪(AI-Ready)引擎的构建
为了实现“Data+AI”的全面融合,阿里云瑶池数据库在产品内部内置AI能力,使得数据在不出域的状态下,就能实现数据推理和更深层次的价值挖掘。比如:在PolarDB、Lindorm等产品中内嵌向量搜索引擎,支持多模态数据向量化存储与高效检索。再比如:通过Model as an Operator(模型即算子)技术方案,将模型推理嵌入数据库内核,实现数据预处理、特征提取、推理全流程闭环,降低AI应用开发门槛。
3.交互方式的智能化革新。
在数据与人、人与AI交互层面,提供全链路的数据管理能力。通过DMS数据管理服务,即使数据资产分布在不同数据库,归属不同部门,也能有全栈式体验,系统可为用户提供一站式的元数据管理与数据治理能力。为了减少DBA、数据分析师在系统应用上的工作量、缩短查询时间,阿里云在数据库产品中内嵌了自然语言交互能力,如NL2SQL等,全面提升数据查询、分析到运维的效率,与传统复杂的SQL查询形成鲜明对比。
可以看出,阿里云瑶池数据库今天的表现,已经不只是技术层面的简单升级,而是通过资源效能跃迁(三层解耦+高可用)、AI融合能力(Model as an Operator+向量引擎)与人机交互革新(自然语言驱动)的多重能力组合,实现从传统数据库到"企业智能决策中枢"的进化。
打造面向AI就绪的云原生数据仓库范本
打造面向AI就绪的数据库产品,云原生数据仓库 AnalyticDB for PostgreSQL(以下简称ADB PG)的创新,可以说是突飞猛进。
ADB PG是一款云原生数据仓库,自诞生起便聚焦于实时数仓场景的统一化构建。其核心价值在于通过MPP架构、向量化执行引擎及实时物化视图等技术创新,实现了离线分析、在线交互与实时计算3大场景的深度融合,为企业提供了"一库多能"的解决方案。
金融和SaaS是ADB PG的传统优势领域,已在金融数仓与SaaS服务场景深耕多年。比如在金融行业,ADB PG可以支撑核心交易分析、风险建模等高并发场景,日均处理数据量达PB级;针对SaaS生态扩展,可以为实时库存监控、动态报表生成等业务赋能,目前已服务零售、物流等领域的头部企业。
进入Data+AI时代,ADB PG开启技术范式升级,并实现了百亿级向量数据的高效相似度检索能力支持。在阿里云百炼AI平台中,ADB PG向量检索已是默认引擎,服务超百万用户,可以支撑大模型场景下的实时语义检索。同时,ADB PG还创造性地推出"多模态检索引擎",通过与向量检索(语义匹配)、全文检索(关键词匹配)、标量检索(精确过滤)、图谱检索(GraphRAG)等能力进行集成,构建了融合检索体系。
另外,用户重点关注的RAG(检索增强生成)场景,本质是将大模型内涵的公域知识与企业私域数据做有机的结合,将用户的提问放到合适的上下文语境中来理解。阿里云瑶池数据库结合知识图谱检索、长期记忆构建、动态语义增强等技术能力,进行了上下文工程的实践探索,并在金融、零售等多个场景落地。比如:在金融场景,交易记录、客户画像、风控模型等数据具有极高的敏感性与合规要求,用户的核心诉求在于在确保数据安全的前提下实现数据价值释放。ADB PG通过私域部署能力,确保数据全程在金融机构内部流转。同时,依托MPP架构与向量化执行引擎,支撑实时风控、精准营销等高并发分析场景,实现"存储-计算-应用"的全链路闭环。
值得一提的是,ADB PG在与AI融合过程中秉承了创新、开放的理念,与主流的AI工具进行无缝集成。早在2023年初,ADB PG便完成了对LangChain、LlamaIndex等主流框架的兼容。同时,与阿里旗下通义大模型的深度集成,实现从文本理解到向量生成的端到端闭环。
在MCP Server赋能Agent开发层面,通过内置MCP服务,开发者可将ADB PG直接作为Agent的"记忆体",实现零代码改造、多租户隔离等目标。
此外,ADB PG还对Supabase、Neon生态进行了接口上的兼容,开发者无需修改代码,即可将ADB PG替换为Supabase后端数据库。在Vibe Coding场景中,ADB PG通过Supabase接口提供自动身份认证,系统可集成支付宝、钉钉等应用,包括提供实时数据快照,支持历史版本回滚等,保障AI应用的完整性。
整体来看,通过持续的技术演进,ADB PG已从传统数仓升级为AI时代的智能知识引擎,在保障企业级数据一致性的同时,为大模型应用提供了可扩展的私域知识管理底座。
结语:
阿里云瑶池数据库在数据管理平台策略上的调整,包括以ADB PG为代表的数据库产品的最新变革,让我们看到:智能数据管理的未来已来!随着Data+AI融合步伐的加速,满足新业务场景需求的智能化数据库,正以更快的速度支持企业私域数据与AI模型的高效联动。
就AI基础设施底座能力构建而言,企业要从多个维度进行突破。在性能优化上,可以通过CXL等新型硬件与软硬协同设计,提升资源利用率。在关键引擎和核心技术创新上,应将AI能力深度嵌入数据库内核,构建数据处理到数据使用的全流程闭环。而在重要的交互式体验和生态创新上,应以更开放的心态覆盖更广阔的业务场景。最终目标是,降低数据使用门槛,让数据库实现零运维。有了AI的助力,人类不仅可以通过Agent实现数据库自动调优与故障自愈,还能将人类专家知识注入AI模型,替代重复性运维工作,推动数据库向"无人值守"演进。