数据分析加速如何解决 AI 隐藏的瓶颈
创始人
2025-04-28 03:01:12
0

快节奏的 AI 领域从不缺乏头条新闻。例如,去年 11 月,Cerebras 宣称他们制造了世界上最快的 AI 推理芯片。今年 4 月,OpenAI 推出了其称为全新“巨型”且“昂贵”的模型,该模型“让人感觉仿佛在与一位深思熟虑的人对话”。

然而,在这些喧嚣的表象下,企业团队内部正发生着某种变化。

当许多 CEO 纷纷大谈经过精细调试的助手、多模态奇迹和巨资投资时,那些常常深陷在 AI 真正生死攸关的数据战场中的工程师,却在观察着他们的仪表板亮起异常信号:查询时间飙升、数据管道堵塞、模型停滞。

生成式 AI 的热潮引发了一场扩展更大模型的竞赛,其中 OpenAI CEO Sam Altman 是最为直言不讳的拥护者。然而,在这股炒作浪潮中,潜藏的数据分析瓶颈正在削弱许多企业的 AI 目标。

大多数组织仍在努力理解庞大而混乱的数据集。尽管 GPU 已极大地加速了模型训练,但数据准备 — 这一不太引人注目的确保输入准确性的工作 — 仍然停留在以 CPU 为主的架构上,而这些架构从未为这种规模设计。

简单地说,数据量的增长速度远快于我们处理数据的能力。

正如 NeuroBlade 的 CEO 兼联合创始人 Elad Sity 在一次采访中指出的:“尽管业界长期以来依赖 CPU 进行数据准备,但它们已经成为瓶颈 — 消耗了 AI 流程中超过 30% 的资源。”

结果如何?数据管道运行缓慢,成本急剧上升,企业的 AI 目标与实际投资回报率之间的差距不断扩大。

正如 Sity 所解释的,这种压力促使了思维方式的重大转变,业内正积极寻求解决方案。他表示:“这正推动着一场静默的革命,正在重塑数据分析 — 从依赖人工洞察转向由 AI 模型消耗并基于不断增长的数据集采取行动,从而加速数据采集和处理的循环。”

由 Sity 联合创立的以色列半导体初创公司 NeuroBlade 认为,答案在于一种专为加速数据分析而设计的新型硬件。他们的 Analytics Accelerator 不仅仅是一块更快的 CPU — 而是一种根本不同的架构,专门用于处理现代数据库工作负载。

但它能否实质性地重塑企业 AI 的经济模式呢?

数据准备为何拖慢了 AI 的发展 企业正在发现,AI 的瓶颈并不总是出现在模型上,而是在上游的数据本身。正如 Pragmatic Institute 的一份报告显示的那样:“数据从业者将 80% 的宝贵时间花在寻找、清洗和组织数据上。”

虽然对数据科学家在清洗和准备数据上所花时间的估计各不相同,但业界共识十分明确:数据科学家在数据准备上投入的时间远远超过分析和建模。

数据准备工作包括提取、转换和联结大量结构化和半结构化数据,而这些数据常常分布在庞大的 lakehouse 环境中。这构成了问题,因为大部分工作仍然依赖通用型 CPU 运作。

根据 AMD 的数据,当前市场大约支持 200 万个 CPU 插槽用于数据分析工作负载,预计到 2027 年这一数字将增至 400-500 万。这实在是大量通用硬件在支撑着那些并非为 PB 级规模运行而设计的查询。

正如 Sity 所解释的:“企业在传统 CPU 扩展方面已经遇到了瓶颈。我们看到超大规模数据中心和云服务提供商每年花费数十亿美元仅仅为了维护其数据分析基础设施,但回报却趋于平缓。”

增加更多的 CPU 只能带来有限的提升,因为扩展集群会呈指数级增加节点之间的通信开销 — 这会引发性能、功耗和成本的障碍。在某个临界点之后,成本(包括硬件、能源和数据中心场地费用)开始超过性能收益。这种情况在对延迟十分敏感且陈旧数据会降低模型准确度的 AI 环境中尤为严重。

专用数据分析处理器的崛起 NeuroBlade 的 Accelerator 大幅提升性能并缩短查询时间,从而释放数据分析平台的全部潜力。通过将操作从 CPU 卸载到专用硬件上 — 这一过程称为 pushdown — 它提升了每台服务器的计算能力,使得比起仅依赖 CPU 的部署,使用更小规模的集群也能更快速地处理大规模数据集。

正如 Sity 指出的:“通用型 CPU 无法足够迅速地扩展以应对不断增长的性能需求和数据量,这迫使组织不得不扩大集群规模。”

“专用硬件通过提升每台服务器在数据分析上的计算能力,减少了对大型集群的依赖,并有助于避免诸如网络开销、功率限制和操作复杂性等瓶颈。”

在 TPC-H 基准测试 ( 用于评估决策支持系统的标准 ) 中,Sity 指出 NeuroBlade 的 Accelerator 其性能约比领先的向量化 CPU 实现 ( 例如 Presto-Velox ) 快 4 倍左右。

NeuroBlade 的主张是,通过将数据分析任务从 CPU 卸载至专用硅芯片,企业可以通过更少的基础设施获得更优的性能 — 从而一步到位地降低成本、能耗和复杂性。

云服务商也开始关注 这种转变并非孤立发生。NeuroBlade 已与 Amazon Web Services 紧密合作,将其 Analytics Accelerator 集成到 AWS EC2 F2 实例中,使云端客户也能使用这一产品 — 尤其适用于金融数据分析或 AI 模型更新等领域。

Sity 告诉我:“这种朝着定制数据分析处理方向的转变,与我们曾见证 GPU 在 AI 中的崛起非常相似。首先是超大规模数据中心先行跟进,然后更广泛的市场便会随之而来。”

主要的半导体厂商也在纷纷涉足这一领域。随着 Nvidia 在 AI 加速器市场的统治地位不断加强,像 Intel 和 AMD 等公司正寻求在相关计算领域站稳脚跟。这意味着,专用数据分析硬件可能成为下一个重要的 AI 竞争战场。

AI 与数据分析的融合 不久之前,AI 和数据分析分别运行在不同的系统上。但如今,多亏称为 data lakehouse 的平台,公司可以利用单一数据源同时支持仪表板和机器学习模型。

尽管这种设置可以提高效率,但也带来了新的风险。如果 lakehouse 中的数据混乱或过时,可能会拖慢一切进程 — 从业务报告到 AI 性能均受影响。

传统的商业智能工具是为人工操作而构建,并且通常按照预定时间表运行。而 AI 系统则始终在线,需要持续不断的数据 — 实时、大规模的数据。

这就是为何加快数据准备和处理速度不再是可有可无的选择,而是保持模型新鲜、洞察力相关以及决策迅速的关键所在。

Sity 解释道:“通过减少数据准备和查询所需的时间,企业能够更频繁地更新模型,缩短反馈周期,并促进更好的实时决策,特别是在金融、网络安全、医疗保健等高风险行业。”

重新思考数据分析基础设施 需要明确的是,数据分析加速市场仍处于初期阶段。因此,其普及可能还需要时间。企业在核心基础设施上的决策往往较为缓慢,而且更换硅芯片从来都不简单。但迹象已经初现:大型云集成、令人鼓舞的基准测试以及越来越多的共识,即 AI 的真正价值不仅取决于模型规模,还取决于你如何高效地移动和理解数据。

Sity 指出:“我们正处于专用计算新纪元的开端。正如 GPU 通过提供专为神经网络设计的硬件而改变了 AI 一样,数据分析处理器将通过解决查询执行中的特定瓶颈来变革我们处理数据的方式。”

对于那些在将 AI 投资转化为实际投资回报上苦苦挣扎的组织来说,解决数据分析瓶颈或许是第一个真正的突破口。未来的 AI 胜利不仅仅取决于更大的模型 — 而在于你能多高效地将正确的数据传递给它们。

相关内容

热门资讯

拼多多年度股东大会任命联席董事... 12月19日,拼多多集团年度股东大会宣布升级治理架构,实行联席董事长制度。经董事会批准,赵佳臻获任联...
从“工具”升级为“伙伴” 来源:中国质量报 □本报记者 何可 当人工智能从“辅助性工具”成长为能自主规划任务的“智能伙伴”,一...
超3亿美元!具身智能企业亿元融... 来源:中国证券报-中证网 12月19日,银河通用机器人(简称“银河通用”)宣布已于近期完成一轮超3亿...
谁在像送鲜奶一样送奶粉? 深夜,河北保定的李女士点开手机里的监控软件——又到了孩子吃夜奶的时间。屏幕里,老人正为孙子冲泡奶粉,...
3.9万亿元!精细化工行业如何... 来源:市场资讯 (来源:中国化工信息周刊) 关键词 | 精细化工现状及展望共 3285 字 | 建议...
解码AI新生态 “AI未来会像... 深圳商报·读创客户端记者 刘娥/文图 12月18日,由农业银行深圳罗湖支行、深圳广电集团财经频道、深...
简智机器人完成第三轮融资,加速... 来源:滚动播报 (来源:财闻) 本轮融资将用于核心产品迭代、数据产线规模化部署及全球市场拓展,巩固其...
阿维塔赴港IPO:一场针对“依... 文|不慌财说 在漫长的新能源公路赛中,孤勇者的故事不在少数,凭一己信念开疆拓土,却常在资金、技术与...
港股掀起18C章递表热潮,硬科... 今年以来,港交所的18C章特专科技上市通道突然“排起了长队”。 据证券时报记者统计,在2025年之前...
“活不过十天”的服务器,网易竟... 《逆水寒》这次玩大了,这是要关服跑路的节奏吗? 12月19日,网易旗下“会呼吸的江湖”《逆水寒》官...
钱多事少好金主?拉瑞安感谢腾讯 如果要让姬友们评选年度优秀甲方,姬友们会选择什么样的甲方作为梦中情甲呢?别的不说,钱多事少肯定是最优...
京东重磅新品!飞利浦 S610... 近期飞利浦 S6105 在京东自营平台重磅首发!飞利浦 S6105 智能手机携全能配置 + 内置 A...
眸深智能完成数千万元天使轮融资... 投资界12月19日消息,国内首个生成式通用具身大脑公司 「上海眸深智能科技有限公司(眸深智能)」宣布...
近8%增长超预期:游戏已成为中... 2025年中国游戏产业发展很难用一句话总结。数字在增长,挑战也不少,技术逐渐成为新质驱动力,文化输出...
康斯特:半导体制造需检测仪表校... 证券之星消息,康斯特(300445)12月19日在投资者关系平台上答复投资者关心的问题。 投资者提问...
中国游戏产业年会:鸿蒙游戏生态... 2025年度中国游戏产业年会12月17日至19日在上海市西岸国际会展中心举办,华为终端云服务互动媒体...
年度最佳选手被截胡?LCK A... 2025年对于LCK赛区来说,又是硕果丰收的一年,HLE拿下了第一届先锋赛的冠军,GEN则是在MSI...
传OpenAI正在寻求1000... AIPress.com.cn报道 据《华尔街日报》12月19日援引知情人士消息,OpenAI正在筹划...
我国数字消费占居民消费支出总额... 党的二十届四中全会明确坚持扩大内需这个战略基点,强调要大力提振消费,要以新需求引领新供给,以新供给创...
推动具身智能“全自主、更好用”... 12月18日,北京人形机器人创新中心(以下简称“北京人形”)开源国内首个且唯一通过具身智能国标测试的...