当前,随着企业AI转型的深入,Data for AI已成为关键刚需。据IDC预测,据IDC预测,到2029年非结构化数据在企业数据中占比将超过80%,且仍将高速增长。如何从海量的文本、图像、音视频等多模态数据中高效挖掘价值,已成为企业智能化转型的核心挑战。
近日,火山引擎与NVIDIA在联合举办的“2025火山引擎Data+AI行业领航者智创沙龙”在广西成功召开。会上,火山引擎深入剖析了AI时代的数据处理挑战,并展示了以Data Agent和多模态数据湖为核心的“Data+AI”解决方案,旨在为企业智能化转型提供全新动力。
Data Agent:告别价值陷阱,寻找AI落地务实路径
企业在AI投入翻倍的同时,往往面临业务价值难以衡量的困境。火山引擎Data Agent项目负责人海书山指出,企业易陷入“追求100%准确”、“迷信大模型全知全能”和“技术Demo=业务价值”三大“隐形陷阱”。
他强调,Data Agent的务实路径是“80%准确+快速迭代”,并推动企业数据应用从BI(确定性保障)、ChatBI(效率提升)向Data Agent(洞察创造)演进。火山引擎Data Agent构建了从L1(响应式执行)到L4(自主式决策)的能力阶梯,其核心价值公式在于融合“模型能力、工程可靠性与领域知识密度”。
海书山分享了Data Agent在多个场景的实践:在快消品行业,智能归因Agent帮助营销团队解决了跨渠道数据割裂、人工整合效率低下的痛点;在家电行业,智能营销Agent通过构建“需求预判-智能引导-精准转化”链路,解决了导购能力参差-齐、线索转化率低的问题。
多模态数据湖:构筑AI时代的数据新基建
Agent的规模化落地,离不开强大的数据底座。火山引擎数智产品总监王彦辉指出,Agent时代的数据平台面临非结构化数据存储、多模态数据处理、统一管理以及AI处理效率低下等多重挑战。
为此,火山引擎推出了以LAS Processing Agent为核心的多模态数据湖解决方案,旨在构建处理与推理一体化的AI时代数据新基建。该方案在关键技术上实现了全面革新:
· 湖存储: 引入新一代多模存储格式Lance,原生支持多模态数据,提供高性能随机访问和零成本加列能力,解决AI场景下大字段和高频打标难题。
· 湖处理: 采用Daft、Ray等新一代多模态处理引擎,原生支持CPU与GPU异构计算,火山引擎还与Daft创始团队Eventual.Inc携手共建Daft中文社区。
· 湖管理: 拥抱开源Apache Gravitino,构建开放的AI MetaLake;并推出“AI算子广场”,提供超200种预训练算子,覆盖文档解析、图像OCR、音视频处理等,实现全链路自动化。
实践成果:GPU利用率提至96%,加速AI创新落地
火山引擎的多模态数据湖架构已在多个前沿行业得到验证。王彦辉分享,某智驾公司将其PB级数据架构升级至火山引擎新方案后,其单机8*A100 GPU的利用率从原先的60%大幅提升至96%,训练任务交付时间缩短了40%。此外,该方案还帮助国内某头部大模型公司将其训练数据从WebDataset迁移至Lance,彻底解决了数据检索时的读放大和Shuffle瓶颈问题。
展望未来,火山引擎表示将持续深耕Daft、Ray、Lance等新技术社区,强化多模态数据管理,深化处理与推理一体化,迈向全面的Agent驱动。火山引擎与NVIDIA在Data+AI领域的持续合作,将共同加速高性能AI计算在各行业的规模化落地,帮助企业在智能化浪潮中找到最务实的增长路径。
