
芝能智芯出品
在以“模型的世界,应用的天下”为主题的百度AI开发者大会上,百度智能云发布了其新一代系统级智能基础设施的最新进展。
亮点包括正式点亮昆仑芯P800三万卡集群、推出昆仑芯超节点、全面升级百舸推理加速能力、以及千帆平台的智能体Pro和MCP服务,未来三年,推理降本将是企业最重要的工作。
百度智能云在努力通过底层算力(昆仑芯P800、超节点)、中间层软件优化(百舸推理加速)、上层平台(千帆)及应用(智能体Pro、MCP、客悦、一见)构建全栈能力,以实现高性能、低成本的大模型落地,并重点探讨推理降本的技术路径与商业价值。

Part 1
底层算力与推理效率的革命:
从三万卡集群
到推理降本的技术纵深
人工智能,尤其是大模型的时代,算力已然成为驱动技术进步和产业落地的“新电力”,纯粹的算力规模并不能完全代表其可用性和经济性。
如何将庞大的算力转化为高效、可负担的服务,是当前企业落地AI面临的核心挑战。
百度智能云在Create 2025大会上展示的底层基础设施进展,正是在试图回答这一问题,并以“推理降本”作为企业当前和未来三年的首要任务。

百度昆仑芯P800三万卡集群,三万卡的规模是一个非常庞大的智算集群,为承载大规模模型训练和推理提供了坚实的基础。
与通用GPU相比,自研AI芯片通常能更好地匹配自家软件栈和应用场景,实现更优的性能功耗比和成本控制。
大规模的集群背后涉及的是复杂的系统设计、网络架构、散热方案、供电系统以及集群调度与管理软件。保证三万颗芯片协同工作,发挥整体效能,其挑战是巨大的。
能在金融(招商银行)、央企(国家电网、中国钢研)、高校(同济大学、北京大学)等对稳定性、安全性、性能要求极高的领域实现规模化部署,说明该集群在工程鲁棒性和实际可用性上已达到较高水平。
为了进一步提升算力效率和降低成本,百度智能云推出了昆仑芯超节点。这是一个典型的系统级优化案例。
传统的服务器部署模式中,AI加速卡分散在不同的机器中,卡与卡之间的协同需要依赖机间网络通信。
当需要大规模卡协同(例如大规模并行推理或训练)时,机间网络的带宽和延迟会成为瓶颈,同时网络硬件(交换机、网线等)也构成显著的成本。

昆仑芯超节点的设计理念是将更多的AI加速卡(64张)集中到同一个机柜内,并优化机柜内的卡间互联。通过用更高速、低延迟的机内通信(例如高速背板或直连)替代部分机间通信,显著提升了卡间互联带宽(官方数据提升8倍)。
带宽的提升直接带来了训练性能的提升(单机训练提升10倍),更关键的是,对于推理任务,特别是并行度高、对延迟敏感的任务,单卡推理性能提升了13倍。
● 这种架构的成本优势体现在:
◎ 网络成本降低: 减少对昂贵的机间网络设备(如InfiniBand交换机)的依赖。
◎ 机房空间和能耗优化: 一个超节点机柜可能顶过去多台甚至数十台传统服务器,减少了所需的机柜数量、布线复杂度和整体能耗。
◎ 硬件利用率提升: 通过更高效的卡间协同,减少了等待时间,提高了AI加速卡的有效利用率。
昆仑芯超节点并非简单堆叠,而是通过创新的物理布局和网络架构,从系统层面解决了大规模AI算力部署中的瓶颈问题,直接指向了性能提升和成本降低。
沈抖明确提出“未来三年,推理降本,一定是企业最重要的工作”,这并非空穴来风。
● 大模型的生命周期包括训练和推理两个主要阶段。
◎ 训练是研发投入,虽然成本高昂,但通常是一次性的或周期性的。
◎ 推理则是模型投入生产、服务用户的持续过程。
随着大模型应用的普及,推理发生的频次呈几何级数增长,其累计成本将远超训练成本,成为企业运营AI服务的最大开销。
此外,推理还需要满足低延迟、高吞吐、高并发的要求。因此,推理效率和成本直接决定了AI应用的商业可行性。
● 百舸平台作为百度智能云的AI计算平台,其推理加速能力的升级正是围绕这一核心目标展开,推理优化通常涉及以下方面:
◎ 模型优化: 量化、剪枝、蒸馏(这部分更偏模型侧,千帆平台有支持)。
◎ 软件栈优化: 算子优化、图优化、内存管理优化。
◎ 系统调度与并行策略: 如何将推理任务高效地分配到多个计算单元上。
大模型推理通常分为Prompt阶段(处理输入)和Decode阶段(生成输出)。这两个阶段的计算模式和资源需求可能不同。
◎ PD分离允许系统根据任务特点(例如长文本Prompt或短文本生成)动态调整分配给Prompt和Decode阶段的计算资源比例(PD配比),实现资源的更精细化管理。
◎ Token级的负载均衡则进一步确保了每个计算单元在生成序列中的每个Token时都能被高效利用,避免了资源闲置,提升了整体吞吐。
◎ MOE(Mixture of Experts)模型通过激活模型中不同部分的“专家网络”来处理不同的输入,具有参数量巨大但实际激活量相对较小的特点。
然而,不同专家可能分布在不同的机器或计算卡上,专家间的通信会成为性能瓶颈。
百舸对MOE模型的多机专家并行进行极致优化,旨在减少这种跨设备通信的开销,从而大幅提升MOE模型的推理速度和吞吐。涵盖了从数据加载、模型加载、算子执行、显存访问到结果输出等整个推理 pipeline 的每一个环节。
通过对软件栈(如框架、驱动、调度器)进行深入的工程优化,减少不必要的开销,降低延迟,并最大化GPU(或昆仑芯)的有效利用率。
这些优化措施共同作用,使得作为千帆算力底座的百舸,实现了推理吞吐20倍、速度50%以上的提升。
这直接 translates into更低的单次推理成本和更高的服务容量,有力支撑了企业大规模部署大模型应用的需求,正是对“推理降本”这一战略目标的有力践行。
Part 2
平台能力与应用创新的双轮驱动:
让企业拥有“创造的能力”
如果说强大的底层算力是智能基础设施的“骨骼”和“血液”,那么平台能力和应用创新则是其“大脑”和“神经系统”。
百度智能云通过千帆大模型平台及其上的各种工具和服务,以及自研的垂直AI应用,为企业提供“系统级能力”,让企业能够结合自身数据和业务逻辑,“拥有创造‘创造的能力’”。
● 千帆平台作为大模型开发和应用的一站式平台,其价值在于提供丰富的模型选择和完善的开发工具链。
◎ 模型多样性: 平台接入超过100个模型,既包括百度自研的文心系列,也包括DeepSeek、Llama等国内外第三方模型。
这种开放策略满足了企业的多样化需求,允许企业根据具体任务、性能要求和成本预算选择最合适的模型。
◎ 模型开发工具链: 提供定制、精调等工具,使得企业可以在通用模型基础上,利用自己的私有数据进行训练,提升模型在特定领域的表现。
模型蒸馏工具链是其中一个重要的例子。智联招聘使用DeepSeek R1作为教师模型,ERNIE Speed作为学生模型进行蒸馏,成功在保证效果的同时,将成本降低至3成。
这再次呼应了“推理降本”的主题,通过模型小型化也是实现成本效益的关键技术路径之一。
对于企业而言,用更小的模型达到接近大模型的效果,意味着更低的推理成本、更快的响应速度和更少的计算资源需求。
Agent(智能体)被认为是大模型时代应用落地的主要范式之一,能够理解用户的意图,并自主规划、调用工具、执行任务。千帆平台升级的企业级Agent开发工具链,特别是智能体Pro的推出,提升了Agent的智能化水平和企业应用能力。
传统的Agent可能只是基于RAG(Retrieval Augmented Generation)进行简单的知识问答。
智能体Pro强调“推理式”和“深思熟虑”,意味着它具备更强的任务理解、逻辑推理和规划能力。
结合企业私域数据和知识库的Agentic RAG能力,让Agent不仅仅是检索信息,更能基于对任务的理解来制定检索策略,减少模型幻觉,提高回答的准确性和相关性。
Deep Research深度研究赋予Agent更强大的自主探索能力,能像人一样进行任务分解、信息筛选、整理,甚至模拟人类操作电脑进行网页浏览(computer use),主动收集探索式知识。结合工具调用(如绘图、写作),能够输出结构化的专业报告。
荣耀利用此能力开发科研应用,在复杂知识工作场景的应用潜力。对于企业而言,这大幅提高了信息收集、分析和报告生成等工作的效率。

MCP (Model/Capability/Plug-in) 服务可以理解为一个企业级的Agent能力组件市场或平台。开发者和企业可以在此开发和发布自己的Agent组件(如调用特定企业内部系统、连接特定行业数据库、执行特定业务流程的工具)。
MCP服务提供了托管和索引能力,使得Agent开发者可以更便捷地集成和调用这些行业特定或企业特定的能力,从而构建更强大、更符合业务需求的Agent。1000多个MCP Servers的初步规模,以及百度搜索的索引支持,预示着一个企业级Agent能力的生态正在逐步建立。
百度智能云不仅提供基础设施和平台工具,也基于这些能力打造并升级自身的垂直领域AI应用,为企业提供开箱即用的解决方案,同时也是其基础设施能力的最佳实践案例。
金融行业的营销场景复杂,需要高精准获客、高情商服务和高效流失预警。客悦·ONE通过AI驱动的智能交互,优化了用户旅程。
在理财撤单场景,AI能理解用户情绪、直接引导解决问题、并自动提取关键信息,简化流程,提升效率。
这背后是自然语言处理、情感分析、意图识别等多种AI技术的综合应用,构建在强大的底层算力和平台之上。
50余家金融机构、10余个场景的应用,验证了其在金融营销领域的实用价值。
传统的视觉AI应用开发(如缺陷检测)通常需要大量标注数据、复杂的模型训练和调优,门槛较高。一见5.0通过自然语言即可秒级生成专业级视觉AI应用,极大降低了开发门槛,使得一线业务人员也能快速构建应用。
结合云边协同,降低了应用成本。这背后是模型自动化、知识蒸馏、高效推理等技术的集成。中国钢研利用一见进行表面缺陷检测和金相分析,是其在工业场景下实现视觉智能规模化落地的成功案例。
小结
百度Create 2025大会所展示的智能基础设施,清晰地勾勒出了大模型时代企业AI落地的技术路径。
从底层的昆仑芯P800三万卡集群和超节点提供的强大且更具性价比的算力,到百舸平台在推理效率上的极致优化,再到千帆平台丰富的模型生态、强大的Agent开发工具(智能体Pro、MCP服务),以及面向垂直领域的客悦和一见等开箱即用应用,百度智能云构建了一个覆盖“算力-平台-模型-应用”的全栈、系统级能力。
评论·0