本文首先简要概述 AMD 联合甲骨文(Oracle)共建超大规模 AI 芯片集群的合作背景、意义与总体架构,并指出这次合作如何引领年度最强算力落地趋势。随后从“技术架构与规模部署”、“性能优势与成本控制”、“生态协同与开放策略”、“行业影响与市场格局”四个维度展开详细阐述,每个维度分别分三段或以上来分析与说明。最后在总结部分对全文进行归纳梳理,指出此次合作在 AI 基础设施领域的里程碑价值与未来发展趋势。
从技术架构来看,AMD 与甲骨文共建的超大规模 AI 芯片集群本质上依托的是 AMD 的高性能加速器(如 MI300X、后续 MI355X 系列等)与 Oracle 云基础设施(OCI)相结合的模式。甲骨文在其云平台内部引入 AMD 的 GPU 加速器,并在其超级集群(Supercluster)环境中支持数千乃至上万片加速器的并行协同运算。citeturn0search2turn0search18turn0search6
在规模部署层面,这次合作选择在 OCI Supercluster 中支持最高可达 16,384 片 AMD Instinct MI300X 加速器的配置。citeturn0search18turn0search2 同时,甲骨文还计划在未来扩展至包括 MI355X 等更高性能加速器的集群,规模有望突破十万级别。citeturn0search8turn0search26turn0search19 这种大规模部署能够支撑大语言模型(LLM)训练与推理所需的极端算力。
此外,这样的架构部署还结合了高速互联网络、低延迟 RDMA 网络、超高速存储子系统等基础设施支持。甲骨文云内部的网络设计使得加速器节点之间的通信延迟得以压缩,从而提高模型训练与推理的效率。citeturn0search11turn0search6turn0search17 这意味着在大规模训练或跨节点并发推理时,通信瓶颈得以控制,从而释放硬件性能潜力。
在性能方面,AMD 的 MI300X 及其升级版本在计算密集型 AI 任务中具备较强的竞争力。OCI 上运行大模型推理时,Oracle 曾实测 Meta 的 Llama 2 70B 模型平均延迟约 1.5 秒,且随着批量大小线性扩展。citeturn0search0turn0search2 这说明在实际应用场景下,AMD 的加速器在延迟与吞吐之间具有较好的折中表现。
另一方面,合作也注重成本控制。相较于某些竞争方案,AMD 加速器在功耗、内存带宽、单位算力成本等方面具有一定优势。OCI 在其GPU实例定价中就指出,采用 AMD 加速器的实例在无虚拟化开销(bare metal)情况下可提供更高性价比。citeturn0search11turn0search20turn0search6 通常,采用裸机模式(无虚拟化层)的部署能消除虚拟化开销带来的性能损失。
此外,大规模部署还带来了规模效应,硬件采购、运营成本、能耗折旧、冷却设计、扩展规划等可分摊成本得以在更大规模下平滑分布。对于甲骨文而言,与 AMD 合作部署大规模加速器集群,可以将单位算力的总拥有成本(TCO)降至更具竞争力的水平。
这次 AMD 与甲骨文的合作,不仅仅是硬件层面的对接,更强调软硬件生态协同。AMD 的开源软件平台 ROCm(包含编译器、库、性能工具等)被集成于甲骨文的 AI 平台中,使得模型开发者能够在 AMD 加速器上更便捷地迁移与优化。citeturn0search2turn0search6turn0search17turn0search11 这种软件层面的兼容性,对于推动开发者采用新平台具有重要意义。
与此同时,甲骨文在其云平台上还试图构建一个开放的 AI 加速器生态,支持多种加速器并存(比如 AMD 与 NVIDIA 混合支持)以给予用户更多选择。OCI 云目前即支持包括 AMD、NVIDIA 多种 GPU 加速器的 bare metal 实例环境。citeturn0search11turn0search17turn0search6turn0search0 这种策略使得平台具备更高的灵活性,吸引不同需求的客户。
此外,在合作生态层面,AMD 与甲骨文也可能在上下游合作伙伴间布置协作机制,如芯片设计厂商、系统集成商、模型开发者、AI 应用提供商等。通过共同制定优化路径、联合调优模型、共享性能数据、联合推出定制加速方案等方式,可以深化彼此在 AI 基础设施领域的协同效应。
首要方面,这次合作具有极强的标志性意义,向业界展示了除 NVIDIA 之外,AMD 在大型 AI 基础设施领域的可行性与竞争力。在长期以来 GPU 加速器市场几乎被 NVIDIA 主导的局面下,AMD 的参与将为整个产业带来更多选择性与多元化竞争压力。
其次,在云服务与 AI 基础设施市场格局上,此次合作有可能推动甲骨文在 AI 云市场中的竞争力提升。借助具有竞争力的硬件方案和性能/成本比优化后的集群部署,甲骨文在 AI 服务(训练、推理)领域能更好争夺市场份额,尤其对中大型企业客户具有吸引力。
第三,从投资与产业链的视角看,AMD 与甲骨文的合作或将引领更多云厂商、芯片厂商、加速器厂商探索类似合作路径。随着 AI 需求持续爆发,越来越多企业可能加快布局高性能 AI 基础设施合作,以争夺底层算力市场红利。
总结:
总体来看,AMD 与甲骨文共建超大规模 AI 芯片集群代表了 AI 基础设施领域一次具有里程碑意义的合作。它既在技术架构上实现了高性能与大规模部署的融合,也在性能与成本之间寻求平衡,同时兼顾了软硬件生态协同和市场竞争格局的重塑。
未来,随着加速器技术的演进(如 MI355X、MI450 等)和规模不断扩大,这样的合作模式有望在更广泛的云平台、更多行业落地,从而推动整个 AI 基础设施领域进入一个新的竞争与创新阶段。