英特尔Gaudi 3发布性能不输H200 AI PC进入“百TOPS”算力时代

“当前，围绕AI的创新正以前所未有的速度发展，每家公司都在加速成为AI公司，这一切都需要半导体技术提供支持。从PC到数据中心再到边缘，英特尔正在让AI走进千行百业。我们将再次改变世界！”

4月9日，在美国亚利桑那举办的“Intel Vision 2024”上，面对AI所带来的机遇，英特尔CEO基辛格说出上述豪言壮语。

在此次大会上，英特尔宣布推出全新一代AI加速芯片Gaudi 3，数据中心处理器Xeon6以及下一代酷睿Ultra客户端处理器家族（代号Lunar Lake），集中展示了其在AI方面的强大创新能力。

AI PC进入100TOPS时代今年出货4000万台

英特尔首次提出AI PC概念，在去年底举行的主题为“AI Everywhere”发布会上，英特尔正式推出面向AI PC的处理器产品——代号Meteor Lake的酷睿Ultra。

酷睿Ultra被英特尔视为40年来最大的架构转变，采用分离式模块架构，首次采用Intel 4制程工艺，也是首个集成NPU的英特尔CPU，整体AI算力34TOPS，可支持200亿大模型在终端运行。

基辛格表示，英特尔酷睿Ultra处理器为生产力、安全性和内容创作提供了全新能力，并为企业焕新其PC设备提供了巨大动力。截至目前，AI PC出货超过500万台，预计2024年将出货4000万台，以及超过230种的设计，覆盖轻薄PC和游戏掌机设备。

基辛格介绍，英特尔将于2024年推出的下一代英特尔酷睿Ultra客户端处理器家族（代号Lunar Lake），将具备超过100 TOPS平台算力，以及在神经网络处理单元（NPU）上带来超过46 TOPS的算力。相比于上一代产品，AI性能提升3倍。

目前，行业对于AI PC所具备的算力要求一般在40TOPS左右，如高通去年年底推出的45TOPS算力的 Snapdragon X Elite平台，以及AMD的锐龙8040移动处理器的39TOPS等，而此次英特尔推出的新一代的酷睿Ultra，将首次实现AIPC的平台整体算力突破100TOPS，显著提升AI PC的能力表现，也为AI PC注入更多创新的可能。

此外，英特尔发布了涵盖英特尔酷睿Ultra、英特尔酷睿、英特尔凌动处理器和英特尔锐炫显卡系列产品在内的全新边缘芯片，主要面向零售、工业制造和医疗等关键领域。英特尔边缘AI产品组合内的所有新品将于本季度上市，并将在今年年内获得英特尔Tiber边缘平台的支持。

Gaudi 3性能不输H200 Q3上市

去年英特尔Gaudi 2加速器发布时便引发广泛关注，被视为AI领域英特尔向英伟达发起冲击的信号。

此次发布的Gaudi 3采用5nm工艺，具有64个第五代张量处理核心和8个矩阵计算引擎，采用128GB 速率达 3.7TB / s 的 HBM2e 内存和 96MB 速率达 12.8TB / s的SRAM，还具有24个200 Gbps以太网 RDMA NIC以及最高 16 条 PCIe 5.0 总线。

Gaudi 3 可以支持基于还支持多模态、大语言模型、文本/图片生成、翻译、问答等常见 AI 功能。

在软件生态方面，英特尔 Gaudi 3 针对生成式 AI 提供端到端全栈 AI 软件解决方案，包括嵌入式软件、软件套件、AI 软件、AI 应用。

英特尔称，与英伟达H100芯片相比，训练性能提高170%，推理能力提高50%，能效平均提高40%，运行人工智能模型的速度是H100的1.5倍。此外，英特尔表示，Gaudi 3将与英伟达最新的H200大致相当，在某些领域甚至表现更好。

据了解，和上一代产品相比，Gaudi 3的FP8性能提升两倍，BF16 性能提升四倍，网络带宽提升两倍，内存带宽提升1.5倍。Gaudi 3的产品线包括加速卡HL-325L，PCIe CEM以及服务器主板HLB-325。

英特尔Gaudi 3提供开放的、基于社区的软件和行业标准以太网网络，允许企业灵活地从单个节点扩展到拥有数千个节点的集群、超级集群和超大集群，支持大规模的推理、微调和训练。按照计划，英特尔将于2024年一季度将率先推出Gaudi 3 风冷版样品，二季度推出液冷版样品，并今年第三季度通过 OEM 系统大批量上市。

Xeon6焕新性能能效双路出击

英特尔至强处理器为运行当前的生成式AI解决方案提供了性能高效的解决方案，包括使用专有数据生成特定业务结果的RAG。同时，英特尔还为面向数据中心、云和边缘的下一代处理器进行了品牌焕新，即英特尔至强6。

此次大会上，英特尔宣布为其数据中心 CPU 产品组合推出了全新品牌命名：原代号为 Granite Rapids 和 Sierra Forest 的芯片现在将被称为 "Xeon 6" 系列。这些芯片计划于今年上市，并将支持全新性能提升的标准化 MXFP4 数据格式。

英特尔在去年公布了其2023-2025年至强（Xeon）处理器路线图中，显示未来至强系列处理器将分为P-Core和E-Core两个系列产品线，前者就是之前传统的至强系列，后者是新增加的能效架构，将提供更好的电源效率。Xeon6是首次采用Inte3制程工艺的产品。

据了解，配备性能核的英特尔至强6处理器（此前代号为Granite Rapids）：包含了对MXFP4数据格式的软件支持，与使用FP16的第四代至强处理器相比，可将下一个令牌（token）的延迟时间最多缩短6.5倍，能够运行700亿参数的Llama-2模型。

而配备能效核的英特尔至强6处理器（此前代号为Sierra Forest），相比于第二代至强，机架密度提高2.7倍，机架数量从200个减少到72个；客户能以近3:1的比例替换旧系统，大幅降低功耗，每年能够节省100万瓦能耗。

英特尔方面表示，配备能效核（E-cores）的英特尔至强6处理器将于2024年第二季度推出，提供卓越的效率，配备性能核（P-cores）的英特尔至强6处理器将紧随其后推出，带来更高的AI性能。

此次会以上，通过超以太网联盟（UEC），英特尔正在驱动面向AI高速互联技术（AI Fabrics）的开放式以太网网络创新，并推出一系列针对AI优化的以太网解决方案。这些创新旨在革新可大规模纵向（scale-up）和横向（scale-out）扩展的AI高速互联技术，以支持AI模型的训练和推理，这些模型的规模日益庞大，每一代都会增长一个数量级。英特尔的产品组合包括英特尔AI网络连接卡（AI NIC）、集成到XPU的AI连接芯粒、基于Gaudi加速器的系统，以及一系列面向英特尔代工的AI互联软硬件参考设计。

此外，英特尔联合Anyscale、Articul8、DataStax、Domino、Hugging Face、KX Systems、MariaDB、MinIO、Qdrant、RedHat、Redis、SAP、VMware、Yellowbrick和Zilliz共同宣布，将创建一个开放平台助力企业推动AI创新。这一凝结全行业力量的计划旨在开发开放的、多供应商的生成式AI系统，通过RAG（检索增强生成）技术，提供一流的部署便利性、性能和价值。RAG可使企业在标准云基础设施上运行的大量现存专有数据源得到开放大语言模型（LLM）功能的增强。

英特尔Gaudi 3发布性能不输H200 AI PC进入“百TOPS”算力时代

相关

扫二维码关注C114微信