(原标题:自研DPU发布:微软芯片,火力全开)
如若您但愿不错常常碰面,饶恕标星储藏哦~
在今天的Ignite开发者大会上,微软发布了两款专为其数据中心基础设施联想的新芯片:Azure Integrated HSM和Azure Boost DPU。
这些定制联想的芯片霸术在将来几个月内发布,旨在措置现存数据中心濒临的安全性和效力差距,进一步优化其奇迹器以轻率大限度 AI 使命负载。微软此前已发布Maia AI 加快器和 Cobalt CPU,这是该公司全面策略的又一大步,该策略旨在再行想考和优化其堆栈的每一层(从芯片到软件),以维持先进的 AI。
入局DPU
昔日几年,CSP厂商都纷繁入局自研了DPU,但看成世界率先的厂商,微软在这方面相等淡定,昔日多年一直坚合手在使用基于FPGA打造的家具。但今天,他们终于表现了首款自研的DPU家具。在微软看来,数据处理单位 (DPU) 针对需要以网罗线速处理巨额数据的任务进行了优化。不错看成以数据为中心的开辟(如存储系统)的悲怆处理器运行。
据先容,公司首款DPU名为Azure Boost DPU ,旨在高效、低功耗地运行 Azure 以数据为中心的使命负载。通过将传统奇迹器的多个组件整合到一块硅片中。Azure Boost DPU 将高速以太网和 PCIe 接口以及网罗和存储引擎、数据加快器和安全功能集成到一个十足可编程的片上系统中。
微软同期暗意,Azure Boost DPU 专为 Azure 基础架构构建,是一种软硬件协同联想,可运行自界说的轻量级数据流操作系统,与传统竣事比较,可竣事具有更高性能、更低功耗和更高效力的敏捷平台。
举例,与现存 CPU 比较,微软展望 DPU 运行云存储使命负载的功耗将裁减三倍,性能将提高四倍。此外,基于 DPU 的系统添加了一个自界说应用门径层,该层愚弄 DPU 细巧集成的数据压缩、数据保护和加密引擎,为安全性和可靠性设立了新圭臬。
微软在共享的博客著作中写说念:“Azure Boost DPU 专为 Azure 上的横向膨胀、可组合使命负载而联想,可为其云基础设施提供跨存储、网罗、加快等方面的效力。”
谈到为何推出这颗DPU,微软在博客著作中指出,看成优化 Azure 基础架构的全面法子的一部分,公司正在勤奋放弃阻截竣事客户价值的基础架构赶走 — 不管是性能瓶颈照旧资源赶走。咱们正在从硅片到系统再到软件的每个层面进行改进,以增强基础架构的安全性、效力、性能、机动性和限度。
微软合计,在云和东说念主工智能期间,通过网罗安全可靠地存储和迁徙巨额数据已成为关键挑战。几年前,公司看到需要一种新的以数据为中心的处理器架构来补充大型数据中心使用的 CPU 和 GPU,以轻率这些挑战。传统的 CPU 架构相等合乎通用任务,但在处理与数百万个网罗贯穿相对应的高度复用的数据流时却显过劲不从心。另一方面,GPU 挑升用于东说念主工智能使命负载的中枢大限度矢量和矩阵计较,因此它们也不太合乎以数据为中心的使命负载。
这些不雅察扫尾促成了一类新式硅片的开发,即数据处理单位 (DPU)。
对于这些DPU的基准测试,微软并莫得长远太多信息。Azure Boost DPU 在哪些使命负载上更节能,与哪些现存硬件比较,它的速率究竟更快?微软不异莫得长远,也莫得提到 Azure 客户何时不错看到这些收益。
但咱们不错知说念的是,微软的Azure Boost DPU 可能发源于 Fungible,这是一家 DPU 制造商,微软客岁 12 月收购了该公司。据报说念,微软以约 1.9 亿好意思元收购了这家由前苹果和瞻博网罗工程师创立的公司。收购后,Fungible 团队加入了微软的基础设施工程部门。
加码安全芯片
在推出自研DPU的同期,微软还发布了一颗新的安全芯片Azure Integrated HSM 。
对于云厂商有了解的读者应该知说念,微软的竞争敌手AWS 和 Google Cloud 也构建了我方的里面安全芯片。诚然AWS 的 Nitro 安全芯片和 Google Cloud 的 Titan“功能范围各不相通,但基本主张是相通的:为使用其奇迹的数百万用户提供十足安全的操作和数据环境。”
于是,微软全新的Azure Integrated HSM也亮相了。
据先容,这是一款全新的里面云安全芯片,它允许将签名密钥(基本上是数字加密签名)和加密密钥(用于加密数据的位串)包含在安全模块中,“而不会影响性能或增多蔓延”。微软指出:“从来岁驱动,Azure Integrated HSM 将装配在微软数据中心的每台新奇迹器上,以增强 Azure 硬件集群对好意思妙和通用使命负载的保护。”
Azure Integrated HSM 是微软继Pluton之后推出的第二款安全芯片,Pluton 是一款内置于英特尔、AMD 和高通处理器中的面向耗尽者的芯片。这亦然该公司对其云竞争敌手专有措置决议的回答。
定制芯片不错提高安全性,但并不是全能的。2020 年,商议东说念主员 发现 Apple 的 T2 安全芯片中存在一个“无法设立”的疏忽,这可能会让 Mac 濒临该芯片旨在提神的挟制。微软莫得提供关连 Azure Integrated HSM 疏忽测试的详备信息,但但愿跟着芯片的相近发布,微软会提供详备信息。
在备受瞩狡计黑客事件和政府严厉品评讲明曝光后,微软首席履行官萨蒂亚·纳德拉宣称,安全现在是公司的首要任务。
阐明微软的在一篇博客中所说,Azure Integrated HSM 旨在怡悦严格的联邦信息处理圭臬 (FIPS) 140-3 加密模块 3 级安全条款。Azure Integrated HSM 可在密钥和安全钞票使用流程中保护这些钞票。Azure Integrated HSM 具有专用的硬件加密加快器,可在加密、解密、签名和考据操作仍在集成 HSM 范围内时履行这些操作。
微软暗意,典型的云 HSM 奇迹是网罗上的连络式资源,可由云田户成立以向其各自的使命负载提供密钥奇迹。诚然这些模子提供了广泛的密钥保护,但它们很难像其他资源(如计较)那样机动地膨胀。此外,当使命负载需要使用其密钥时,它们要么在调用网罗贯穿的 HSM 奇迹时产生网罗来回蔓延,要么在其密钥策略允许的情况下,使命负载可能会央求从 HSM 开释其密钥并将其导入其土产货环境。当密钥从 HSM 开释并导入使命负载环境时,提供的安全保护可能会低于 FIPS 140-3 3 级。
Azure Integrated HSM 则放弃了在增多汉典 HSM 奇迹的网罗来回蔓延与寻求从汉典 HSM 开释密钥之间的传统量度。看成安全绑定到使命负载环境的奇迹器土产货 HSM,Azure 集成 HSM 为好意思妙和通用假造机和容器提供土产货附加的 HSM 奇迹。这提供了业界率先的使用中密钥保护的上风,而莫得来回网罗贯穿 HSM 调用的蔓延漏洞。
微软安全副总裁 Vasu Jakkal 也在一篇著作中写说念:“在现在快速变化的挟制时事下,受世界事件和东说念主工智能越过的影响,安全必须是首要商量的问题。”“新的挫折法子挑战了咱们的安全态势,迫使咱们再行想考世界安全社区怎么保护组织。”
定制带HBM的CPU
在发布了两颗in-house的芯片除外,微软此次大会还表现了一颗由AMD定制的,带有 HBM3 内存的EPYC CPU。
微软暗意,对于好多 HPC 客户来说,圭臬奇迹器联想的内存性能已成为竣事所需使命负载性能(洞悉时期)和资本效力的最大繁难。为了克服这一瓶颈,微软和 AMD 合营开发了具有高带宽内存 (HBM) 的定制第四代 EPYC 处理器。
据先容,在新推出的Azure HBv5 VM 假造机中,带有四个上定制的处理器,加上通盘附加功能,单个 HBv5 VM 可提供 450GB HBM3、352 个 Zen 4 中枢(时钟频率高达 4GHz),以及粗造 Epyc CPU 上可用的两倍 Infinity Fabric 带宽。不外,SMT(超线程)已被禁用。这些 VM 还具有 800Gb/s 的 Nvidia Quantum-2 InfiniBand 用于网罗交换。
按照tomshardware所说,四个 CPU 共有 352 个中枢,每个 CPU 有 88 个中枢,不外处理器上的每个中枢可能并非都走漏给假造机。每个 Zen 4 CCD 都有 8 个或 16 个中枢,具体取决于它是 Zen 4 照旧 Zen 4c;定制 CPU 要么使用 11 个 Zen 4 CCD,要么使用 6 个 Zen 4c CCD,其中一个 CCD 上的 8 个中枢被禁用。更可能的是,CPU 有 96 个功能皆全的中枢,其中 8 个保留用于操作假造机,可能充任编排或假造机治理门径的变装
成绩于这些成立,能提供近7 TB/s ( 6.9 TB/s)的内存带宽。比较之下,与最新的裸机和云替代决议比较,这高出 8 倍,比 Azure HBv3 和 Azure HBv2(带有 3D V-cache“Milan-X”的第三代 EPYC 和第二代 EPYC“Rome”)高出近 20 倍,比接近硬件生命周期末期的 4-5 年 HPC 奇迹器高出 35 倍。
下图炫夸了 Azure HBv5 VM 与前几代 Azure H 系列 VM 的 STREAM 性能比较。
外媒tomshardware暗意,这款“定制”的 AMD CPU 可能也不是那么定制,因为它听起来很像客岁传说的 MI300C 芯片。在他们看来,这款 CPU 展望实质上是 MI300A APU,但挑升配备 Zen 4 CCD 而不是 CDNA 3 显卡,从而允许使用带有 HBM3 的 96 核 CPU。MI300A 的 CPU 中枢时钟频率高达 3.7GHz,与用于 HBv5 的 CPU 收支不远,这标明定制的 Azure 处理器和 MI300C 可能是并吞款。
然而,尽管 HBv5 CPU 在时候层面上可能不是定制的,但它仍然是微软的专属 CPU。“它仅在 Azure 上可用,”微软工程师 Glenn Lockwood 在Bluesky上回答一位用户想知说念 AMD CPU 是否会成为成例 Epyc CPU 时如是说。
值得一提的是,如上所说,在这颗CPU中,他们集成了常见于GPU的HBM。
针对这个作念法,AMD 内存工程师 Phil Park 暗意,为什么咱们莫得早点看到EPYC+HBM?因为EPYC 一直专注于多半量市集,这便是为什么你看不到越过 2 个插槽的 EPYC。Park 在Bluesky上发帖称。“你不可换掉你的 DDR5 适度器,添加 HBM 适度器/堆栈,然后就完事了。HBM 强制某些联想遴荐(举例,每个 HBM3 堆栈都需要 16 个 64 位通说念)。”Park接着说。
换而言之,商量到机动性,是以咱们很少在CPU中看到HBM。因为如若你使用 了HBM,您无法升级容量,也无法获取具有更少通说念的低资本版块。而且,往往CPU 不需要那么大的带宽。
不外,咱们也必须承认的是,英特尔其实早就依然推出了基于 Sapphire Rapids 的 HBM 注入 CPU,称为 Xeon Max,用于Aurora 超等计较机,况且也普遍可用。
投资芯片初创公司
在自研和定制芯片除外,微软还通过投资芯片公司,膨胀其芯片布局。举例,频年来投资的,叫板英伟达的芯片初创公司d-Matrix,便是其最新极品。
d-Matrix 由 Sid Sheth 和 Sudeep Bhoja 于 2019 年创立,总部位于加利福尼亚州圣克拉拉。该公司已筹集 1.54 亿好意思元,并得到 25 多家公司的维持。新加坡淡马锡是最新 B 轮融资的领投方。微软的风险投资基金 M12 亦然投资者之一。
据该公司所说,d-Matrix 正在愚弄内存计较 (IMC) 时候与芯片级横向膨胀互连,构建一种进行数据中心 AI 推理的新法子。公司也将愚弄改进的电路时候、ML 器具、软件和算法攻克了内存计较集成的物理问题;措置了内存计较集成问题,这是 AI 计较效力的最终前沿。
近日,d-Matrix 也终于推出 Corsair,用于无需 GPU、HBM 的 AI 推理,平直叫板英伟达。从联想上看,Corsair 采选行业圭臬的 PCIe Gen5 全高全长卡外形,通过 DMX Bridge 卡贯穿成对的卡。每张 Corsair 卡都由多个 DIMC 计较中枢驱动,具有 2400 TFLOP 的 8 位峰值计较材干、2GB 的集成性能内存和高达 256GB 的片外容量内存。DIMC 架构可提供 150TB/s 的超高内存带宽。
按照他们所说,这是世界最高效的数据中心 AI 推理平台。在单台奇迹器中 Llama3 8B每秒处理 60,000 个tokens,每个tokens的蔓延为 1 毫秒。因此,该公司宣称,与 GPU 和其他替代决议比较,Corsair 提供了性能、动力效力和资本浅近。
家喻户晓,使用生成式东说念主工智能(称为推理处理)是一项内存密集型操作。它需要巨额内存,也需要相等快的内存,但两者兼顾如实很难。与处理器位于并吞芯片上的 SRAM 内存比,堆叠在 GPU 或加快器上的高带宽内存快一个数目级。但 SRAM 要小得多,因此很难处理可能具迥殊千亿个参数的模子。d-Matrix 有一个特有的措置决议,不错赢得这场拉锯战。
d-Matrix 采选夹杂内存法子,似乎能带来出色的成果,使用 SRAM 看成“性能内存”,使用更大的 DRAM 存储器看成“容量内存”。性能内存用于需要低蔓延交互的在线操作,容量内存用于离线使命。
Corsair 还配备了高达 256 GB 的片外容量内存 (DRAM),可在不需要低蔓延的离线用例中维持 Gen AI 使命负载。在容量形状下,Corsair 维持大型模子、大型高下文长度和大型批处理大小。举例,具有 8 张 Corsair 卡的奇迹器不错容纳越过 1 万亿个参数的模子。
据先容,Corsair 基于采选 6nm 制造工艺时候竣事的 Nighthawk 和 Jayhawk II 芯片。Nighthawk 包含四个神经中枢和一个 RISC-V CPU。
关连信息炫夸,d-Matrix的每个 Jayhawk II 芯片组都包含一个 RISC-V 内核来治理它,32 个 Apollo 内核(每个内核有 8 个并走时行的 DIMC 单位),256 MB SRAM,带宽为 150 TB/s,两个 32 位 LPDDR 通说念和 16 个 PCIe Gen5 通说念。内核使用带宽为 84 TB/s 的特殊片上网罗贯穿。每个带有 32 个 Apollo 内核/256 个 DIMC 单位和 256 MB SRAM 的芯片组不错以越过 1 GHz 的速率运行。
据TechInsights称,每个 DIMC 中枢每周期可履行 2,048 次 INT8 乘法累加 (MAC) 运算。每个中枢还不错使用行业圭臬 (INT8、INT32、FP16、FP32) 和新兴专有模样 (块浮点 12 BFP12、BFP16、SBFP12) 处理 64 × 64 矩阵乘法。
如上所述,该芯片依然成立为使用数字内存计较(DIMC)和包括块浮点(BFP)在内的多样数据类型来措置大模子推理。
据d-Matrix此前先容,这个新式 DIMC 架构通过细巧集成计较和内存冲破了内存壁垒。片上内存计较复合体的集成性能内存以其 150 TB/s 的超高带宽竣事了快速令牌生成,比现时可用的 HBM-3e 高出一个数目级。在性能形状下,Gen AI 模子可适合性能内存,与使用 HBM 的替代决议比较,可竣事高达 10 倍的交互蔓延。
同期,d-Matrix 亦然业内首批原生维持块浮点数值模样的公司之一,该模样现已成为一种称为微缩放 (MX) 模样的 OCP 圭臬,可提高推理效力。分层内存改进与 d-Matrix 的 Aviator 软件堆栈集成在一说念,为 AI 开发东说念主员提供纯熟的用户体验和器具。
d-Matrix 和谐创始东说念主兼首席履行官 Sid Sheth 暗意:“咱们预感到了transformers和生成式东说念主工智能的到来,并成立了 d-Matrix 来措置咱们这个期间最大的计较契机所带来的推理挑战。创举的 Corsair 计较平台为具有多个用户的高交互性应用门径带来了极快的tokens生成速率,使 Gen AI 具有贸易可行性。”
d-Matrix 断言,推理软件代理(agentic AI)和交互式视频生成的出现是 AI 材干和功耗的下一步培育,从而激励对篡改处理架构的需求。
Corsair 愚弄chiplet 封装以及内存和计较的细巧集成,而 d-Matrix 则提供 Aviator 软件堆栈来维持 AI 开发东说念主员。
咱们也知说念,走访特别性能内存容量的另一种法子是通过膨胀,将好多 Corsair 集群在一说念。膨胀是使用基于芯片的架构竣事的,该架构具有 DMX Link 以竣事高速节能的芯片到芯片贯穿,以及 DMX Bridge 以竣事卡到卡贯穿。
https://techcommunity.microsoft.com/blog/azureinfrastructureblog/enhancing-infrastructure-efficiency-with-azure-boost-dpu/4298901
https://techcrunch.com/2024/11/19/new-in-house-chips-round-out-microsofts-portfolio/
https://techcommunity.microsoft.com/blog/AzureInfrastructureBlog/securing-azure-infrastructure-with-silicon-innovation/4293834
https://www.tomshardware.com/pc-components/cpus/amd-crafts-custom-epyc-cpu-for-microsoft-azure-with-hbm3-memory-cpu-with-88-zen-4-cores-and-450gb-of-hbm3-may-be-repurposed-mi300c-four-chips-hit-7-tb-s
https://www.eenewseurope.com/en/d-matrix-launches-corsair-for-ai-inference-without-gpus-hbm/
https://www.forbes.com/sites/karlfreund/2024/11/19/d-matrix-emerges-from-stealth-with-strong-ai-performance--efficiency/
半导体精品公众号推选
专注半导体范围更多原创内容
关爱世界半导体产业动向与趋势
*免责声明:本文由作家原创。著作内容系作家个东说念主不雅点,半导体行业不雅察转载仅为了传达一种不同的不雅点,不代表半导体行业不雅察对该不雅点赞同或维持,如若有任何异议,饶恕研究半导体行业不雅察。
今天是《半导体行业不雅察》为您共享的第3952期内容,饶恕关爱。
『半导体第一垂直媒体』
及时 专科 原创 深度
公众号ID:icbank
心爱咱们的内容就点“在看”共享给小伙伴哦