在 Ignite 2023 大会期间,微软首次宣布它已开发出自己的人工智能加速器芯片 Maia。今年早些时候,在 Build 开发者大会上,微软分享了其首个自主研发的人工智能加速器 Azure Maia 100 的更多细节。Maia 100 是台积电 5nm 节点上制造的最大处理器之一,专门为部署在 Azure 中的大规模 AI 工作负载而设计。
昨天,在 Hot Chips 2024 大会上,微软首次分享了 Maia 100 的规格,并透露了更多细节。你可以在下面找到它们的摘要。
Maia 100 规格:
- 芯片尺寸 - 820mm2
- 封装 - 采用 COWOS-S interposer 技术的台积电 N5 工艺
- HBM BW/Cap - 1.8TB/s @ 64GB HBM2E
- 峰值密度张量 POPS - 6bit: 3, 9bit: 1.5, BF16: 0.8
- L1/L2 - 500MB
- 后端网络带宽 - 600GB/秒(12X400gbe)
- 主机 BW(PCIe)= 32GB/s PCIe Gen5X8
- 设计 TDP - 700W
- 提供 TDP - 500W
Microsoft Maia 100 系统采用垂直集成方式,以优化成本和性能。它还采用定制服务器板,配备专门设计的机架和软件堆栈,以提高性能。
Maia 100 SoC 架构:
- 高速张量单元可为训练和推理提供高速处理,同时支持多种数据类型。该张量单元采用 16xRx16 单元结构。
- 矢量处理器是一个松散耦合的超标量引擎,采用定制指令集架构(ISA),支持包括 FP32 和 BF16 在内的多种数据类型。
- 直接内存访问(DMA)引擎支持不同的张量分片方案。
- 硬件 Semaphores 支持在 Maia 系统上进行异步编程。
- 为提高数据利用率和能效,大型 L1 和 L2 划痕垫采用软件管理。
Maia 100 采用基于以太网的互联技术和类似 RoCE 的定制协议,可实现超高带宽计算。它支持高达 4800 Gbps 的全收集和散射降低带宽,以及 1200 Gbps 的全对全带宽。
在软件方面,Maia 软件开发工具包(SDK)允许任何人快速将其 PyTorch 和 Triton 模型移植到 Maia。Maia SDK 包括几个供开发人员使用的组件,使他们能够轻松地将模型部署到 Azure OpenAI 服务。
开发人员可以选择两种编程模型对 Maia 系统进行编程。他们既可以使用 Triton(一种针对深度神经网络(DNN)的流行开源特定领域语言(DSL)),也可以使用 Maia API(一种针对 Maia 的定制编程模型,可通过更详细的控制实现最高性能)。此外,Maia 还原生支持 PyTorch 模型,开发人员只需更改一行即可执行 PyTorch 模型。
凭借其先进的架构、出色的开发者工具以及与 Azure 的深度集成,Maia 100 正在改变微软管理和执行人工智能工作负载的方式。微软是否会像谷歌对其 TPU 和亚马逊对其 Trainium 和 Inferentia 芯片那样向第三方组织开放 Maia 100 加速器,我们拭目以待。
有关 Maia 100 的更多信息,请点击下面链接查看微软官方博文: