作者 | ZeR0
编辑 | 漠影
芯东西5月26日报道,上周五,Ampere Computing通过视频发布了2023年最新战略及产品路线图,并宣布推出拥有多达192个单线程Ampere自研核的全新AmpereOne处理器,这一内核数量为当前业内最高。
作为CPU领域的新生代,以及Arm系服务器CPU的玩家代表,Ampere近年来一直保持着强悍的战斗力,2020年推出业界首款云原生处理器Ampere Altra,2021年推出业界首款128核云原生处理器Ampere Altra Max,再到最新发布的AmpereOne系列处理器,不断推出更高效的计算引擎,满足从云到边缘等计算领域的需求。
【资料图】
“业内目前没有可以与AmpereOne系列处理器相匹敌的CPU产品,它可助力实现单机架性能最大化的云规模。”Ampere首席产品官Jeff Wittich说,“Ampere创造了一种新范式,证明了计算可以同时兼具巅峰能效和极致性能。”
Ampere早在两年多前就组建了专门的AI团队。此次AmpereOne也专门针对流媒体推荐、商品智能推荐、生成式AI等应用进行优化。在生成式AI方面,AmpereOne系列处理器以每机架性能高出2.3倍的优势领先于同行产品,在可根据文本提示生成图像的Stable Diffusion模型中胜出。
本周三,Jeff Wittich通过线上媒体沟通会向芯东西等中国媒体分享了关于AmpereOne路线图的更多信息。他谈道,AmpereOne现已投产并交付给客户,由于首次采用Ampere自研核心,这款全新处理器能够带给用户更多新的功能,包括实现更高效的管理、更优的资源配置、更好的能耗管理、更安全的云环境等。
一、5nm工艺,192个自研核,高能效服务器CPU新标杆
AmpereOne基于5nm工艺制造,能够为云工作负载提供更高的性能、更高的可扩展性以及更高的密度。这是第一款基于Ampere新自研核的产品,由Ampere自有IP全新打造,拥有多达192个单线程Ampere核,内核数为业界最高。
192核意味着什么呢?Jeff Wittich举了一个具体场景的例子来说明:比如在云环境中运行虚拟机,对比96核的AMD Genoa或者60核的英特尔Sapphire Rapids,192核的AmpereOne每机架运行的虚拟机数量是AMD Genoa的2.9倍,是英特尔Sapphire Rapids的4.3倍。
此外,通过DDR5内存技术、128通道PCIe 5.0的设计,AmpereOne系列处理器不仅实现了性能的扩展,而且还具有一系列新功能,如网格拥塞管理、细粒度电源管理和内存标签等,为高性能、高利用率的多用户环境(如云)提高了性能一致性、可管理性和安全性。
据介绍,相较于传统的x86处理器,采用更早推出的Ampere Altra系列云原生处理器,单机架性能已经能够提高2.5倍,能耗大幅降低,且仅需占用原来1/3的空间。基于Ampere云原生处理器所建设的一座数据中心,在一年内减少的碳排放量相当于39000辆燃油汽车的排放量,或是35000户家庭的供电量。
而拥有更低能耗和更高性能的全新AmpereOne系列处理器,有望将Ampere在可持续方面的领先优势进一步扩大。
“我认为Ampere已经在高性能、高效率的云原生处理器中占领了一席之地,并一直引领市场,而且我相信我们会持续扩大这方面的领先优势。”Jeff Wittich谈道,“在设计产品的过程中,我们会确保所有的元素,从核到SoC,都能够帮助实现每瓦性能、每机架性能的提升。我认为这个战略会让我们持续取得成功。”
二、每机架生成式AI推理性能优势,领先于同行产品超2倍
在生成式AI方面,相比AMD Genoa,AmpereOne可以每秒多提供2.3倍的帧数,在运行Stable Diffusion模型中胜出;在运行DLRM模型的推荐系统中,通过AmpereOne响应的查询数量是AMD Genoa的每秒查询数量的两倍多。
Jeff Wittich说,AI一直是驱动数据中心算力需求提升的重要引擎之一,而生成式AI进一步加速了市场对算力的需求,Ampere的产品非常适用于大规模云计算场景的AI推理,目前已经有许多客户都在使用Ampere Altra系列处理器进行AI推理,并且得到Ampere Library中软件工具的支持。Ampere的产品不只适用于当前常见的大型语言模型,也适用于过去几年相对旧的模型。
对于AI推理而言,使用GPU会带来极高的能耗,而且容量扩展会受到制约,可部署的服务器数量也会受限制,而Ampere的云原生处理器通过提供出色的性能和能效,能够解决这些行业痛点。
2021年,Ampere收购了AI软件公司OnSpecta。OnSpecta通过创建AI软件助力硬件在AI负载之下运行更快。过去几年,Ampere AI团队的主要工作焦点包括:建立形成标准框架的Libraries,助力以更高性能运行Ampere Altra。除了在软件方面有所布局外,其AI团队还和硬件团队、架构团队在AmpereOne的特性上进行优化合作,包括通过创新内核设计来优化AI性能。
Jeff Wittich举例道,很多客户目前正在使用其处理器运行AI推理工作负载,比如Matoha,他们有鉴别特定材料(如玻璃、金属、织物)的应用程序,所以可以实现便捷回收。
三、适用于大算力需求,采用Chiplet设计
随着AmpereOne推出,Ampere的多个产品系列能够服务于不同的客户需求。目前已经在市场上持续交付的Ampere Altra系列处理器,包含了几款不同的产品,核数从32核到128核不等。
Jeff Wittich说,全新推出的AmpereOne系列处理器并不是要取代Ampere Altra系列,而是在Ampere Altra Max 128核的基础上,进行持续的扩张,将核数进一步提升到了最高可达192核。未来很长一段时间,Ampere Altra系列处理器还会继续销售,为Ampere的客户提供服务支持。
他也提供了一些辅助选择的参考建议:譬如在边缘计算的场景,32核、功耗40瓦的Ampere Altra处理器就够用;但对于一些有更大算力需求的客户,如大规模的数据中心,可能需要核数高达192核的AmpereOne系列处理器。
从架构来看,AmpereOne系列处理器采用了Chiplet设计。Jeff Wittich说,Ampere看到了大量采用Chiplet带来的许多优势,包括更高的灵活度、减少延迟、加快整个芯片设计周期以及更好地服务于Ampere的客户。
Ampere在Chiplet设计中实现了特定的拓扑结构(一个大计算Chiplet被数个控制Chiplet包围)、单一的计算裸片,还有单一大网格结构,使得数据可以通过高效的方式从内存传输到内核上,从而有助于为客户提供平衡的高性能。在实现了最佳的Chiplet架构之后,产品上市速度就会更快。
此外,Ampere还通过采用更好的、更先进的带宽技术,以及网格拥塞管理、内存和SLC QoS实施功能等优化方法,确保充分利用所有带宽,以应对内存墙或是通过内核数量的增加导致不均衡内存的问题。
面向未来,Ampere在持续增加内核数量、提升算力的同时,也会不断地向CPU中增加一些新的技术亮点,以增加内存带宽,比如会推出采用12通道DDR5的AmpereOne系列处理器版本。
四、预计单路服务器市场增长强劲
“我们看到单路服务器的市场有明显更强的增长牵引力和更强劲的增长。”Jeff Wittich说,Ampere Altra系列处理器和AmpereOne系列处理器,都能够满足单路和双路服务器的需求。
他解释说,之所以有那么多用户选择多路服务器,其实是出于各种各样的限制,算力不足、核数不够,还有内存、IO方面的不足等。出于不得以,在过去多数情况下大家用的是多路服务器。
多路服务器的应用普遍存在的一个矛盾是,尽管它是多路,大家会尽量去将工作负载分隔开,分到其中一个服务器插口上。在双路的系统中,有很多在不同的服务器插口之间迁移的数据。这样的额外工作最后可能会造成整体性能的损失。
Jeff Wittich谈道,客户们要想从双路转变到单路,仍需两个CPU来提供足够的算力,但随着Ampere处理器具备更多的核数、更高的算力、更多的IO、更高的内存,用户就没有必要再去使用双路服务器,而是可以通过单路来实现更好的解决方案。
采用单路的服务器,复杂程度降低了,而性能却提升了,性价比也更高,所以许多用户已经基于Ampere Altra或AmpereOne系列处理器实现了从双路服务器到单路服务器的转变。
结语:Arm服务器CPU渐成气候
过去十年,云计算产业飞速发展。随着市场规模不断扩大,云计算产业需要更高效的基础设施,来满足更高算力和绿色数据中心的双重需求。而Ampere推出的历代产品解决了单核性能与能耗之间的矛盾,为云计算产业提供了推动突破能耗限制的可持续之选,也因此成为服务器CPU赛道红透半边天的独立芯片新创公司。
如今,Arm服务器CPU从技术到市占率都渐有起色。根据知名市场调研机构Counterpoint公布的报告,2022年全球服务器CPU市场中,Ampere Computing的市占率达到1.52%,是仅次于英特尔、AMD、亚马逊云科技(AWS)的全球第四大服务器CPU供应商,也是全球第二大Arm服务器CPU供应商。随着英伟达基于Arm的服务器CPU在今年上半年推出,Arm服务器CPU阵容和在市场的影响力预计将进一步扩大。