精选嫩鲍

浆果儿 女同 又一位英伟达\"杀手\"亮相:检修及推感性能是H100数倍,成本仅1/10

发布日期:2024-08-30 01:47    点击次数:186

浆果儿 女同 又一位英伟达\"杀手\"亮相:检修及推感性能是H100数倍,成本仅1/10

8月27日音问浆果儿 女同,在近日召开的Hot Chips 2024大会上,好意思国AI芯片初创公司SambaNova初度详备先容了其新推出的民众首款面向万亿参数范围的东说念主工智能(AI)模子的AI芯片系统——基于可重构数据流单位 (RDU) 的 AI 芯片 SN40L。

据先容,基于SambaNova 的 SN40L 的8芯片系统,不错为 5 万亿参数模子提供扶持,单个系统节点上的序列长度可达 256k+。对比英伟的H100芯片,SN40L不仅推感性能达到了H100的3.1倍,在检修性能也达到了H100的2倍,总领有成本更是仅有其1/10。

据先容,SambaNova SN40L基于台积电5nm制程工艺,领有1020亿个晶体管(H100为800亿个晶体管),1040个自研的“Cerulean”架构的RDU缱绻中枢,合座的算力达638TFLOPS(BF16),天然这个算力不算太高,然而要津在于SN40L还领有三层数据流存储器,包括:520MB的片上SRAM内存(远高于此前Groq推出的堪称推理速率是英伟达GPU的10倍、功耗仅1/10的LPU所集成的230MB SRAM),集成的64GB的HBM内存,1.5TB的外部大容量内存。这也使得其能够扶持万亿参数范围的大模子的检修和推理。

SambaNova在推出基于8个SN40L芯片系统的同期,还推出了16个芯片的系统,将可得到8GB片内SRAM、1TB HBM和24TB外部DDR内存,使得片上SRAM和集成的HBM内存之间的带宽高达25.5TB/s,HBM和外部DDR内存之间的带宽可达1600GB/s。高带宽将会带来理会的低延时的上风,比如运转Llama 3.1 8B模子,延时低于0.01s。

下图是SambaNova SN40L的里面结构,包括:缱绻单位(PCU)、存储单位(PMU)、网状开关(S)、片外存储器和IO(AGCU)。

SN40L 里面的缱绻单位(PCU)的里面架构,它具有一系列静态阶段,而不是传统的获取/解码等实施单位。PCU不错看成流媒体单位(从左到右的数据)运转,蓝色是交叉车说念减少树。在矩阵缱绻操作中,它不错用作缩短阵列。扶持BF16、FP32、INT32、INT8等数据类型。

下图是SN40L 的高档存储单位框架图。这些是可编程处置的暂存区,而不是传统的缓存。

SN40L 的网状网罗领有三种物理网罗,包括矢量网罗、标量网罗和适度网罗。

AGCU单位用于走访片外存储器(HBM和DDR ),而PCU用于走访片内SRAM暂存区。

下图是SN40L 的顶层互联接构:

SN40L 的要津中枢在于其可重构数据流架构浆果儿 女同,可重构数据流架构使其能够通过编译器映射优化各个神经网罗层和内核的资源分拨。

底下是一个例子,评释Softmax是如何被编译器拿获,然后映射到硬件的。

不错看到,将它映射到大言语模子(LLM)和生成式AI的Transformer模子,底下是映射。在解码器里面,有很多不同的操作。

下图是解码器放大图。每个方框内都是一个操作符。同期,频频不错运转多个操作符,并把数据保存在芯片上以便重用。

以下是SambaNova对运算符如安在GPU上会通的推测,不外他们也指出这可能不准确。

在RDU中,通盘这个词解码器是一个内核调用。编译器肃肃这种映射。

解码器看成RDU上的单个内核。

回到Transformer的结构,下图展示了解码器的不同功能。不错看到,每个函数调用都有启动支拨。

不是32个调用,而是写成一个调用。

换句话说,这意味着调用支拨减少了,因为只好一个调用,而不是多个调用。收尾,加多了芯片对数据作念灵验责任的时辰。

快播黄片

SambaNova 首席实施官兼首创东说念主 Rodrigo Liang 暗示:“借助数据流,你不错不断改变这些模子的映射,因为它是皆备可重构的。因此,跟着软件的改变,你得到的收益不是增量的,而是颠倒可不雅的,无论是在效果方面如故在性能方面。”

底下是SambaNova的16个SN40L芯片系统在Llama3.1 405B/70B/7B上的发达,在Llama 3.1 7B模子下,以皆备的16bit精度运转,其每秒的Token生成数尽然高达1100个。这比此前Groq推出的基于LPU(堪称推理速率是英伟达GPU的10倍,功耗仅1/10)的就业器系统在Llama 3 8B上的最快基准测试收尾每秒生成800个Token还要快。即使是在Llama3.1 405B模子上,以皆备的16bit精度运转,16个SN40L芯片的系统每秒Token生成数也能够高达114个。而在Llama 3.1 7B模子下,其每秒的Token生成数更是高达1100个。由于内存容量适度,与其最接近的竞争敌手需要数百块芯片来运转每个模子的单个实例,因为 GPU 提供的总玄虚量和内存容量相对较低。

SN40L在Llama 3.1 70B模子上进行批量推理和玄虚量缩放发达,跟着批量大小的变化,玄虚量接近理思范围。

据SambaNova 先容,基于8个SN40L芯片的表率AI就业器系统在运转80亿参数的AI大模子时,速率达到了基于8张英伟达H100加快卡的DGX H100系统的3.7倍(每生成20个Token所花费的时辰),而通盘这个词系统所占用的空间也只好DGX H100的1/19,模子切换时辰也仅有DGX H100系统的1/15。

在芯片推感性能方面,SN40L达到了英伟达H100的3.1倍;在检修性能方面,SN40L也达到了英伟达H100的2倍。

回想来说,SambaNova 不错在8个SN40L芯片的系统上运转数百个大模子(在16个SN40L芯片的系统上不错同期运转多达 1000 个 Llama 3 7B大模子),同期还能够保抓很快的反应速率,领有皆备精度。更为要津的是,其总领有成本比竞争敌手低 10 倍(天然未明确是哪款竞品芯片,但从前边的对比来看,应该说的是H100)。

“SN40L的速率展现了Dataflow的魔力,它加快了 SN40L 芯片上的数据挪动,最大规矩地减少了延长,并最大规矩地擢升了处理玄虚量。它比 GPU 更胜一筹——收尾即是即时 AI,”SambaNova Systems 蚁集首创东说念主、斯坦福大学盛名缱绻机科学家 Kunle Olukotun 暗示。

值得一提的是,在基于SN40L芯片的系统之上,SambaNova 还构建了我方的软件堆栈,其中包括本年2月28日初度发布的领有1万亿参数的Samba-1 模子,也称为 Samba-CoE(人人组合),其使得企业能够组合使用多个模子,也不错单独使用,并把柄公司数据对模子进行微长入检修。

天然,SN40L比拟当今的一些AI芯片来说,领有着权贵的上风,比如其可重构的数据流架构,不错更动硬件来心仪各样责任负载条件,使得其不错很好的处理图像、视频及文本等不同的数据类型,得当多模态AI哄骗。然而,相关于英伟达的GPU不错生动的处理多样模子来说,SN40L在生动性上如故要稍逊一筹,相关模子必须要过程成心的更动材干在其上头运转。况兼,英伟达雄壮的CUDA生态亦然一大挑战。

不外,在AI模子参数越来越大,所需的芯片数目和资金成本越来越高的配景之下,SN40L在性能和成本上的上风,以及关于万亿参数大模子的扶持,因此也有着与英伟达平直竞争的契机。概况正因为如斯,SambaNova也得到了成本的爱重,当今照旧累计得到了最初10亿好意思元的融资。

剪辑:芯智讯-浪客剑



热点资讯
相关资讯


Powered by 精选嫩鲍 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2024 版权所有