它就不错赢得更多工夫（即模拟工夫）

发布日期：2024-11-18 06:35 点击次数：194

（原标题：用众人最大芯片打造超算，细节曝光）

淌若您但愿不错频繁碰头，包涵标星储藏哦~

起原：内容来自nextplatform，谢谢。

劳伦斯利弗莫尔国度实验室、桑迪亚国度实验室和洛斯阿拉莫斯国度实验室在 HPC 社区中被简称为“三重实验室”，但这些 HPC 中心大约不错称为“尝试实验室”，因为它们历史上尝试过险些任何新的架构，以了解它在推动好意思国能源部的职责方面可能有何出路。

桑迪亚国度实验室是前锋诡计测试新架构的场地，当今它带着 Cerebras Systems 的第三代晶圆级系统再次纪念，但愿在一台信得过瞎想用于运行 AI 教育和推理的机器上碎裂传统 HPC 代码的性能遏制。

两年前，桑迪亚从 Cerebras 收购了数目省略的 CS-2 系统，每个系统齐有一个 CPU 主机和一个 WSE-2 晶圆级处理器，倡导是将一些矩阵密集的 HPC 筹画卸载到 WSE-2 引擎上的 16 位浮点中枢上。

为什么桑迪亚甚而会探究将其 64 位或 32 位体式的筹画精度镌汰四倍或两倍？因为这些 WSE-2 引擎（正如咱们在 2022 年 3 月详备先容的那样）将 850，000 个内核和 40 GB 的片上 SRAM 内存（蚀刻在 2.6 万亿个晶体管中）塞进一个餐盘大小的方形硅片中，具有 20 PB/秒的内存带宽和 6.25 千万亿次浮点运算的密集矩阵和 62.5 千万亿次浮点运算的稀少矩阵。

咱们的思法是，关于某些类型的做事负载，淌若问题顺应内存，或者不错领会为跨越这些中枢的部分，那么在单个大型开荒上进行筹画不错使 HPC 模拟运行得更快。

本年早些时候，桑迪亚国度实验室的一个商榷小组诠释注解了这少量，单个 CS-2 系统在某种分子能源学模拟中打败了橡树岭国度实验室的“Frontier”超等筹画机。

更大的 Frontier 机器领有 37，632 个 AMD “Aldebaran” MI250X GPU 加快器，不错模拟晶格中的大齐原子，但由于这些 GPU 集群的蔓延性较弱，它无法模拟长工夫舞动的原子。节点之间的延长使这成为不行能。

然则，使用修订的 LAMMPS 分子能源学模拟，桑迪亚建设了一个测试，其中钨、铜和钽晶格由静态原子数构成——801，792，足以让一个 WSE-2 中枢保存一个原子的数据——然后模拟这些晶格受到发射冲击。与巨大的 Frontier 系统中的 GPU 比较，桑迪亚在一台 WSE-2 筹画引擎上进行的 LAMMPS 模拟中每秒可处理的工夫步数关于铜高 109 倍，关于钨高 96 倍，关于钽高 179 倍。这为 Cerebras 铁上的模拟提供了数十毫秒的工夫，正如咱们那时指出的那样，有弥散的工夫来本色不雅察当你用能量戳晶格时晶格会发生什么。

在 Frontier 机器上，该欺诈措施的蔓延在 32 个 GPU 时逐渐减轻，这令东说念主失望，况且标明关于某些类型的欺诈措施来说，很难在单个筹画开荒除外进行蔓延。

那时，咱们推测，淌若 Sandia 升级到本年 3 月推出的 CS-3 系统中的 WSE-3 筹画引擎，它就不错赢得更多工夫（即模拟工夫）。借助 WSE-3 引擎，Cerebras 将晶体管缩小到 5 纳米（WSE-2 为 7 纳米），并将中枢数目增多到 900，000 个，但转动到 8 宽 FP16 SIMD 单位，是 WSE-2 和 WSE-1 引擎中使用的 SIMD 单位宽度的两倍。咱们觉得 WSE-3 的时钟速率提高了约 5%，当你将时钟速率、中枢最初和 SIMD 升迁相乘时，这等于 WSE-3 的性能是 WSE-2 的 2 倍的原因。

咱们臆想，通过从 WSE-2 移至 WSE-3，万生资讯这种性能升迁可能会将钽晶格发射的模拟窗口从 40 毫秒增多到 80 毫秒。比较之下，Frontier 机器上的这些节点模拟工夫约为 200 纳秒。

嗯，看起来桑迪亚国度实验室的东说念主们思要得到一些 WSE-3 筹画引擎并一探究竟。咱们还热烈怀疑他们思弄清澈是否不错将模拟蔓延到多个晶圆上并碎裂 1 秒模拟遏制。

也许是为了这个倡导，也为了其他倡导，桑迪亚国度实验室和 Cerebras 还是初始构建一个混名为“Kingfisher”的系统，该系统将以四个 CS-3 系统初始，并将在异日某个时候蔓延到八个系统。Kingfisher 集群将在传统的 HPC 模拟做事和 AI 做事上加倍奋勉——虽然是生成式 AI，但不一定仅限于此——这不错增强三实验室在国度核安全局的复古下进行的处理，该局资助三实验室处置好意思国军方的核火器库存。具体来说，Kingfisher 是由核威慑高档模拟和筹画东说念主工智能诡计资助的。

桑迪亚商榷东说念主员 Thuc Hoang、Ann Gentile、Andrew Younge、Si Hammond、James Laros 和 Kevin Stroup 站在 Kingfisher 操纵。

在晓谕 Kingfisher 系统的声明中，一直引导桑迪亚 CS-2 系统做事的商榷东说念主员之一 James Laros 示意，实验室正在探索使用异日版块的 WSE 筹画引擎“用于 Mod-Sim 和 AI 做事负载的组合”的可行性。咱们曩昔曾与 Cerebras 聚积独创东说念主兼首席施行官 Andrew Feldman 开打趣说，寰宇信得过需要的是一个领有 64 位 SIMD 引擎的 WSE，该引擎不错蔓延到 FP64 精度，甚而不错镌汰到 FP4 精度，况且不错动态施行，可能是在晶圆上的不同块中，也可能是在代码运行时动态施行，因此表面上 HPC 中心的任何代码齐不错在 Cerebras 硬件上运行。

淌若有弥散多的东说念主这样说，况且有弥散多的东说念主为此提供资金，也许这就会兑现。对咱们来说，这些齐不是笑翠鸟。Nvidia 不再专注于其 GPU 的 FP64 性能。

Kingfisher 系统的资本尚未公布，但咱们知说念，按照标价（不管 HPC 规模的标价是些许），昨年 G42 初始与 Cerebras 相助，基于 CS-2 机器构建“Condor Galaxy”集群时，配备单个 WSE-2 的 CS-2 系统的资本约为 160 万好意思元。也许这意味着要得到 CS-3，价钱要高涨 1.5 倍，或者可能高涨 2 倍。在一个条款每一代齐价廉物美的寰宇里，230 万好意思元到 250 万好意思元可能是合理的。在一个需要更高性能且选拔很少的寰宇里，320 万好意思元的 CS-3 节点资本是合理的。不管奈何，咱们觉得桑迪亚不会为机器支付接近标价的价钱，但同期但愿匡助资助那些可能匡助其更好地运行模拟的公司。咱们不错确定地告诉你的是，Frontier 的 32 GPU 部分仅消费约 425，000 好意思元，但它只可蔓延到这样大。

那么，增多原子数目和增多模拟工夫对 NNSA 来说有什么价值呢？可能价值很大。

股票配资网

咱们期待进一步了解 Kingfisher 所作念的事情以及它是奈何作念到的。

临了一件事：桑迪亚团队在 Cerbras 晶圆级系统上进行的分子能源学商榷将角逐本年的戈登贝尔奖。咱们但愿他们能获奖，这样 GPU 供应商们就得工夫保合手警惕了。

https://www.nextplatform.com/2024/11/14/sandia-to-push-both-hpc-and-ai-with-cerebras-kingfisher-cluster/

半导体杰作公众号保举

专注半导体规模更多原创内容

温和众人半导体产业动向与趋势

*免责声明：本文由作家原创。著述内容系作家个东说念主不雅点，半导体行业不雅察转载仅为了传达一种不同的不雅点，不代表半导体行业不雅察对该不雅点赞同或复古，淌若有任何异议，包涵关联半导体行业不雅察。

今天是《半导体行业不雅察》为您共享的第3949期内容，包涵温和。

『半导体第一垂直媒体』

根据彭博数据，市场平均料快手第4季收入326.02亿元(人民币，下同)，按年增15%；经调整纯利31.94亿元，2022年同期为亏损4532万元。