整理 | 燕珊ag九游会网站全情尽享娱乐、赛事投注
据 The Information 最新报说念,英伟达下一代 Blackwell 芯片在高密度做事器机架中出现严重过热问题,导致假想变更和客户方面的部署延长。这让 Google、Meta 和微软等主要客户对能否如期部署 Blackwell 产生担忧。
过热问题或负担托付有磋议
英伟达早在本年 3 月发布了 Blackwell 系列产物,原有磋议是 2024 年第二季度发货,但之前还是因为假想症结而推迟。
据报说念,Blackwell GPU 在高密度做事器机架中靠近严重的过热问题。这些高密度做事器机架集成了 72 块 AI 芯片,每个机架功耗高达 120kW。但高密度和高功耗的假想带来了散热困难,不仅结果了 GPU 性能,还可能损坏硬件组件。
为解决这一问题,英伟达不得未几次休养机架假想,并对冷却系统进行工程转变。据悉,英伟达已换取供应商实施多项改进步调。
英伟达对此回答称,散热问题和假想变更是时刻确立中的无边历程,并重申正在与云做事商和供应商谄媚,确保最终产物相宜性能和可靠性条目。
戴尔文书,基于英伟达 GB200 NVL72 架构且采用液冷时刻的做事器机架已发货
在恭候 Blackwell 问题解决的同期,一些客户已运行考虑替代决策。据报说念,部分客户比如微软,已有磋议通过更换部分组件来定制 Blackwell 机架,以稳妥其数据中心需求。
一位云盘算公司高管显现,他们正在增多现时一代 Hopper 芯片的采购量。分析觉得,这可能在短期内进步英伟达的收入,尤其是 Hopper 芯片的利润率较高。有关词, 这种转向也可能减弱将来对 Blackwell 过头 NVLink 做事器的需求,对英伟达的永久增长组成潜在挟制。
在散热问题之前,因为封装假想的问题,Blackwell 芯片的发布至少被推迟了三个月。Blackwell 芯片采用台积电的 CoWoS-L 封装时刻,通过局部硅互连(LSI)桥已毕高达 10 TB/s 的数据传输速率。有关词,GPU 芯片、LSI 桥和主板之间的热扩张特点不匹配,曾导致芯片变形和系统故障。
为解决这一问题,英伟达休养了芯片结构,并重新假想模具,最终在 10 月底完成了修正。
Tom’s Hardware 指出, 尽管此类休养在大限制时刻推行中很常见,但照旧可能会进一步推迟 Blackwell 的预期发货时辰。
Blackwell 需求惊东说念主,
性能发挥屡更动高
Blackwell 芯片自觉布以来,商场需乞降温顺度一直很高。黄仁勋在此前采访中曾屡次暗示,商场对 Blackwell 芯片的需求强到“狂放(insane)”。
在近期的 MLPerf Training 4.1 基准测试中,Blackwell GPU 也陆续展现率先的性能。
上周,英伟达公布了 Blackwell GPU 在 MLPerf v4.1 AI 考试职责负载方面的成绩——在 MLPerf Training 4.1 的测试中,考试 Llama 270B 模子的速率较前代 Hopper GPU 快了达 2.2 倍。此外,收货于 HBM3e 高带宽内存的诳骗,Blackwell 仅需 64 块 GPU 即可完成此前需 256 块 Hopper GPU 智商达到的盘算任务。
与此同期,Hopper 平台也在抓续优化。在本轮 MLPerf 考试测试中,Hopper 的每 GPU GPT-3 175B 考试性能比初次引入该基准时提高了 1.3 倍。
分析师无数觉得,AI 诳骗的发展仍处于早期阶段,Blackwell 的推出将陆续激动英伟达事迹增长。摩根士丹利瞻望,Blackwell 新产物线将在 2025 年第一季度进步公司收入,瞻望销售额将在 50 亿至 60 亿好意思元之间。
跟着 Blackwell 瞻望于 2025 年 1 月底运行大限制托付,其本体发挥能否知足商场预期,将成为接下来不雅察的重心。
AMD 推出新款 AI 芯片
挑战 Blackwell
在英伟达极力解决时刻问题的同期,AMD 也在加快进犯 AI 芯片商场。上个月,AMD 文书推出全新 AI 芯片 Instinct MI325X,况兼有磋议在 2024 年底前运行分娩。AMD 的这一看成被觉得是对英伟达在 GPU 商场主导地位的挑战。
现在,英伟达的 GPU 在 AI 芯片商场占据 90% 以上份额,而 AMD 一直稳居第二。这次发布的 MI325X 是客岁推出的 MI300X 的继任者,AMD 有磋议每年发布一款新芯片,以更快反应商场需求并数落与英伟达的差距。
AMD 瞻望,到 2028 年,AI 芯片商场限制将达到 5000 亿好意思元。AMD CEO 苏姿丰暗示,“AI 需求正在赶紧超出预期,群众范围内的投资仍在加快。”在性能方面,苏姿丰暗示,MI325X 在处理 Meta 的 Llama 3.1 模子时推感性能比 Nvidia H200 进步 40%。
天然 AMD 莫得文书新的客户名单,但公司此前已显现过 Meta、微软和 OpenAI 正在使用其 AI 芯片的音信。AMD 也强调,其芯片在生成内容和预测类 AI 诳骗中具有上风,这收货于其先进的内存假想。
有关词,英伟达的 CUDA 谈话已成为 AI 确立的事实圭臬,当时刻生态和商场上风仍然是 AMD 最大的竞争防碍。有分析指出,跟着 Meta、微软等云巨头对 AI 需求的抓续增长,AMD 有机判辨过价钱和性能的各异化计谋,迷惑更多客户,尤其是在生成式 AI 模子推理等细分范围。
参考筹商:
https://www.reuters.com/technology/artificial-intelligence/nvidias-design-flaw-with-blackwell-ai-chips-now-fixed-ceo-says-2024-10-23/
https://www.tomshardware.com/pc-components/gpus/nvidias-center-blackwell-gpus-reportedly-overheat-require-rack-redesigns-and-cause-delays-for-customers
https://blogs.nvidia.com/blog/mlperf-training-blackwell/
https://www.cnbc.com/2024/10/10/amd-launches-mi325x-ai-chip-to-rival-nvidias-blackwell-.htmlag九游会网站全情尽享娱乐、赛事投注
机架英伟达芯片Hopper微软发布于:北京市声明:该文不雅点仅代表作家本东说念主,搜狐号系信息发布平台,搜狐仅提供信息存储空间做事。