开云「中国」kaiyun体育网址-登录入口-开云(中国)kaiyun网页版登录入口他们把优化作念到了极致-开云「中国」kaiyun体育网址-登录入口

开云(中国)kaiyun网页版登录入口他们把优化作念到了极致-开云「中国」kaiyun体育网址-登录入口

发布日期:2026-03-31 10:40  点击次数:167

开云(中国)kaiyun网页版登录入口他们把优化作念到了极致-开云「中国」kaiyun体育网址-登录入口

英伟达刚刚从DeepSeek-R1激发的4万亿元暴跌中缓给力来开云(中国)kaiyun网页版登录入口,又濒临新的压力?

硬件媒体Tom‘s Hardware带来开年最新热议:

DeepSeek甚而绕过了CUDA,使用更底层的编程言语作念优化。

这一次是DeepSeek-V3论文中的更多细节,被东说念主挖掘出来。

来自Mirae Asset Securities Research(韩国翌日钞票证券)的分析称,V3的硬件服从之是以能比Meta等跳跃10倍,不错讲究为“他们重新开动重建了一切”。

在使用英伟达的H800 GPU西宾DeepSeek-V3时,他们针对我方的需求把132个流式多惩处器(SMs)中的20个修改成认真行状器间的通讯,而不是计较任务。

变相绕过了硬件对通讯速率的为止。

△ DeepSeek-V3 Technical Report

这种操作是用英伟达的PTX(Parallel Thread Execution)言语达成的,而不是CUDA。

PTX在接近汇编言语的层级运行,允许进行细粒度的优化,如寄存器分派和Thread/Warp级别的谐和。

这种编程很是复杂且难以珍惜,是以行业通用的作念法是使用CUDA这么的高等编程言语。

换句话说,他们把优化作念到了极致。

有网友暗示,要是有一群东说念主嫌CUDA太慢而使用PTX,那一定是前量化交往员。

一位亚马逊工程师建议灵魂责难:CUDA是否如故护城河?这种顶尖推行室不错有用行使任何GPU。

甚而有网友开动畅念念,要是“新源神”DeepSeek开源了一个CUDA替代决策……

那么事情是否真会如斯?

DeepSeek简直绕过了CUDA?

领先要明确的是,PTX仍然是英伟达GPU架构中的时刻,它是CUDA编程模子中的中间暗示,用于贯串CUDA高等言语代码和GPU底层硬件指示。

PTX肖似汇编言语,代码大略长这么:

△来自tinkerd.net

在骨子编译历程中,CUDA代码领先被编译为PTX代码,PTX代码再被编译为方针GPU架构的机器码(SASS,Streaming ASSembler)。

CUDA起到了提供高等编程接口和器具链的作用,不错简化修复者的责任。而PTX手脚中间层,充任高等言语和底层硬件之间的桥梁。

另外,这种两步编译历程也使得CUDA体式具有跨架构的兼容性和可移植性。

反过来说,像DeepSeek这种径直编写PTX代码的作念法,领先不仅很是复杂,也很难移植到不同型号的GPU。

有从业者暗示,针对H100优化的代码搬动到其他型号上可能服从打扣头,也可能根底不责任了。

是以说,DeepSeek作念了PTX级别的优化不料味着十足脱离了CUDA生态,但如实代表他们有优化其他GPU的本事。

事实上,咱们也能看到DeekSeek仍是与AMD、华为等团队精采妥洽,第一时代提供了对其他硬件生态的因循。

One More Thing

还有东说念主建议,如斯一来,让AI擅长编写汇编言语是AI自我改良的一个主义。

咱们不知说念DeepSeek里面是否使用AI赞助编写了PTX代码——

然而如实刚刚见证DeepSeek-R1编写的代码显耀普及大模子推理框架的运行速率。

Llama.cpp技俩中的一个新PR肯求,使用SIMD指示(允许一条指示同期惩处多个数据)显耀普及WebAssembly在特定点积函数上的运行速率,提交者暗示:

这个PR中的99%的代码齐是由DeekSeek-R1编写的。我独一作念的即是修复测试和编写领导(经过一些尝试和失实)。

是的,这个PR旨在解释大模子当今能够编写松弛的底层代码,甚而能够优化我方的代码。

llama.cpp技俩的创举东说念主查抄了这段代码后暗示“比预期的更爆炸”。

本文起首:量子位 ,原文标题:《“DeepSeek甚而绕过了CUDA”开云(中国)kaiyun网页版登录入口,论文细节再引热议,工程师灵魂发问:英伟达护城河还在吗?》

风险领导及免责条件 商场有风险,投资需严慎。本文不组成个东说念主投资建议,也未推敲到个别用户非凡的投资方针、财务景况或需要。用户应试虑本文中的任何成见、不雅点或论断是否相宜其特定景况。据此投资,包袱抖擞。

相关资讯
热点资讯
  • 友情链接:

Powered by 开云「中国」kaiyun体育网址-登录入口 @2013-2022 RSS地图 HTML地图