结论先行
- Deepseek R1/V3 推理性价比最高的芯片是48GB 4090和RTX5090;DS训推的原生计算精度FP8、BF16、FP32三种,英伟达也只有Ada、hopper和Blackwell架构同时支持。而4090是ada架构、5090是Blackwell。4090性价比优势会持续很长时间,5090缺货是常态。
- Deepseek的高效率、低成本的架构,让算力加速“CDN化”;DS足够优秀秦统一六国,让AI infra 失去核心价值,AIinfra的价值就是提高硬件使用效率,但是DS效率最够高,懂的都懂。
- Deepseek部署运行三种模式:第一种参数加载在显存跑(常规),第二种参数加载在内存跑,第三种参数加载在硬盘跑,比如SSD,本文写第一种,后续会单独介绍第二种,第三种;
- Deepseek时代,未来的智算中心将分三类A、B、C三类:
1)用于训练原创教师模型,简称A类(投入巨大),这类算力中心定位0到1的原创教师模型训练。需要使用万卡,十万卡,乃至百万卡的训练算力,这也是星际之门的主要用途,或者训练场项目的主要用途,这类不计成本投入,要的是先进性。
这类算力中心需要持续投资建设N卡H200 B200 甚至NVL72类似的设备,长期规划投资1000个小目标以上,并且持续深耕,投入型。
2)用于蒸馏1到N的学生模型,简称B类(已经饱和),这类算力中心,主要是蒸馏新的应用模型或者行业模型,按需使用,这类算力中心主要是A/H为主,主要考虑性价比。
这类算力中心基本上就利旧目前的A和H系列设备即可,设备roce即可,IB更好但是性价比不好,几十台到几百台为主,或者采购一部分高端的国产AI卡做个尝试,做尝试就有失败,做提前做好预期管理。
3)用于推理的算力中心,简称C类(大量需求),主要用于部署教师和学生模型,用于推理业务,主要考虑性价比,特别是互联网公司和创业公司,对性价比敏感。
这类的算力中心基本上就是利旧原有设备比如3090、4090或者910A/ B和其他国产卡,如果要新增一定是选择48GB 4090或者RTX50系列,定位推理算力,可以持续打价格战。
疯抢5090和4090的原因
DS的计算精度是FP8、BF16、FP32,所以选择芯片一定要支持这三种格式,效率是最高的。如果不支持三种格式,就需要转义,比如FP8用BF16或者FP16来代替,那么意味着效率损失。
官方版本RTX4090 只有24GB显存,显存带宽是1TB/S,国内目前大量出货的是48GB版本。
![]()
官方版本的RTX5090只有32GB显存,显存带宽1.8TB/S基本上跟A100对齐了,A100不支持FP8,未来5090会改成64GB版本甚至96GB版本。
从目前测试来看,部署R1 671B模型用于推理(实际和优化有关系,可参考)
1台 141GB H200 硬件成本220w,速率3780token/s(Nv官方)。
2台 80GB A100 硬件成本200w,速率1200token/s(实测测试)。
2台48GB 4090*8 硬件成本60w,速率1800token/s(实际测试)
3台 32GB 5090*8 硬件成本140w,速率 3500token/s(预估计算值)
综合得出结论,回归价值定价策略,先从实际产生token价值,48GB 4090 是目前推理性价比最高的卡。未来5090改成64GB或者96GB一定会超越48GB4090。
所以抢购5090是有实际价值的,目前已经抄到4w多,因此我们没有拿到实际的5090做实际测试,只是做了一个理论计算,未来测试补充。所以要抢购5090,抢购5090主要卖给两种用户1)游戏发烧友尝鲜 2)测评机构尝鲜测试或者研发破解64GB甚至96GB魔改。
![]()
国内唯一支持三种计算精度的国产芯
![]()
C类算力中心加速CDN化,类似秦始皇统一六国,统一度量衡!
CDN化的意思是替代性特别强并且大家为了抢市场都在打价格战,这不是大家希望的,但是又让市场回归价值定价的本质,也是好事。
![]()
DS架构最够优优秀,全球AI芯片统一适配,让MaaS服务真正落地实现,未来不同芯片厂商适配DS架构,大模型应用厂商不再需要关注底层模型和硬件差异化,大模型应用应用厂商可以同时接几家DS API,谁便宜调用谁的。 类似CDN业务同时接入几家CDN服务API,谁便宜,就用谁。
当DS屏蔽AI芯片差异化,直接调用芯片驱动,意味着彻底解决了芯片厂商绑架应用的情况,当项目需要扩容的时候,可以任一选择一家芯片品牌,真正实现“一云多芯,多芯混训”的技术架构,真正实现价值定价,推动算力普惠,加速算力“CDN化”!