设为首页收藏本站

行者疯

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 84|回复: 0
打印 上一主题 下一主题

DeepSeek统一AI芯和token定价,堪比秦统一六国和度量衡,加速CDN化

[复制链接]
跳转到指定楼层
楼主
发表于 2025-2-9 10:59:15 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
2025-02-09 01:25·算力百科
结论先行
  • Deepseek R1/V3 推理性价比最高的芯片是48GB 4090和RTX5090;DS训推的原生计算精度FP8、BF16、FP32三种,英伟达也只有Ada、hopper和Blackwell架构同时支持。而4090是ada架构、5090是Blackwell。4090性价比优势会持续很长时间,5090缺货是常态。
  • Deepseek的高效率、低成本的架构,让算力加速“CDN化”;DS足够优秀秦统一六国,让AI infra 失去核心价值,AIinfra的价值就是提高硬件使用效率,但是DS效率最够高,懂的都懂。
  • Deepseek部署运行三种模式:第一种参数加载在显存跑(常规),第二种参数加载在内存跑,第三种参数加载在硬盘跑,比如SSD,本文写第一种,后续会单独介绍第二种,第三种;
  • Deepseek时代,未来的智算中心将分三类A、B、C三类:

1)用于训练原创教师模型,简称A类(投入巨大),这类算力中心定位0到1的原创教师模型训练。需要使用万卡,十万卡,乃至百万卡的训练算力,这也是星际之门的主要用途,或者训练场项目的主要用途,这类不计成本投入,要的是先进性。

这类算力中心需要持续投资建设N卡H200 B200 甚至NVL72类似的设备,长期规划投资1000个小目标以上,并且持续深耕,投入型。

2)用于蒸馏1到N的学生模型,简称B类(已经饱和),这类算力中心,主要是蒸馏新的应用模型或者行业模型,按需使用,这类算力中心主要是A/H为主,主要考虑性价比。

这类算力中心基本上就利旧目前的A和H系列设备即可,设备roce即可,IB更好但是性价比不好,几十台到几百台为主,或者采购一部分高端的国产AI卡做个尝试,做尝试就有失败,做提前做好预期管理。

3)用于推理的算力中心,简称C类(大量需求),主要用于部署教师和学生模型,用于推理业务,主要考虑性价比,特别是互联网公司和创业公司,对性价比敏感。

这类的算力中心基本上就是利旧原有设备比如3090、4090或者910A/ B和其他国产卡,如果要新增一定是选择48GB 4090或者RTX50系列,定位推理算力,可以持续打价格战。
疯抢5090和4090的原因

DS的计算精度是FP8、BF16、FP32,所以选择芯片一定要支持这三种格式,效率是最高的。如果不支持三种格式,就需要转义,比如FP8用BF16或者FP16来代替,那么意味着效率损失。

官方版本RTX4090 只有24GB显存,显存带宽是1TB/S,国内目前大量出货的是48GB版本。



官方版本的RTX5090只有32GB显存,显存带宽1.8TB/S基本上跟A100对齐了,A100不支持FP8,未来5090会改成64GB版本甚至96GB版本。

从目前测试来看,部署R1 671B模型用于推理(实际和优化有关系,可参考)

1台 141GB H200 硬件成本220w,速率3780token/s(Nv官方)。
2台 80GB A100 硬件成本200w,速率1200token/s(实测测试)。
2台48GB 4090*8 硬件成本60w,速率1800token/s(实际测试)
3台 32GB 5090*8 硬件成本140w,速率 3500token/s(预估计算值)

综合得出结论,回归价值定价策略,先从实际产生token价值,48GB 4090 是目前推理性价比最高的卡。未来5090改成64GB或者96GB一定会超越48GB4090。

所以抢购5090是有实际价值的,目前已经抄到4w多,因此我们没有拿到实际的5090做实际测试,只是做了一个理论计算,未来测试补充。所以要抢购5090,抢购5090主要卖给两种用户1)游戏发烧友尝鲜 2)测评机构尝鲜测试或者研发破解64GB甚至96GB魔改。



国内唯一支持三种计算精度的国产芯


C类算力中心加速CDN化,类似秦始皇统一六国,统一度量衡!

CDN化的意思是替代性特别强并且大家为了抢市场都在打价格战,这不是大家希望的,但是又让市场回归价值定价的本质,也是好事。



DS架构最够优优秀,全球AI芯片统一适配,让MaaS服务真正落地实现,未来不同芯片厂商适配DS架构,大模型应用厂商不再需要关注底层模型和硬件差异化,大模型应用应用厂商可以同时接几家DS API,谁便宜调用谁的。 类似CDN业务同时接入几家CDN服务API,谁便宜,就用谁。

当DS屏蔽AI芯片差异化,直接调用芯片驱动,意味着彻底解决了芯片厂商绑架应用的情况,当项目需要扩容的时候,可以任一选择一家芯片品牌,真正实现“一云多芯,多芯混训”的技术架构,真正实现价值定价,推动算力普惠,加速算力“CDN化”!



分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|ZAGA 户外 ( 浙ICP备2023039045号 )  

GMT+8, 2025-6-10 14:07 , Processed in 0.061819 second(s), 20 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表