DeepSeek当地模子显卡横评 显存没有够算力都白搭
- 编辑:足球滚球app下载 -DeepSeek当地模子显卡横评 显存没有够算力都白搭
DeepSeek当地化安排是当下热点的利用方法,它除了能够防止效劳器忙碌之外,当地化运转还可能极年夜水平维护用户的隐衷。现在DeepSeek有浩繁版本,此中模子容量差距可达数十倍,究竟该怎样抉择合适本人硬件的版原来安排,始终是用户比拟头疼的成绩。明天咱们就应用RTX 5090 D、RTX 5080、RTX 5070 Ti以及RTX 50188宝金博app下载70,共4张RTX 50系显卡来实测一下,差别显卡之间的机能差距。
起首先容一下测试平台,除了本次测试的4张显卡,处置器抉择AMD R7 9800X3D,内存为48GB DDR5 6000MHz。
对于当地安排的步调这里不再过多讲授, 有兴致的用户能够翻看咱们此前的文章。测试应用LM Studio,无减速框架停止对照,完整凭仗显卡本身算力。究竟差别减速框架对差别厂商的显卡优化差别,测试变量太年夜。这里咱们起首抉择【DeepSeek R1 Distill Qwen 32B】模子。
将GPU卸载拉满,这象征着DeepSeek模子将完整由GPU停止盘算,其余参数默许即可。因为AI模子每次答复都市有所差别,这里设置3个成绩,取均匀值。
别的须要留神的是,咱们设置的成绩自身框定了范畴,让AI在思考答复时不会过于发散。假如问“什么是哲学”这类无范畴的成绩,每次答复的成果将无奈量化。在32B模子中,能够看到RTX 5090 D的tok/sec仍是很快的,究竟作为本代旗舰产物,32GB年夜显存本就合适AI练习。但在RTX 5080停止测试时便呈现了成绩,能够看到RTX 5080在答复成绩时,思考时光到达了348秒,也就是快要6分钟。这里须要说起一下,差别模子对显存需要的换算大抵有个公式,即:(32)B÷2×1.15=显存以是32B模子须要的最低显存,为18.4GB阁下,这曾经超皇冠真人官方网站越了RTX 5080的16GB显存。而这溢出的2GB显存,则由内存补足。但对模子来说,爆显存之后不论“外借”几多内存,都将依照最慢的速率运算。实测共事的RTX 2060,在运转32B模子时,即使“外借”的内存更多,但思考时光同样为5分钟阁下。
爆显存对本次测试的意思就不年夜了,以是咱们调换更小的8B模子,让后续型号都可能完整用显存实现测试。依据下面的公式,这里能够揣测出8B模子大概仅须要4.6GB显存,即可满意运算需要。
在调换模子后,全部显卡均可停止畸形测试,成就汇总如上。从成果来看,tok/sec与显卡显存及算力有较年夜关联,而且浮现出应有的机能递进关联。而first token跟思考时光不太年夜法则可循,上面每张显卡的tok/sec成就咱们停止了柱状图汇总,便利各人看的更清楚。