DeepSeek当地模子显卡横评显存没有够算力都白搭

- 编辑：足球滚球app下载 - 2025-03-26 08:52

DeepSeek当地模子显卡横评显存没有够算力都白搭

DeepSeek当地化安排是当下热点的利用方法，它除了能够防止效劳器忙碌之外，当地化运转还可能极年夜水平维护用户的隐衷。现在DeepSeek有浩繁版本，此中模子容量差距可达数十倍，究竟该怎样抉择合适本人硬件的版原来安排，始终是用户比拟头疼的成绩。明天咱们就应用RTX 5090 D、RTX 5080、RTX 5070 Ti以及RTX 50188宝金博app下载70，共4张RTX 50系显卡来实测一下，差别显卡之间的机能差距。起首先容一下测试平台，除了本次测试的4张显卡，处置器抉择AMD R7 9800X3D，内存为48GB DDR5 6000MHz。对于当地安排的步调这里不再过多讲授，有兴致的用户能够翻看咱们此前的文章。测试应用LM Studio，无减速框架停止对照，完整凭仗显卡本身算力。究竟差别减速框架对差别厂商的显卡优化差别，测试变量太年夜。这里咱们起首抉择【DeepSeek R1 Distill Qwen 32B】模子。将GPU卸载拉满，这象征着DeepSeek模子将完整由GPU停止盘算，其余参数默许即可。因为AI模子每次答复都市有所差别，这里设置3个成绩，取均匀值。别的须要留神的是，咱们设置的成绩自身框定了范畴，让AI在思考答复时不会过于发散。假如问“什么是哲学”这类无范畴的成绩，每次答复的成果将无奈量化。在32B模子中，能够看到RTX 5090 D的tok/sec仍是很快的，究竟作为本代旗舰产物，32GB年夜显存本就合适AI练习。但在RTX 5080停止测试时便呈现了成绩，能够看到RTX 5080在答复成绩时，思考时光到达了348秒，也就是快要6分钟。这里须要说起一下，差别模子对显存需要的换算大抵有个公式，即：（32）B÷2×1.15=显存以是32B模子须要的最低显存，为18.4GB阁下，这曾经超皇冠真人官方网站越了RTX 5080的16GB显存。而这溢出的2GB显存，则由内存补足。但对模子来说，爆显存之后不论“外借”几多内存，都将依照最慢的速率运算。实测共事的RTX 2060，在运转32B模子时，即使“外借”的内存更多，但思考时光同样为5分钟阁下。爆显存对本次测试的意思就不年夜了，以是咱们调换更小的8B模子，让后续型号都可能完整用显存实现测试。依据下面的公式，这里能够揣测出8B模子大概仅须要4.6GB显存，即可满意运算需要。在调换模子后，全部显卡均可停止畸形测试，成就汇总如上。从成果来看，tok/sec与显卡显存及算力有较年夜关联，而且浮现出应有的机能递进关联。而first token跟思考时光不太年夜法则可循，上面每张显卡的tok/sec成就咱们停止了柱状图汇总，便利各人看的更清楚。