随着大模型技术的日益成熟,越来越多的企业开始考虑将其应用于生产环境。然而,高昂的访问费用和数据中心资源紧张的问题,使得大模型的本地化部署成为了一个热门话题。近日,我们针对大模型本地化部署进行了一系列测试,探索了其在企业级AI应用中的潜力和优势。
测试选用了Dell Precision 7960 Tower工作站,搭载了四张NVIDIA RTX 5880 Ada显卡,总计192GB显存,足以应对70B大模型的部署需求。我们分别测试了单卡、双卡以及四卡GPU在不同模型下的推理和训练表现。
在推理测试中,我们选择了不同大小的模型,包括8B、13B、32B和70B,并分别进行了短输入短输出和长输入长输出的测试用例。结果显示,无论是单卡、双卡还是四卡配置,Dell Precision 7960 Tower都能够提供稳定且高效的推理性能。特别是在四卡配置下,70B模型的吞吐率达到了1730 token/s,平均总时延仅为27秒左右,首字时延8秒左右,表现非常理想。
在训练测试中,我们使用了Llama-Factory对不同数量的GPU进行了训练任务的测试。结果显示,无论是8B、13B还是32B和70B的模型,Dell Precision 7960 Tower都能够提供高效的训练性能,算力利用率高达82%以上。特别是在四卡配置下,8B模型的全参微调训练吞吐率接近Qlora的表现,达到了67.4 token/s的水平。
除了性能和效率,我们还特别关注了Dell Precision 7960 Tower的噪音控制。在训练测试过程中,四张显卡平均利用率80-90%的情况下,我们测得平均56分贝的水平;在推理测试中,测得接近50分贝的水平。总体上噪音控制得非常好,相当安静,基本上对办公室工作没有影响。
通过这次测试,我们可以看到,Dell Precision 7960 Tower工作站完全能够满足企业级AI应用的需求。无论是推理还是训练,无论是小模型还是大模型,它都能够提供稳定且高效的性能。同时,其超静音的优势也使得它成为没有机房的企业团队的理想选择。对于想要突破企业数据中心访问限制、实现AI自由的小伙伴们来说,Dell Precision 7960 Tower无疑是一个值得考虑的选择。