GPU介绍
GPU选型可依据以下几个因素进行决策
1.识别计算需求
首先明确你的项目对GPU的性能需求,包括所需的浮点运算能力、内存容量、内存带宽以及并行处理能力;
2.了解GPU特性
不同GPU型号在架构、功耗、价格和兼容性上存在差异。例如,NVIDIA的Tesla系列通常用于高性能计算和深度学习,而RTX系列则侧重于光线追踪和图形处理;
3.考虑软件兼容性
确认所选GPU与你的应用程序、深度学习框架(如TensorFlow、PyTorch)和操作系统兼容;
4.参考基准测试
查看行业标准的基准测试结果,如MLPerf,以了解GPU在类似工作负载下的表现;
5.成本效益分析
评估GPU的成本与预期收益,考虑长期运行的电费和维护成本;
6.GPU架构与性能
不同架构的GPU,即使其他参数差不多,性能差别可能非常大。例如,GeForce 10系列的GTX 1080/1080Ti采用的是Pascal架构,而GeForce 20系列的RTX 2080/2080Ti采用的是Turing架构;
7.显存带宽与位宽
显存带宽代表GPU芯片每秒与显存交换的数据大小,显存位宽影响显存带宽,这两个参数越大,代表GPU性能越好。
8.显卡性能对比
可以通过3D Mark timespy的性能跑分数据来直观比较各型号显卡性能之间的差距;
9.对应显示器分辨率选择显卡型号范围
例如,1080P分辨率推荐TimeSPY跑分8000以内的显卡,2K分辨率推荐TimeSPY跑分8000到18000之间的显卡,4K分辨率推荐TimeSPY跑分18000及以上的显卡;
10.算力租赁
NVIDIA的GPU产品线涵盖了从消费级到企业级的多种应用场景,无论是高端游戏玩家、内容创作者,还是科学研究人员、AI工程师,NVIDIA都提供了丰富的显卡选择来满足他们的需求;
针对模型需求进行GPU选型
1.模型参数规模
对于不同规模的模型,所需的GPU显存和计算能力不同。例如,对于小规模模型(如70亿参数),可以使用2-4张A100 40G PCIe GPU进行训练。中等规模模型(如130亿参数)则建议使用4-8A100 40G PCIe GPU,或者考虑使用A100 80G GPU以减少GPU数量。对于大规模模型(如700亿参数),由于单张GPU无法完整存储如此庞大的模型参数,因此需要采用模型并行或混合并行的方式,建议使用多台服务器,每台服务器配备4-8张A100 80G或更高显存的GPU;
2.显存需求
模型结构、输入数据尺寸、批处理大小(Batch Size)、数据类型(DType)以及中间计算结果都会影响显存的使用。例如,Llama-2-7b-hf模型在Float32精度下参数占用约26 GB显存,在Float16精度下占用约13 GB显存,在Int8精度下占用约6.5 GB显存,在Int4精度下占用3.26 GB显存;
3.计算能力
不同的GPU型号在FP16和FP32性能上有所不同,这直接影响模型训练和推理的速度。例如,NVIDIA H100在FP16性能上达到1,671 TFLOPS,在FP32性能上达到60 TFLOPS,而A100则分别为312 TFLOPS和19.5 TFLOPS;
4.预算和性价比
不同型号的GPU价格差异较大,需要根据自己的预算情况进行选择。对于预算有限的用户,可以选择性价比较高的V100 32G或A800/H800等型号的GPU;
5.兼容性和散热性能
在选择GPU时,需要确保其能够与服务器的主板、内存、电源等硬件设备良好地配合工作,并考虑GPU的散热性能,以确保在高负载运行时能够保持稳定的温度;
6.多GPU并行技术
对于大规模模型训练,可能需要使用多GPU并行技术,如TensorFlow中的MirroredStrategy和PyTorch中的DataParallel;
7.特定模型的推荐配置
根据不同模型的需求,有具体的GPU推荐配置。例如,运行Falcon-40B模型所需的显卡应该有85GB到100GB或更多的显存,而训练Falcon (40B)需要384台具有40GB显存的A100显卡;
GPU型号简介
型号 | 显存 | 单精 | 半精 | 详细参数 | 说明 |
---|---|---|---|---|---|
3080Ti | 12GB | 34.10T | 约70T | 查看 (opens in a new tab) | 性能钢炮,如果对显存要求不高则是非常合适的选择。需要使用cuda11.x |
3090 | 24GB | 35.58T | 约71T | 查看 (opens in a new tab) | 可以看做3080Ti的扩显存版。性能和显存大小都非常够用,适用性非常强,性价比首选。需要使用cuda11.x |
4090 | 24GB | 82.58T | 约165.2T | 查看 (opens in a new tab) | 新一代游戏卡皇,除显存比较小和多机多卡并行效率低的缺点外,性价比非常高 |
P40 | 24GB | 11.76T | 11.76T | 查看 (opens in a new tab) | 比较老的Pascal架构GPU,对于cuda11.x之前且对大显存有需求的算法是非常不错的选择 |
A100 | 80GB | 19.5T | 312T | 查看 (opens in a new tab) | 新一代专业计算卡皇,除了贵没缺点。显存大,非常适合做半精计算,因为有NVLink加持,多卡并行加速比非常高。需要使用cuda11.x |
H20 | 96GB | 34.10T | 148T | 暂无 | 适用于图像识别、语音识别、行为识别等AI推理任务,以及远程图形设计、云游戏等高强度图形处理业务 |