数据类型支持矩阵

大语言模型由于设计较多exp运算,需要诸如llama系列的大模型需要BF16的数据类型支持。

显卡型号INT8INT4INT2FP32FP16TF32BF16FP64
RTX 2080 Ti
RTX 3090
RTX 4090
A100
L40
L40s
TITAN XP

数据吞吐量矩阵

下表是理论吞吐量,可用于对比代码运行效率来排除bug。

显卡型号INT2 算力INT4 算力INT8 算力FP32 算力FP16 算力TF32 算力BF16 算力FP64 算力
RTX 2080 Ti137 TOPS14 TFLOPS112 TFLOPS0.44 TFLOPS
RTX 3090208 TOPS35.6 TFLOPS284 TFLOPS112 TFLOPS1.1 TFLOPS
RTX 40901248 TOPS624 TOPS82.5 TFLOPS660 TFLOPS330 TFLOPS330 TFLOPS2.6 TFLOPS
A100624 TOPS312 TOPS19.5 TFLOPS312 TFLOPS1238 TFLOPS312 TFLOPS97.9 TFLOPS
L403200 TOPS1600 TOPS800 TOPS60 TFLOPS480 TFLOPS480 TFLOPS480 TFLOPS1.9 TFLOPS
L40s3200 TOPS1600 TOPS800 TOPS60 TFLOPS480 TFLOPS480 TFLOPS480 TFLOPS1.9 TFLOPS
TITAN XP11.3 TFLOPS22.6 TFLOPS5.6 TFLOPS

驱动和CUDA环境

CUDA 11.8是一个分水岭,对Ada架构显卡的Tensor Core有大幅度提升。如果代码在3090和4090上运行速度差不多,多半是CUDA Toolkit装成11.7版本以下了。

显卡型号RTX 2080 TiRTX 3090RTX 4090A100L40L40sTITAN XP
架构TuringAmpereAdaAmpereAdaAdaPascal
推荐 CUDA 版本11.8/12.x11.8/12.x12.x12.x12.x12.x11.8
最低支持版本101111.81111.811.88
CUDA 12.x 支持部分特性受限
MIG 支持
动态稀疏计算
  • 无标签