以下信息由zxl更新于2025年6月13日。该机器目前已满配NVLINK和IB网卡。用IB作为组间通讯的方案有待探索。

显卡编号如下

显卡IDBusId显存互联方式IB网卡IB网卡对应IP

0

 00000000:34:00.049G

ibs110

(组1)

192.168.128.91
1 00000000:35:00.049G
200000000:36:00.049G
300000000:37:00.049G
4 00000000:9A:00.049G

ibs111

(组2)

 192.168.128.92

500000000:9B:00.049G
600000000:9C:00.049G
700000000:9E:00.049G

显卡拓扑结构如下:

数据通讯按照以下顺序依次递减,可以作为多卡训练时的参考。

单卡 > NVLINK > 组内 > IB组间。

下表由zxl用自己代码(包含SAM和Llava)batchsize=1时,多卡训练一个iter所需的时间,仅供参考。

显卡编号1个iter时间
8卡L40s联训11.5s
0~3卡10.1s
0卡8.8s


  • 无标签