以下信息由zxl更新于2025年6月13日。该机器目前已满配NVLINK和IB网卡。用IB作为组间通讯的方案有待探索。
显卡编号如下
显卡ID | BusId | 显存 | 互联方式 | IB网卡 | IB网卡对应IP |
---|---|---|---|---|---|
0 | 00000000:34:00.0 | 49G | ibs110 (组1) | 192.168.128.91 | |
1 | 00000000:35:00.0 | 49G | |||
2 | 00000000:36:00.0 | 49G | |||
3 | 00000000:37:00.0 | 49G | |||
4 | 00000000:9A:00.0 | 49G | ibs111 (组2) | 192.168.128.92 | |
5 | 00000000:9B:00.0 | 49G | |||
6 | 00000000:9C:00.0 | 49G | |||
7 | 00000000:9E:00.0 | 49G |
显卡拓扑结构如下:
数据通讯按照以下顺序依次递减,可以作为多卡训练时的参考。
单卡 > NVLINK > 组内 > IB组间。
下表由zxl用自己代码(包含SAM和Llava)batchsize=1时,多卡训练一个iter所需的时间,仅供参考。
显卡编号 | 1个iter时间 |
---|---|
8卡L40s联训 | 11.5s |
0~3卡 | 10.1s |
0卡 | 8.8s |