捌号机是这个学期采购的算力,虽然为八卡准系统但目前配置的是双卡NVIDIA A100,未来玖号机上线后预计满配8卡RTX 4090,与陆号机、柒号机共同承担MILab算力主力之职。
已于2023年5月17日唉王克桢楼机房完成初步部署,计划待NAS_V3到位后迁至北清路机房服役。
原来……有A100是这样的感觉~
准系统 | 思腾合力IW4222-8GR |
CPU | 2×Intel Xeon Gold 6330 28核56线程 |
内存 | 8×64G DDR4 2933 ECC REGS(合计512G) |
硬盘 | 1* 3.84T SATA 2.5寸 企业级固态硬盘 + 3* 8TB SATA 7.2K 3.5寸 企业级机械硬盘 |
阵列卡 | LSI9361-8I 1G RAID0.1.5.10 |
网路 | 双口万兆(电口)+IPMI远程管理接口 |
电源 | 2000W 2+2 80PLUS高效冗余电源 |
显卡 | 8×NVIDIA RTX4090 24G 定制公版 |
系统 | Ubuntu 20.04 LTS |
2 评论
匿名用户 发表:
卢教授您好,怎么不试试基于现有的算力构建一个slurm集群呢?
Yanye Lu 发表:
您好,感谢建议。其实一直都有用slurm管理集群的想法,也调研过一些方案。
包括隔壁谢老师的PET组算力实际上就在用CHESS[1]管理算力(No.11-14号机),但是我们这边试用后,学生们觉得还是不如ssh直连高效和方便(主要是他们习惯了ssh直连debug跑实验吧)。所以slurm这种集群作业调度的方式他们反而觉得效率偏低。这也许是我们这种小作坊规模不够大的缘故吧,哈哈哈~
不过我自己的想法是等八卡机器数量攒到了一定程度后,debug在老旧机器上进行,八卡机器用来跑队列实验。可惜N卡禁令一定程度上影响了我这边的采购计划,原本还要采购的两台八卡机器可能要被延误了,这台捌号机准备配备的特殊渠道A100 64GB也不知道啥时候才能到货……
如果您有好的方案,还望不吝赐教,多谢。也可以联系我的邮箱:yanye.lu@pku.edu.cn
[1] https://www.clustertech.com/zh-hans/%E9%AB%98%E6%80%A7%E8%83%BD%E8%AE%A1%E7%AE%97/CHESS-HPC%E6%B7%B7%E5%90%88%E4%BA%91%E5%B9%B3%E5%8F%B0-v63
添加评论