捌号机是这个学期采购的算力,虽然为八卡准系统但目前配置的是双卡NVIDIA A100,未来玖号机上线后预计满配8卡RTX 4090,与陆号机柒号机共同承担MILab算力主力之职。

已于2023年5月17日唉王克桢楼机房完成初步部署,计划待NAS_V3到位后迁至北清路机房服役。


原来……有A100是这样的感觉~

准系统思腾合力IW4222-8GR
CPU2×Intel Xeon Gold 6330 28核56线程
内存8×64G DDR4 2933 ECC REGS(合计512G)
硬盘1* 3.84T SATA 2.5寸 企业级固态硬盘 + 3* 8TB SATA 7.2K 3.5寸 企业级机械硬盘
阵列卡LSI9361-8I 1G RAID0.1.5.10
网路双口万兆(电口)+IPMI远程管理接口
电源2000W 2+2 80PLUS高效冗余电源
显卡8×NVIDIA RTX4090 24G  定制公版
系统Ubuntu 20.04 LTS



  • 无标签

2 评论

  1. 匿名用户 发表:

    卢教授您好,怎么不试试基于现有的算力构建一个slurm集群呢?

    1. Yanye Lu 发表:

      您好,感谢建议。其实一直都有用slurm管理集群的想法,也调研过一些方案。

      包括隔壁谢老师的PET组算力实际上就在用CHESS[1]管理算力(No.11-14号机),但是我们这边试用后,学生们觉得还是不如ssh直连高效和方便(主要是他们习惯了ssh直连debug跑实验吧)。所以slurm这种集群作业调度的方式他们反而觉得效率偏低。这也许是我们这种小作坊规模不够大的缘故吧,哈哈哈~

      不过我自己的想法是等八卡机器数量攒到了一定程度后,debug在老旧机器上进行,八卡机器用来跑队列实验。可惜N卡禁令一定程度上影响了我这边的采购计划,原本还要采购的两台八卡机器可能要被延误了,这台捌号机准备配备的特殊渠道A100 64GB也不知道啥时候才能到货……

      如果您有好的方案,还望不吝赐教,多谢。也可以联系我的邮箱:yanye.lu@pku.edu.cn


      [1] https://www.clustertech.com/zh-hans/%E9%AB%98%E6%80%A7%E8%83%BD%E8%AE%A1%E7%AE%97/CHESS-HPC%E6%B7%B7%E5%90%88%E4%BA%91%E5%B9%B3%E5%8F%B0-v63

写评论...