MILab 捌号机正式上线

由 Yanye Lu创建于5月 17, 2023

捌号机是这个学期采购的算力，虽然为八卡准系统但目前配置的是双卡NVIDIA A100，未来玖号机上线后预计满配8卡RTX 4090，与陆号机、柒号机共同承担MILab算力主力之职。

已于2023年5月17日唉王克桢楼机房完成初步部署，计划待NAS_V3到位后迁至北清路机房服役。

原来……有A100是这样的感觉~

准系统	思腾合力IW4222-8GR
CPU	2×Intel Xeon Gold 6330 28核56线程
内存	8×64G DDR4 2933 ECC REGS（合计512G）
硬盘	1* 3.84T SATA 2.5寸企业级固态硬盘 + 3* 8TB SATA 7.2K 3.5寸企业级机械硬盘
阵列卡	LSI9361-8I 1G RAID0.1.5.10
网路	双口万兆（电口）+IPMI远程管理接口
电源	2000W 2+2 80PLUS高效冗余电源
显卡	8×NVIDIA RTX4090 24G 定制公版
系统	Ubuntu 20.04 LTS

无标签

2 评论

匿名用户发表：
卢教授您好，怎么不试试基于现有的算力构建一个slurm集群呢？
- 永久链接
- 回复
- 12月 10, 2023
1. Yanye Lu 发表：
  您好，感谢建议。其实一直都有用slurm管理集群的想法，也调研过一些方案。
  包括隔壁谢老师的PET组算力实际上就在用CHESS[1]管理算力（No.11-14号机），但是我们这边试用后，学生们觉得还是不如ssh直连高效和方便（主要是他们习惯了ssh直连debug跑实验吧）。所以slurm这种集群作业调度的方式他们反而觉得效率偏低。这也许是我们这种小作坊规模不够大的缘故吧，哈哈哈~
  不过我自己的想法是等八卡机器数量攒到了一定程度后，debug在老旧机器上进行，八卡机器用来跑队列实验。可惜N卡禁令一定程度上影响了我这边的采购计划，原本还要采购的两台八卡机器可能要被延误了，这台捌号机准备配备的特殊渠道A100 64GB也不知道啥时候才能到货……
  如果您有好的方案，还望不吝赐教，多谢。也可以联系我的邮箱：yanye.lu@pku.edu.cn
  
  [1] https://www.clustertech.com/zh-hans/%E9%AB%98%E6%80%A7%E8%83%BD%E8%AE%A1%E7%AE%97/CHESS-HPC%E6%B7%B7%E5%90%88%E4%BA%91%E5%B9%B3%E5%8F%B0-v63
  永久链接
  
  回复
  
  12月 10, 2023