收录于话题
#产业链#服务器#数据中心#人工智能#CPU
智算中心涉及的产业链很宽,不同维度的参与者看待智算中心建设的重点也不同,在与承建方进行需求调研时的问题也各有差异,比如做大模型的更侧重客户业务层面、做基础设施的更侧重机房设计(制冷、UPS、配电承重等),今天我们从IT基础设施层的角度聊聊,帮助客户设计智算中心方案通常要做哪些方面的需求调研。
智算中心建设框架(简易版)
一、预算情况或者建设规模了解
客户的水平也参差不齐,智算中心又是一个新事物,在方案设计前通常要从预算和建设规模方面进行沟通,比如客户资金到位情况、预算是否明确、投资的节奏如何(往往是饼画的很大,起步很小,比如规划5千P,先上1千P),目前智算中心建设的需求满天飞,真正接触一圈下来,不是还没筹到钱,就是已经有确定的合作公司了(蛋糕已经分好),一手优质且前期就能接触的项目不多。所以在项目前期就要找准切入点,是能帮客户搞到资金,还是能帮客户解决算力消纳,还是能提供更有竞争力的产品方案,越是规模大的项目,双方的相互价值越重要(一句话就是人家凭啥带你玩),否则只能沦为凑数的,出个方案报个价后就是石沉大海了。
二、算力需求和卡的倾向性
我们常说听的是千卡、万卡或者千P、万P规模,调研时需要明确信息有:
1、是训练还是推理、还是不同的搭配比例
2、选择NV卡还是国产卡,国产卡的配比
3、NV卡的型号和国产卡的品牌众多,客户是否有倾向性,需要结合市场供应情况进行推荐或引导。
最近几天有几个朋友找我咨询H800的供应,其实我们清楚H800是H100的阉割版,H100平替H800没问题,但是某些客户就是较真,也没有办法。很多客户前期被国内AI芯片厂商洗脑了,不管谁来出方案都必须指定某个品牌的GPU卡,这种情况也需要按照客户的建议出方案。
三、网络、存储和安全的配套产品
1、选IB和Roce?GPU服务器在智算中心IT设备中占比最大(约70-80%),其次就是网络,目前主流RDMA方案有两种,这个要看客户对预算的敏感程度,如果最求极致的性价比就需要选择Roce,之前文章中做过两者的详细对比,这里就不展开了。
2、存储是智算中心必须的,但是也经常被客户忽略,需要调研的内容是存储的容量、存储的类型或者品牌倾向性,如果客户不了解,我们可以按照经验值进行推荐。
3、安全设备不是必须的,但是比较常见,要看客户对数据中心等级保护的要求,这一部分占比很小,通常2、3百万就能搞定。
4、其他配套产品比如监控管理系统、资源调度平台、运营平台要与客户讲清楚定位,上还是不上,要上那些平台等。
四、智算中心机房配套设施
这个部分和IT方案设计也关系紧密,比如机柜的供电功率情况、采用风冷还是液冷,当地政策对PUE有无明确要求,如果需要精确到机柜内设备的规划,还需要机房的图纸或者现场勘察,才能确定网络设备、GPU设备等如何布局更为合理(涉及线缆长短,对价格也有影响),液冷方案的细节与成本有关,是否具备液冷冷板方案的条件还是需要改造,还是先用风冷设计预留液冷改造的条件等,都需要充分考虑。
五、其他方面的调研内容
其他方面的内容虽然和技术方案关系不大,但是同样重要,比如时间节奏(什么时候完成建设、投入运营、回本周期计划等)、维保要求(服务响应时效和备品、备件、驻场人员要求等)、付款方式(是全款还是分期)、下游客户是否确定(与运营和回本密切相关)等。
以上是结合我的理解进行的汇总,仅供参考,不足之处,欢迎指正!
—-老张会持续通过公众号分享前沿IT技术,创作不易,大家多多点赞和关注!