本文摘要:8块NVIDIA GPU、10卡训练GPU、20卡推理小说加速卡。
8块NVIDIA GPU、10卡训练GPU、20卡推理小说加速卡。底板使用CPU主板和GPU解法耦合设计,可根据CPU和GPU的发展各自独立国家升级,减少用户更新换代成本。发布会后,与中科曙光智能计算技术总监许涛展开了了解的交流对话,得知中科曙光在产品和市场上的一些思维。
重新认识高性能AI服务器对于大多数人来说,高性能计算出来(HPC)产品和传统的服务器或许没什么区别,都象征物着“专业级”、“企业级”等矮小上的定位。不过在谈话中我们了解到,以高算力为市场需求的产品,早已从传统服务器中独立国家出来了,其设计方式和传统服务器有相当大有所不同。许涛向讲解,二者首要的区别在于传统服务器的功耗密度比较较低,而AI服务器等高性能计算出来产品的功耗十分低,目前发售的AI服务器额定功率已超过3200瓦,下一代HGX产品得出的参照功率堪称超过单台10千瓦,相比之下多达传统机架式和刀片式服务器。而功耗低也带给了发热量大的新挑战,这是AI服务器和传统的服务器仅次于的区别。
设计AI服务器时,供电和风扇是必须重点考虑到的问题,适当的对兼容性和稳定性的拒绝也都不过于一样。在GPU加速卡刚刚经常出现的时候,单卡功耗不多达250瓦,而现在早已超过300瓦,按照目前的趋势,加速卡功耗还不会随着时间推移显得更高,当单块加速卡功耗超过350瓦以上的时候,传统的服务器结构就很难符合了。“在这么低的压力下,单个机柜里能放置的服务器数量是十分受限的。”许涛给我们忘了笔账,“3200瓦的AI服务器,一般的电信机房单柜不能敲2台,即便是20千瓦容量的高端水冷机房也不能敲6台。
综合考虑到实际部署情况之后,我们找到4U是十分合理的AI服务器尺寸。XMachine的GPU仓高度为3U,不仅风扇空间大,也为未来的确保腾出了相当大的空间。”而对于个人工作站,中科曙光在近期的W560-G30产品上也使用了改良设计的3段式风扇方案:GPU区域:RTX6000显示卡功耗约300瓦,享有专门的风扇空间,并且用于IPMI功能精准加载显示卡状态状况并管理显示卡功耗和风扇散热,掌控适当的风扇风量,在确保显示卡风扇的同时将办公环境下的噪音传输至低于,最低可反对2块显示卡加速运转。CPU区域:反对2颗共56个物理核心的至强劲铂金CPU,每颗CPU的功耗约205瓦;2颗CPU风道相互隔绝,每颗CPU皆有独立国家进风,确保CPU在高功耗下平稳工作,并可承托更进一步的超频空间。
电源区域:用于可7*24小时平稳获取1250瓦供电能力的铂金电源,并设计有电源的独立国家风道;时在摆放于数据中心用于时,可反对校验电源和基于BMC的远程管理功能,合体沦为高性能GPU服务器。灵活性应付百花齐放的推理小说末端市场随着异构计算更加风行,现在HPC Top 500里名列靠前的超高算力服务器基本上都中用了GPU加速卡或者其他加快部件。据理解,目前NVIDIA早已基本独占了AI计算出来的训练末端市场,但在与用户应用于契合尤其密切的推理小说末端,由于必须展开明确的应用于部署,GPU作为一种标准化计算出来单元的优势就不会被巩固。
NVIDIA虽然面向推理小说末端市场公布了T4计算出来卡,但是像Intel、赛灵思和寒武纪等公司,仍然在大力拓展这一领域。根据讲解,XMachine系列AI服务器在设计上可以相容多种加速器产品,这些芯片在市场中是有序的,中科曙光未来不会针对有所不同应用于场合发售用于有所不同加快芯片的服务器,就看终端用户的表达意见是什么。“在文字处理或信息导流等业务中,传统CPU的运算效率也很好;如果是必须捕猎黄金窗口期的商业化公司,那么NVIDIA T4这样的GPU加快产品可以让公司很快上线项目。
” 许涛为我们详细分析着几种有所不同的情况,“而对那些享有类似业务市场需求的自定义化客户来说,他们必须常常很快改成业务逻辑,这种情况下似乎FPGA更加合适。”随后,许涛尤其提及了寒武纪科技今年5月3日公布的首款云端智能芯片MLU100及对应的云端AI计算出来卡,并缺失了我们对国产AI芯片的一些了解误区。他回应,寒武纪MLU100芯片与NVIDIA P4/T4加速卡的设计理念大相径庭,二者在计算能力上并无法必要展开对比。“寒武纪MLU100芯片所用于的AI框架和技术十分专一,可以较慢构建CNN、RNN等各种各样的卷积过程,超过十分好效果,在特定的推理小说市场上给用户获取更佳的加快。
如果是与应用于契合十分密切的研究型用户,寒武纪MLU100芯片可以在其特定环境下将算力充分发挥到淋漓尽致。”不担忧被仿效中科曙光此次公布的XMachine系列AI服务器,使用了CPU底板和GPU底板解法耦的设计,未来可通过模块化人组的方式展开独立国家升级,以减少用户更新换代成本,最大限度维护投资。为此我们不免担忧,这种弹性灵活性的创意设计,不会会渐渐被其他服务器厂商效仿?对于这一问题,许涛很是热情:如果其他公司知道仿效我们的机器,解释我们引导了这个市场。
据报,之前国内的GPU服务器来源基本都是OEM或ODM,但随着时间的流逝,技术输出更加艰难,这些产品很难适应环境国内形形色色的自定义化市场需求。许涛坦言,中科曙光并不是国内第一家发售GPU服务器的厂商,但是他们期望可以做最差,或者说可以在某些擅长于的行业里面做最差。而想让产品始终保持先进设备的架构或结构,就要不时展开技术演变,一款产品成熟期的过程就是一个重复递归的过程。
“从我们自己的角度来看,现在的产品不应当是极致的,应当有新的版本不时递归,让它显得更加限于于用户应用于场景,或者更加限于于新技术的发展。”许涛说明道,“仿效是没办法防止的,但在其他公司仿效的过程中,我们自身也在不时演变,所以我们并不担忧产品被仿效。”同时他还认为,随着技术的不断更新,很多技术要素想仿效也是很艰难的。中科曙光除与NVIDIA创建合作外,还与寒武纪等其他国产芯片合作,合作过程中必须投放大量技术资源和测试资源,这些投放都不是非常简单的仿效机器硬件可以构建的。
“从这个层面来讲,我们期望他们能仿效。如果其他公司知道仿效我们的机器,解释我们引导了这个市场。
”面向未来的云计算中心和先进设备计算出来平台现在云计算早已仍然像过去那样只逗留在各种文章里面,随着认可度的渐渐提高,不管是专用云平台还是标准化云平台都在渐渐落地,各种企业都更加不愿为这份资源去花钱。中科曙光的AI战略规划相当大,一方面中科曙光有AI服务器自己的底层硬件产品,另一方面也在硬件产品的基础上设计设施软件,并享有自己的云计算中心和先进设备计算出来平台。
云计算中心既可以给用户获取计算资源,也期望需要通过虚拟化的技术,协助那些有独有看法的用户构建他们的创新。(公众号:)了解到,中科曙光在云计算领域的跟上只不过十分早于,在成都、无锡、南京、张家口等地都有为政府获取服务的城市云计算中心。
但许涛确切地告诉,云计算中心也必须随着时代行进而不时演变,随着普及程度的提升,如果只逗留在传统的发展模式下,未来的竞争力不会更加很弱。“从我们的角度来看,更加期望能在某些类似领域或行业里可供专业的云服务。”许涛说明道,“中科曙光的体量是无法和BAT这种标准化云平台抗衡的,他们的构架十分可观,可以把很多业务都牵进去,但是对我们来讲,想维持业务的先进性,不能在一些类似领域或行业里做最尖端。
”“为用户获取特异简化的服务,使我们的优势很难被标准化云平台仿效,这才是准确的发展方向,也是我们眼中未来的云计算市场。”许涛如是说。原创文章,予以许可禁令刊登。下文闻刊登须知。
本文来源:全民购彩大厅首页-www.shemanns.com