高性能计算节点.docx

上传人：lao****ou

文档编号：460331

上传时间：2023-11-27

格式：DOCX

页数：4

大小：19.31KB

《高性能计算节点.docx》由会员分享，可在线阅读，更多相关《高性能计算节点.docx（4页珍藏版）》请在第一文库网上搜索。

1、高性能计算节点1、采用SCa1abIe架构可扩展处理器，处理器数至少需要2个，单处理器核心数量至少28个，工作频率至少2.6GHz；总计需要提供不低于4.65万亿次每秒的浮点计算能力；2、数据指标：本系统采用高效数据系统，可分配容量每个处理核心至少需要4.5GB的容量；3、高速计算模块：为提高系统的运行效率，需要额外增加加速模块，加速模块采用主动散热模式，供电环境由本系统统一供应；加速模块至少需要提供71万亿次每秒的单精度浮点计算能力，加速缓存空间总共需要48GB的容量，加速模块2个，最大支持10个，需配置外部专用散热套件；4、系统存储：不少于1块企业级SSD系统盘，单块硬盘容量248OGB系

2、统容量；5、数据存储：不少于1块企业级SSD硬盘，单块硬盘容量多.92TB存储容量；6、PCIE扩展槽：12个PC1e4.0插槽;7、网络：双口万兆光口；可远程管理9、电源：为了确保平台的稳定可靠运行，需要提供叁200OW的2+2冗余供电模块；10、数据传输模块：支持2片运算卡通过NV1ink链接；11、标配SMP模块：模块可提供B/S架构的完全中文化的显示界面，可支持采用一键式安装设计，能够以图表的方式完整监控系统CPU用量（含比例）、系统内存用量（含比例）、内存剩余量、系统硬盘用量（含比例）、硬盘剩余量、系统网卡状态，如即时的上传/下载速度、系统运算卡用量、运算卡剩余量、系统下各张运算卡卡

3、状态：型号、插槽位置、显存使用量、电压使用量、温度、风扇转速、负载状况等指标、图标显示界面刷新率为秒级；模块国产并提供软件著作权证书；12、4U机架式服务器13、提供中国国家强制CeC认证证书；14、设备生产厂商提供质量管理体系：GB/T19001-2016/IS09001：2015标准认证证书；15、提供完善的培训服务，包括但不限于通过DIGrrS.TensorRT,了解和实践基于深度神经网络的深度学习工作流程，解决图像分类、目标检测和神经网络部署的问题，动手实验课程基于最新的A1框架，SDKs和GPU技术，为保证培训专业性，设备生产厂商需具有NVIDIA认证的D1I讲师，需提供讲师签约文件

4、及授权文件复印件证明；16、服务器要求全新，产品为全配置装箱，在厂商整机配置清单上包含全部配件，必须保证产品是同一批次出厂，通过官方的服务热线可查询到配置详细信息，必须和采购要求匹配一致。18、服务器出厂集成如下作业调度系统，具体功能要求如下：1）资源虚拟化：采用轻量级容器虚拟化技术和KUbemeteS管理平台，实现对CPU、内存、磁盘等资源的虚拟化和统一管理。针对人工智能领域的特定需求，提供GPU等异构计算资源管理接口，实现对GPU等异构计算资源的虚拟化统一管理，支持为容器以直通方式挂载GPU等异构计算资源。2）容器管理：支持快速创建多种深度学习开发调试环境的容器，提供基于SSH的容器访问接

5、口。支持将创建的容器在线进行镜像打包，并支持将打包好的镜像上传镜像仓库，实现镜像版本的持续更新3）容器通信：支持容器间infiniband高速通信4）容器创建:支持根据项目类型选择容器镜像，支持通过读取镜像仓库更新镜像版本。5）容器监控：支持容器的运行状态监控，包括CPU、内存、GPU使用率、GPU显存等资源的动态监控情况6）在线登录：支持在线登录容器7）平台预集成优化配置的TenSOrfIOw、Caffe、PytorchCNTK、Torch、Keras、Darknet和MXnet等多种主流深度学习计算框架，支持mat1ab,支持在线提交HPC作业，并支持通过读取镜像仓库在线添加新的深度学习框

6、架或更新现有深度学习框架的版本。8）模型训练：允许用户上传自定义的代码程序和数据文件，通过在线提交计算资源需求即可启动训练任务，支持单机多GPU和多机多GPU的训练任务。支持在Web界面通过jupyter、远程图形桌面直接访问虚拟环境。支持通过PyCharm方式上传代码和数据，提供功能截图证明。9）作业管理：提供训练作业管理功能，包括查看作业运行状态（等待、运行、错误、终止、完成等）、作业快速克隆、作业查询、作业日志和作业文件管理等基本功能10）作业创建：支持提交单机或分布式的训练任务。支持（TenSorf1ow、Caffe.Torch、PyTorch.CNTK.KerasMxnet）深度学习

7、框架镜像。支持按型号选择GPU,支持本地代码上传或远程服务器路径的数据提交方式，支持简易与专业两种配置，提交前可预览整体配置。11）作业监控：支持输出损失率、准确率等动态可视化监控图表，同时支持输出训练过程日志，并提供日志下载功能，提供功能截图证明。12）作业调度：提供动态资源调度管理功能，全面支持CPU、GPU等异构资源的混合调度，提供FIFo方式的任务调度策略。13）统一任务管理：支持资源监控、模型训练等多种类型任务的统一调度管理，每种类型的任务均可根据资源需求实现动态调度，保证任务之间的资源共享与安全隔离；14）文件管理：支持进入后台进行文件管理。支持以命令模式和web模式对分布式存储及

8、共享存储进行文件管理；15）文件共享与隔离：支持数据共享与数据隔离，即同一数据可供多用户同时访问，不用用户有自己的私有空间。也可以设定不同用户的访问权限；16）硬件加密：服务器须采用硬件加密的方式接入集群；17）镜像管理：支持私有镜像仓库，集中化管理用户的镜像。能够提供新建项目、设置用户权限等功能。支持用户对本地镜像的编辑，镜像推送，删除等操作，提供功能截图证明。若可用量不足，系统会提示；18）监控管理：提供集群、主机、Pe）D等不同层面的的CPU、GPU、内存、磁盘、网络等资源的动态监控图表。通过对持久化的监控数据进行数据分析，便于管理员对资源和容量进行管理和规划。19）运行维护：支持在线查

9、看运行情况，实时了解支撑作业运行的底层容器的运行状态20）系统服务：提供查看系统服务状态，实时了解系统服务运行状况21）集群管理：管理员可以为普通用户创建一个或多个独立的GPU集群环境，并可以限制CPU、GPU、内存等资源量的大小，将资源分割成多个独立的集群，方便为多个部门提供服务，提供功能截图证明。22）用户管理：管理员可以新增用户，为用户设定用户、角色、密码和可以使用的集群等信息；管理员可以查看用户的所有信息；管理员可以修改用户的密码、角色、可使用的集群和存储空间的大小；管理员可以删除用户，提供功能截图证明；23）用户分级：用户可分组且有级别，级别层数没有限制，组别可绑定不同的资源，资源支

10、持虚拟化，支持总管理员、组管理员和普通用户三种用户，可以充分利用系统资源。例如可以将系统资源分配给不同的部门、学院等，或者将资源划分给标注组、训练组、测试组和部署组等，系统具有多种资源划分形式，资源划分非常灵活；24）用户日志：记录用户的登入时间与状态；25）语言选择：支持中文简体、中文繁体、日语、英语多种语言切换切换；26）分布式存储：软件支持GkmerfS管理功能菜单，支持将多台服务器本地的硬盘组成分布式存储使用，提供截图证明；27）多种作业：支持在同一界面提交机器学习、深度学习、高性能计算多种作业任务；28）支持作业限时，可限制作业使用时长，以防资源占用，浪费资源，提供功能截图证明；29

11、）集群报表：分别对集群、用户、单节点、作业的资源使用情况（包括CPU、内存、GPU、硬盘、网络等）通过图表形式进行预览，并支持将报表内的数据通过EXCeI文件导出，提供截图证明；30）线审批：用户可以在线上提出资源需求申请，由管理员审批同意后，方可获得GPU等资源，然后才能使用，提供截图证明；31）帮助中心：系统提供在线用户手册及售后联系方式，帮助用户快速使用本系统，支持离线与线上等两种模式，提供截图证明；32）数据标注：支持图片和视频两种格式的标注操作；33）排程管理：可预约使用时段，支持预排作业；34）模板管理：增/删/改/查模版，提交作业或是新增排程可套用模版快速操作。技术服务要求1 .设备安装调试：在买方指定的地点完成安装调试，并配合买方进行测试验收2 .质保期验收合格日起36个月3 .维修响应时间：接到维修通知后，12小时内做出响应，24小时内到达现场排除故4 .交货地点：用户指定地点

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

3 金币 0人已下载

下载	加入VIP,免费下载

版权申诉 word格式文档无特别注明外均可编辑修改；预览文档经过压缩，下载后原文更清晰！ 立即下载

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 性能计算节点

第一文库网所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：高性能计算节点.docx
链接地址：https://www.001doc.com/doc/460331.html