人工智能2.0时代的公共智算服务发展指南.docx
《人工智能2.0时代的公共智算服务发展指南.docx》由会员分享,可在线阅读,更多相关《人工智能2.0时代的公共智算服务发展指南.docx(26页珍藏版)》请在第一文库网上搜索。
1、目录前言一、Oi(一)基本概念01(二)te011 .云化共享012 .高效计算013 .开放兼容024 .按需服务025 .稳定安全036 .绿色低碳037 .长效运营03二、发展形势05(一)人工智能发展进入2.0时代,智算发展迎来高速增长机遇期05(二)智算资源准公共品特质凸显,公共智算服务需求快速增长05(三)全球“双碳”进程逐渐深入,绿色低碳成为智算服务必然要求06三、现状和问题07(一)发展现状071 .政策体系逐步健全,发展环境持续优化072 .智算服务供给量质齐升,服务模式创新频出10(二)面临挑战12四、服务框架14(一141 .服务资源构件化152 .服务调度智能化153
2、.服级给多元化15(二)服务内容151 .算力资源服务152 .算法模型服务163 .数据资源服务17(三)服务生态18五、推进策略20(一)需求导向,强化产业赋能应用20(二)适度超前,优化部署智算设施20(三)技术先进,提高软硬协同能力20(四)强化运营,培育长效服务生态20(五)以评促建,提升智算服务水平21六、实践案例22(一)面向城市智能应用的公共智算服务221 .北京市:统筹布局突破算力制约222 .杭州市:抓住MaaS模式变革机遇打造模型输出源地23(二)面向科学智能应用的公共智算服务233 .复旦大学智算平台(CFFF):国内高校最大规模异构智算平台23(三)面向行业智能应用的
3、公共智算服务244 .小鹏汽车:借力打造“扶摇”以更低成本实现更强算力245 .百川智能:取长补短强化生态合作打造核心竞争力25(一)基本概念智能计算(简称智算)是指面向算法模型驱动的高并行、高吞吐复杂计算任务需要,基于最新人工智能理论,采用先进的人工智能异构计算架构,配置最优计算策略,实现以最小开销达到最佳效果的一种先进计算形态。智能计算是可以根据具体任务对计算资源进行优化、调度和有效分配的一种新型计算形式。相较于通用计算和超算,智能计算是更为适应A1训练和推理应用的一种算力形态。随着人工智能2.O时代的到来,智算成为关键性基础资源。智算资源具有的初始固定投入高、边际成本递减、边际收益递增特
4、征,决定了采用公共性服务能够更好地匹配供需,有效降低单位使用成本。同时,由于采用云服务方式能够有效屏蔽底层技术差异,实现智算资源弹性调度、按需共享、按量付费。因此,以云服务的方式提供公共智算服务成为破解智算资源获取门槛高、使用成本高、资源易闲置等难题,实现普适普惠供给、高效利用的基本要求。本研究认为,公共智算服务是指面向人工智能技术和产业发展趋势,为有效提升资源利用率、降低获取门槛和使用成本,以基础性、公共性、普适性为原则,以多样化、泛在化、规模化人工智能应用需要为牵引,采用公共云服务方式模块化、组件化、服务化封装算力、算法、数据等智算资源,提供普适普JW艮务,以平台化、生态化、市场化、绿色化
5、、长效化方式实现智算资源高效供给。(二)主要特征1 .云化共享云化共享是指以云服务方式实现智算资源的高效调度和使用,是智算资源能够作为“准公共品”实现普惠便捷服务的必要条件和最有效方式。通过云化共享,一是可以屏蔽底层技术细节,降低用户获取智算资源的技术门槛和转移成本;二是可以实现即时开通和便捷使用,减少用户的初始投入和使用成本;三是可以提高用户的满意度、资源的利用率和服务的性价比,通过共享资源、弹性调度、按量计费,更好满足高弹性资源使用需求。云化共享的实现,有赖于云服务的三个方面技术特点。T资源的多租户共享,支持多个用户共用资源,并确保各用户的业务不互相影响,最大化提升智算资源使用效率;二是资
6、源的弹性调度,支持基于多地域、多中心部署的资源池,根据业需要实时弹性匹配资源,快速扩容满足业务高峰时资源需求,用完即收,释放资源降低成本;三是云原生技术的全面应用,通过服务架构和服务产品的全面无服务器化(SerVeIiess),最大程度屏蔽技术细节,降低使用门槛,提升资源调度能力,实现开箱即用、按量计费,帮助用户更好地聚焦自身业务需求,构建云上应用,充分享受云服务自适应、免运维、高弹性优势带来的红利。2 .高效计算高效计算是指公共智算服务提供的是大规模、高并行、高吞吐的计算服务,这也是公共智算服务面向人工智能2.O时代大模型训练和推理应用的基本要求。基于云化共享方式提供的高效计算服务,一是能够
7、保障和提高大模型训练和推理的效力,缩短训练时间、提升训练稳定性、提升推理应用性能,更好满足2.O时代人工智能应用需求;二是可以提高资源的利用率,让每一块A1芯片发挥更大的算力效能,从而得到更高的服务性价比。实现高效计算需要重点关注四个方面的性能。一是并行计算效率,不仅要能够支持单卡到万卡的并行计算弹性拓展能力,还要保证大规模并行计算的线性加速比,避免因算力节点规模化造成使用效率的过度衰减。二是模型计算效率(Mode1F1OPSUtiIizationjMFU),在同样的硬件配置条件下,提高模型计算效率,可以使模型训练得更快,从而达节约资源、降低成本的效果。三是网络性能,大模型训练所需的(超)大规
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 2.0 时代 公共 服务 发展 指南
