快手基于Alveo优化大规模网络直播和短视频自动语音识别服务.docx
《快手基于Alveo优化大规模网络直播和短视频自动语音识别服务.docx》由会员分享,可在线阅读,更多相关《快手基于Alveo优化大规模网络直播和短视频自动语音识别服务.docx(4页珍藏版)》请在第一文库网上搜索。
1、快手基于A1veo优化大规模网络直播和短视频自动语音识别服务快手成立于2011年3月,总部位于北京,是全球用户利用短视频或者直播形式记录和分享日常生活的领先内容社区和社交平台,每天产生上千万条原创新鲜视频。图:快手ASR应用场景项目概述自动语音识别(ASR)是电子商务、短视频、直播等众多应用的核心技术之一。ASR在快手有许多的应用场景,是快手APP,直播、风控、游戏等众多业务的核心功能,尤其是在直播和短视频应用领域。ASR流式自动语音识别,己经成为快手各种创新服务的核心技术之一。比如广受主播们喜爱的直播间小快机器人(语音助手),快手APP语音搜索、直播间语音输入法、语音魔法表情、一甜相机实时字
2、幕,以及最新上线的快影自动字幕服务等等,为全球数亿用户带来了前所未有的各种创新体验。作为全球最受欢迎的直播和短视频应用平台之一,快手全球平均每天有3亿活跃用户通过各种终端在快手平台记录和分享他们的生活或体验。面对如此庞大的规模用户和应用场景,快手希望能够优化其ASR服务,满足不断增长的客户需求,并为他们提供更好的用户体验。用户体验最重要的性能指标,就是时延和并发路数。致力于“围绕快手核心业务打造技术护城河”的快手异构计算中心,借助赛灵思A1veo吗及相关工具项目挑战在快手之前基于CP1J框架的处理流程中,特征提取等前处理模块运行时间占比约为5%-10%,TDNN+1STM声学模型运行时间占比约
3、为60%80%,而包含语言模型的解码器部分运行时间占比约为15%30%。快手异构计算中心,希望找到一个更合适的异构底层器件,将最耗时的TDNN+1STM声学模型转移到这个器件上并进行优化。快手异构计算中心团队认为,以TDNN1STM为主结构的流式声学模型优化的关键痛点有三个,那就是时延(1atenCy)、实时率(RTF,Rea1TimeFactor)和并发数(ConCUrrency),具体而言需要解决如下问题: 缩短时延,为用户提供实时的流式语音识别ASR体验; 提高并发数,保障海量流式数据并发处理的带宽需求; 提供灵活性及易用性,满足现有多业务模型的特点。如可以同时运行多个模型,可以多模型实
4、时任意切换,且能满足未来模型的升级换代; 降低单位算力成本,实现更低总拥有成本; 满足A1算法的高精度需求。此外,快手对配进行了评估,发现其便件使用率(UtiIiZatiOn)比较低,不能满足RTF需求,SRAM容量也无法满足TDNN+1STM模型高并发性的需求。至于主流的ASIC,除了以上介绍的硬件使用率问题外,还存在不支持Ka1di框架,定点实际只有12bit等问题,很难满足ASR优化在精度上的需求。综上所述,快手技术团队认为,满足上述需求的理想的异构器件平台,应当是一个可以全定制的专用平台,可以通过软硬件协同设计确保精度符合各种不同业务的标准。解决方案快手异构计算中心经过评估后,决定选用
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 快手 基于 Alveo 优化 大规模 网络 直播 视频 自动 语音 识别 服务