证券代码688787证券简称海天瑞声北京海天瑞声科技股份有限公司投资者关系活动记录表.docx
《证券代码688787证券简称海天瑞声北京海天瑞声科技股份有限公司投资者关系活动记录表.docx》由会员分享,可在线阅读,更多相关《证券代码688787证券简称海天瑞声北京海天瑞声科技股份有限公司投资者关系活动记录表.docx(6页珍藏版)》请在第一文库网上搜索。
1、证券代码:688787证券简称:海天瑞声北京海天瑞声科技股份有限公司投资者关系活动记录表编号:2023-014投资者关系活动类别J特定对象调研口分析师会议媒体采访口业绩说明会口新闻发布会路演活动口现场参观电话会议口其他(请文字说明其他活动内容)参与单位名称及人员姓名广发基金孟晓会议时间2023年9月4日会议地点海天瑞声会议室上市公司接待人员姓名证券事务代表:张哲投资者关系负责人:袁璐投资者关系活动主要内容介绍1、大模型预训练阶段很大程度用的都是无监督学习,无监督学习下,公司的业务是否会受影响,或者会产生哪些新的数据机遇?大模型是人工智能技术新的发展范式,该技术路线下将衍生出新型数据需求。例如,
2、预训练阶段,数据服务公司需能根据客户的大模型需求,完成对海量数据清洗方案的设计以及执行,通过清洗出高质量数据,帮助客户高效完成模型预训练开发;同时,预训练想要达到更高阶的通用学习效果,需要更为丰富的高质量数据来源,例如各类数据等,因此,能聚集更为丰富的类数据、并以工程化和规模化地方式向客户提供相应服务的数据服务商将具有更高的市场竞争力。此外,为使大模型能力更趋近于人类,大模型还将在完成预训练的基础上,通过有监督微调以及基于人类反馈的强化学习,实现模型在特定方向上的优化迭代。上述两个阶段均需深度人工参与,同时参与上述两阶段的数据处理人员将被要求有更高的认知水平和专业能力,以更好指导机器完成高阶能
3、力优化。大模型时代实质上是一个海量数据的时代,随之将产生海量的数据需求,数据服务模式也将由传统的数据标注向获得海量高质量数据、以及更强的数据处理能力转变,这对数据服务商提出了新的、更高的要求。因此,能够前瞻性布局大模型数据服务能力的服务商将优先获得市场机会,建立先行的护城河。2、请问大模型向多模态发展后,是否会对公司业务产生正向影响?大模型向多模态发展后,将会产生更多的新型数据需求。例如文生图的多模态大模型,通过文字输入生成对应图片,这就需要机器理解文字语义的同时将理解的关键词与图片的关键标签进行映射,通过对齐两种独立模态关键特征的方式,实现按指令的创作,以此完成学习训练过程。因此,当大模型向
4、多模态能力维度拓展时,高质量多模态训练数据集的持续学习训练的重要性将更加凸显,多模态的发展将推动数据服务行业进入更大的增量空间。3、公司如何看待合成数据这个技术?今后是否会对公司的业务产生不利影响?尊敬的投资者:您好,在数据重要性凸显且数据需求快速增长的时代,合成数据可以认为是人工智能行业发展到一定阶段的必然产物。数据合成技术可以作为数据采集的有效辅助,但也存在较强的局限性,降低真实世界各类特征的训练效果,因此目前仅可作为数据采集的一种辅助方式。从目前数据服务行业来讲,以计算机视觉场景为例,合成数据主要应用于某些高危的、罕见的cornercase的模拟训练当中,但合成数据毕竟是由机器生成的虚拟
5、数据,其数据质量以及真实性仍无法替代真实场景数据,因此按照目前的技术路线,绝大多数企业仍在使用真实场景数据进行模型训练。但公司会紧密关注合成数据技术的发展,根据最新的行业动态及时调整公司业务布局。4、数据是怎么生产的?训练数据生产过程主要包括四个环节:设计(训练数据集结构设计)、采集(获取原料数据)、加工(数据标注)及质检(各环节数据质量、加工质量检测)设计一一训练数据集结构设计在设计环节中,通过考虑算法模型的具体应用领域、应用场景以及预期实现的训练效果,反过来确定训练数据集内的数据类型、数量、比例分布等,相应确定原料数据的采集要求,为后续采集工作奠定基础。以语音识别、语音合成领域的训练数据集
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 证券 代码 688787 简称 海天瑞声 北京 科技股份有限公司 投资者 关系 活动 记录