人工智能数据处理活动概述.docx
《人工智能数据处理活动概述.docx》由会员分享,可在线阅读,更多相关《人工智能数据处理活动概述.docx(2页珍藏版)》请在第一文库网上搜索。
1、人工智能数据处理活动概述A.1人工智能数据概念和分类本文件所述人工智能数据包含人工智能系统全生命周期中通过收集得到的原始数据和开发、运营过程中产生的新数据。根据生命周期阶段不同、数据形态不同、是否有数据标签、数据收集方式不同,可以对人工智能数据进行多种分类。依据人工智能系统生命周期阶段的不同,人工智能数据包含源数据、开发数据和运行数据。源数据是在数据准备阶段通过数据收集和数据加工获得的数据,包含原始数据、数据标签、训练数据、验证数据、测试数据等。原始数据直接来自于数据收集;数据标签是通过人工或自动化方式对原始数据所做的数据标注结果文件;训练数据、验证数据、测试数据是通过对原始数据和数据标签进行
2、数据预处理而获得的数据,用于人工智能模型训练和模型效果的验证。开发数据是在人工智能模型开发阶段获得的数据,包含特征数据、模型参数、模型文件等。特征数据是使用算法提取的训练数据的关键信息;模型参数是对人工智能模型设定的参数数据,例如深度神经网络结构等;模型文件是以文件形式存储的人工智能模型。运行数据是在人工智能模型运行阶段获得的数据,包含实例数据、模型输出等。实例数据是人工智能模型运行的输入数据,来自于运行阶段的数据收集和加工;模型输出是模型对实例数据进行识别和预测的结果,例如人脸识别结果等。依据数据形态不同,可将人工智能数据分为视频数据、图像数据、文本数据、语音数据等非结构化数据以及字符、表格
3、等结构化数据,人工智能数据处理者根据人工智能应用业务需求选择具体形态的数据进行使用。依据数据是否有标签,可将人工智能数据分为有标签数据和无标签数据。有标签数据一般用于人工智能开发中的监督学习任务,例如文本分类;无标签数据一般用于人工智能开发中的无监督学习任务,例如图像生成。依据数据收集方式的不同,可将人工智能相关数据分为开源数据、外部采购数据、真实环境采集数据、业务回流数据。开源数据是权威组织或个人收集整理并提供公开下载的数据;外部采购数据是从外部采购的非公开成品数据或定制化数据;真实环境采集数据是组织或个人通过人工或系统从真实环境采集到的数据,该类数据一般具有私有属性和保密要求;业务回流数据
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 数据处理 活动 概述