AI基础知识介绍.docx
《AI基础知识介绍.docx》由会员分享,可在线阅读,更多相关《AI基础知识介绍.docx(5页珍藏版)》请在第一文库网上搜索。
1、A1基础知识介绍机器学习主要价值就是学习一个经验E,根据这个学习到的经验E去执行一个任务T,目标是优化执行任务T的表现P。比如:在银行,根据数据,A1学习客户表现和客户信用之间的关系,这个关系是经验E;然后为每个客户实时计算更准确的信用卡额度,这个是任务T;目标P是在一定风险承担范围内,增加银行信用卡收入。1机器学习的基础流程请大家明晰,这七步是在干什么,以什么逻辑和时间轴。后续的介绍将聚焦在其中一两个步骤。但我们经常混淆,比如混淆A1训练和A1执行任务。1选择算法。比如,刚才银行的例子,我们先要对客户进行分类找到黑名单,这是分类算法,也要通过客户行为预测他的额度水平,这是回归算法。前篇对于T
2、ransformer的讨论,就是一个最新的高级一些的算法。2.准备高质量的数据,并进行特征工程。通常这些要花费很多时间,特别是工业界,往往没有高质量的数据。这里数据质量有四个层面:一是绝对的数据量,这个好理解。二是样本数据,比如,在银行风控领域,如果只是交易数据,那不是样本,必须有真正的欺诈数据;比如,在设备管理领域,不但要有设备的运行数据,还要有设备的故障数据,这样机器才可以真正学习。三是数据的处理效率,对于A1真正有价值的往往是实时数据,这是发挥A1决策最大价值的关键。四是特征工程,只有数据是不够的,要进行处理,拿出机器可以理解而且有价值的特征才是根本。最简单的例子就是男、女要分别改成。或
3、Io特征工程是AI计算最重要的领域,整个深度学习的神经网络可以理解为就是在做数据的特征工程。3,对数据用算法进行训练。这个训练的过程才是让机器有能力执行任务的关键步骤,而且很多计算算法的逻辑也针对的这部分。我们讲算力是决定性因素,也往往指训练阶段的算力瓶颈。4 .训练结束一般还要做很多测试,确保这个经验是能够应对多种情况,从而真正形成经验Eo5 .经验E要用到生产系统,实时地执行任务T。比如,上面例子中,我们核心任务是对每个用户的信用额度动态调整。6 .评估执行表现。A1的表现相对于人工会提升多少,和计划是否有偏差等。7,持续优化。这里的优化是全方位的,既要更新算法,提高数据质量,又要有更拟合
4、的训练结果及更实时地执行任务等。经常听客户说,A1可能在我们这里落地效果不好。其实A1在哪里落地,刚开始时效果都不会好,真正让A1起作用,是需要持续优化。第四范式的很多A1驱动的客户,也把这一条当做自己重要的核心竞争力,即持续迭代的能力。2机器学习的理论基础我们先从这个经验E如何训练出来谈起。假设,这个经验E可以抽象成一个线性关系(当然现实世界不一定是简单的线性关系,这里只是简单化处理),即设Y=f(x)=wx+b,X是银行数据(比如:还款逾期率),Y是信用额度。我们要学习的经验E,就是学习这个f(),这个概念很重要,建议停下来稍加理解。要想得到f(),需要先拿一些样本(也就是我们事先知道一些
5、X数据,以及对应的y)进行训练。例如:信用额度还款逾期率IOOOOO0%200005%12000015%10000012.4%8000035%我们希望利用这些X到y的样本,反推出f()这个线性函数。在还款逾期率这个X和信用卡额度y这个空间里,我们有个很多样本,需要预测的是这条直线y=wxb长什么样。我们可以给机器设置一个规定的步长,穷举出很多y=wx+bo但应该选择哪个呢?这里要引入:成本函数J。J=隗g-W)2成本函数的简单定义:我们预测的直线到“每个样本的距离之和”的平均值。假设我们选定了一条直线或者说一个f(),那么在X给定情况下,y是样本对应的数值,f()得出的数值。M为样本个数。这个
6、函数就是这条我们预测的直线到每个样本的距离之和的平均值。即我们应该找到一条直线,它距离每个样本的平均距离最短。也就是对应成本函数最低的那个。我们梳理一下:这里有几个概念:真实世界发生的事件,被数据记录下来,被记录下来并拿来做样本的,这三个层次是不是逐渐缩小了?再往后,我们训练产生一个y=wx+b,其目标是利用样本数据训练一个规律,从而可以预测真实世界。简言之,第一件事是训练出很多.wx+b,第二件是比较哪个.wx+b更好,第三件是选出那个最好的。在实际操作中,计算机会算出各种可能的f(),并算出相对应的成本函数,这个成本函数的取值是一个曲折的球面,机器利用规则在寻找那个山谷的最低点,也就是成本
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- AI 基础知识 介绍