浅谈机器学习公平性.docx
《浅谈机器学习公平性.docx》由会员分享,可在线阅读,更多相关《浅谈机器学习公平性.docx(9页珍藏版)》请在第一文库网上搜索。
1、当前,机器学习在多个领域中发挥着越来越重要的作用,在金融、司法、医疗等公共领域,应用机器学习的结论进行辅助乃至自动化决策已非个例。科技的迅猛发展在给人类带来极大便利的同时,也带来了新的风险,甚至会引发前所未有的伦理挑战,如美国的犯罪预测系统COMPAS存在歧视黑人的现象(预测结果对黑人的误报率高于白人)、亚马逊A1简历筛选系统存在歧视女性的现象、meta广告推荐算法涉嫌违反美国公平住宅法案(FairHousingAct,FHA)o在我国,算法伦理问题已经引起国家层面的关注。2023年3月,中共中央办公厅、国务院办公厅印发了关于加强科技伦理治理的意见,将人工智能作为科技伦理治理的重点领域之一。这
2、是我国首个国家层面的科技伦理治理指导性文件,算法公平性也随之成为业界重点关注的问题。本文将从多个角度阐述机器学习公平性的研究进展:介绍公平性的度量指标,分析可能引起模型不公平的根源,梳理提升机器学习公平性建模中的关键措施,以期为读者在加深对机器学习公平性伦理问题的认知,避免应用机器学习算法时引起不公平的道德伦理问题等方面提供参考。一、机学习公平性的概述及公平性度量指标机器学习公平性是机器学习领域的一个新兴分支,主要研究如何通过解决或缓解“不公平”来增加模型的公平性,以及如何确保模型的输出结果能够让不同的群体、个人都有平等的机会获得利益。然而,受文化和环境的影响,人们对公平性的理解存在一定的主观
3、性。到目前为止,公平性尚未有统一的定义及度量指标。总的来说,公平性主要分为群体公平性和个体公平性两类:群体公平性指标侧重于衡量决策(模型结果)对不同群体的偏见程度;个体公平性指标主要侧重于衡量决策对不同个体的偏见程度。本文将以二分类为例对公平性常用的定义及度量指标(如图1所示)进行介绍。群体性公平I优点:计算简单且不依赖于任何假设群体均帘不平等影响缺点:当群体的百实标签分布不均时,准确的模型会被认为是不公平的补偿几率优点:同时考虑了其阳率和假阳奉,且准确的校型也能较为公平缺点:依1于祥本要有足够代表性且不包含人为偏见的假设机会均等优点:准确的根型也能较为公平“缺点:依猿于样本要有足够的代表性且
4、不包含人为偏见的假设优点:计算时考虑了除敏感信息之外的属性信息一个体公平缺点:个体相似性比较难度量一优点:具荷因果解理性反事实ZX平缺点:需要考虑多个因素的因果干涉,比较复杂模型公平性评价指标个体性公平图1常见的模型公平性指标及特点假设S为敏感信息的特征(如种族、性别、年龄、民族等),“S=1”表示该群体在社会中为“强势群体”,较少受到歧视,“SW1”表示该群体在某些方面为“弱势群体”,存在潜在的受到歧视的风险,如少数族裔、老年人、女性等。Y为模型的真实标签,Y为模型预测的结果,Y=I表示模型预测结果为正面(有利于该样本个体的标签),P表示某条件下的概率。1 .群体公平性指标群体公平性指标本质
5、上是比较算法在两类或多类群体上的分类结果,通常群体是按性别、婚姻状态、种族等敏感属性进行分群,下面对常用的群体公平性指标分别进行介绍。(1)不平等影响(DiSParateImpact,DI)/群体均等(Demographicparity,DP)DI定义为模型对于两个不同的群体预测为正类的概率比值,即:PY=1S1X_2PY=1S=1DP定义为将两个不同群体预测为正类的预测概率差值,即:PY=1S=1-PY=1S1以上指标存在两个弊端:一是如果群体之间标签分布不同,一个完全准确的模型在这两种指标下会被认为是不公平的;二是为了满足这两种公平,两个相似的样本有可能仅仅因为“所属群体”不同而获得不同的
6、预测结果。(2)补偿几率(Equa1izedodds)该指标由两部分组成,即群体之间假阳性概率(fa1se-PoSitiVCrates)之差和群体之间真阳性概率(true-positiverates)之差,差值越小则认为模型越公平,可以表示为:PY=1S=1,Y=0-1Y=1S1,Y=06rPY=1S=1,Y=1-P1Y=1S1,Y=1(3)机会均等(Equa1Opportunity)机会均等定义为不同群体的真阳性概率之差,指标越小代表越公平,可描述为:pV=s=,=i-PV=IIS,Y=ig在指标“补偿几率”和“机会均等”的定义下,完全准确的模型能够表现的较为公平,但指标计算使用到了真实标签
7、Y,所以需要满足“样本足够有代表性并且不包含人为偏见”的假设。2 .个体公平性指标个体公平性是衡量决策对不同个体的偏见程度。(1)个体公平性指标个体公平性指标是指对于两个个体,如果非敏感信息特征相似,则模型应给出相似的预测结果。具体来说,以上二分类问题中不同群体中的两个个体i和j,假设X为非敏感信息,S为敏感信息,d(i,j)为两个个体的相似性,个体公平可以描述为:PY=yIX,S-PY=yXQS,if:(,)O该指标在计算时综合考虑了敏感信息之外的属性信息来计算相似性,然而,对于如何定义个体相似性仍是一个有待解决的难题。(2)反事实公平性指标反事实公平性是指如果一个决策与敏感属性不同的反事实
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 浅谈 机器 学习 公平性