这是关于如何将道德观念融入AI的两部分系列之一。第一部分着重于在公司和团队中培养一种道德文化,以及在公司内部和外部保持透明。第二部分重点介绍了从数据和算法中删除排除的机制。每个建议都包括道德失误的例子,以及如何防止或减轻它们。
好像每天大约有文章如何人工智能(AI)系统造成的犯罪(例如,标签非裔美国人为“大猩猩”)或实际伤害时的意图可能是善意的(例如,种族的偏见刑事判决建议和利率)。
这些系统中的每个系统的开发人员都没有打算冒犯或伤害任何人,也没有预料到负面结果,但他们应该这样做吗?如果您正在设计和构建AI系统,那么您可以建立道德规范吗?无论您在组织中的角色如何,都可以帮助确保AI系统导致更公正的社会,而不是使社会偏见永久化吗?所有这些问题的答案是:“是!”
Salesforce的首席执行官马克·贝尼奥夫(Marc Benioff)说:“我对公司的目标是做得好,做得好。“这是我们信任,平等和创新的核心价值观的核心。我们坚信,我们可以站在创新的前沿,取得成功,并成为世界上造福人类的力量。我们在内部将道德规范融入爱因斯坦(我们的AI系统),并与AI联合伙伴关系中的其他成员进行合作。
将道德规范嵌入到AI系统中需要时间,并且可能要求您的工作方式不同于您或您公司一直以来的工作方式。但是,鉴于AI既有带来危害也有好处的巨大潜力,因此进行投资至关重要!
将道德规范纳入系统的过程可以分为三个阶段,每个阶段包含几个步骤:
如果您没有建立起坚实的基础,那么成功所需的努力将永远更大。这涉及建立一支多元化的团队,培养一种道德观念以及进行社会系统分析。
征募各种背景和经验来避免偏见和功能差距。
苹果公司的HealthKit于2014年问世时,它可以跟踪您的血液酒精含量,但您无法跟踪大多数女性每个月处理的最常见的健康问题。
研究表明(1,2,3,4,5,6),该不同团队(包括经验,种族,性别)是更有创造性,勤奋,和较硬性工作的。包括更多各级妇女,特别是高层管理人员在内,可以带来更高的利润。
缺乏多样性会造成回声腔,并导致产品和特征间隙出现偏差。如果开发Apple的HealthKit的团队中有更多(任何?)女性,那么他们很可能会发现50%的人口明显缺乏该功能。这个例子表明缺乏性别多样性,但是从年龄,种族到文化和教育,都需要所有类型的多样性。
如果您无法雇用新成员来建立更多元化的团队,请寻求公司和您的用户群中不同员工的反馈。
道德是一种心态,而不是清单。授权员工做正确的事。
Uber首席执行官称赞举报人强迫该公司做出改变,并“作为一家做正确的事而前进”。
仅仅拥有首席道德官并不能防止公司犯道德上的错误。那是因为没有人能或不应该为一家公司的道德行为负责。整个公司必须具有道德观。
员工个人必须能够同情每个人其AI系统的影响。公司可以通过课程,内部支持小组和平等审核来培养道德观念。
此外,员工应该通过询问“这是正确的做法吗?”而感到有能力不断挑战对方。在产品评论和日常活动中,人们应该提出针对其领域的道德问题。例如:
当员工对收到的答案不满意时,就需要一种解决它的机制。
仅仅拥有首席道德官并不能防止公司犯道德上的错误。那是因为没有人能或不应该为一家公司的道德行为负责。整个公司必须有道德观。
让利益相关者参与产品开发生命周期的每个阶段,以纠正AI数据中系统性社会不平等的影响。
芝加哥警察局使用AI驱动的预测性警务计划来识别最有可能卷入枪支暴力的人。人们发现该方案在减少犯罪方面无能为力,但导致某些人被捕。
社会系统分析是对在生态系统中相互作用的群体和机构的研究。社会系统分析不是假设要构建一个系统,而是询问该系统是否应该首先构建,然后根据利益相关者的需求和价值进行系统设计。这可以通过在受影响的社区中进行人种志研究或从监督委员会或法律机构获得反馈来完成。
参照芝加哥的预测警务方案的例子,凯特·克劳福德和瑞安·卡洛如下提示:“一个社会系统的方法将考虑在其上热图所依据的数据的社会和政治的历史。这可能需要咨询社区成员,并根据有关社区治安的正面和负面反馈权衡警察数据。”
组织必须了解他们的创作如何影响用户和整个社会。通过了解这些影响,他们可以确定最容易受到系统负面影响的那些影响。从统计学的角度来看,假阳性或假阴性的可能性只有1%(从统计角度来看是极好的!),但对于那1%的人口而言,结果可能是极其有害的。该系统的风险和收益是否均匀地适用于所有人?谁根据AI的结果受益,谁付款?在AI开发的每个阶段(包括发布前和发布后)提出这个问题,都可以帮助您找出有害偏见并加以解决。
从统计学的角度来看,假阳性或假阴性的可能性仅为1%,但是……对于那1%的人口而言,结果可能是极其有害的。
为了符合道德规范,您需要对自己,用户/客户和社会保持透明。这包括了解您的价值,了解谁受益,谁付款,让用户控制其数据以及获取反馈。
检查基于结果的决策的结果和权衡。
有人担心像Siri和Google这样的AI助手总是在听。它们的设计旨在在被询问之前猜测用户想要知道的内容,从而提供非常有用的即时信息。但是,这也引起了隐私和安全意识用户的关注。
个人或公司的价值观在做出决策时可能会发生冲突,从而导致妥协。例如,用户喜欢个性化结果的便利性,但可能会担心公司对他们的了解(隐私)或公司可能选择不向他们透露的信息(歧视)。不幸的是,发现AI助手对每个人都没有用,因为他们的培训似乎排除了非洲裔美国人的声音。进行权衡时,必须将其明确告知所有受影响的人。如果AI算法是“黑匣子”,这会阻止创建者准确地知道如何做出决策,那么这可能会很困难。
需要不断检查结果,以了解这些权衡的影响。假设您的公司正在设计一个AI增强的安全系统,该系统会导致某些个人隐私丢失。考虑以下:
解释该公司为何要进行权衡,以及为减轻危害所采取的措施可能对保持公众的信任有很大帮助。
允许用户更正或删除您收集的有关他们的数据。
Google的目标是使世界的信息“普遍可访问和有用”。自2014年以来,他们已收到240万份“被遗忘的权利”要求,以删除个人,政客和政府机构发现的破坏性信息。但是,谷歌仅完成了43.3%的请求。
公司可以在线,在商店中以及从支持Internet(IoT)的设备中收集和跟踪有关其用户的惊人数据。允许用户查看您收集的有关他们的哪些数据并更正或下载或删除数据是符合道德的。如果您的公司在欧盟运营,则需要了解欧盟的通用数据保护法规(GDPR)及其对您可能收集和存储的内容的影响,以及有关允许用户/客户下载和删除其数据的规则。
此外,请确保可以准确表示数据。例如,如果用户标识为非二进制,是否可以指示其性别?他们是否可以选择多个种族背景?
如果收集的数据是匿名的,并且用户无法确切看到公司对它们的了解并进行编辑,则应清楚地传达收集到的数据种类并允许个人选择退出。如果用户在没有数据收集的情况下无法使用产品,则也要进行沟通。
允许用户提供有关AI对他们的推论的反馈。
三个国家信用局收集有关个人的信息,以创建信用报告,供贷方用来确定潜在借款人的风险。个人无法选择要收集的数据,必须经过艰巨的时间来修正错误的数据或关于它们的推断。
在没有个人知识或控制的情况下(例如,无法获得贷款),得出有关个人的推论(例如,贷款违约的高风险)会产生有害的后果。不幸的是,那些受AI和“大数据”之苦最大的人是已经边缘化,贫穷,无声的社区(例如,那些无法上网的人无法快速查看其信用报告或提出更正请求)。
欧盟法律要求对具有严重后果的AI决策由人进行检查,并可以选择予以否决;但是,如果不了解其他决策,孤立的单个数据点就毫无意义(例如,尽管所有其他因素都相似,黑人和白人客户的贷款批准建议是否有所不同?)。了解情境中的AI建议或预测非常重要。
对推理透明并允许个人提供反馈,不仅使您可以提高模型的准确性,而且还可以校正歧视。与不公平地解雇可行客户的竞争对手相比,这可能是一个优势。例如,一家拒绝大量贷款申请者的风险过高的银行可能会将小额贷款确定为一种替代产品,不仅支持社区,还导致了忠诚的客户群,而该银行的竞争对手却忽略了这一点。这使客户能够改善其财务状况并利用银行的更多产品,从而形成良性循环。
从培养道德文化到对公司的价值观透明并赋予客户权力,公司及其员工应采取多种行动,为建立AI产品奠定道德基础。要研究消除基于AI的产品中的排斥的方法,请参阅第II部分。
我很想听听您的想法!贵公司和您个人在工作中建立道德基础要做什么?
这是一个由两部分组成的系列文章的第二部分,该系列文章介绍了如何将伦理学融入AI。第一部分着重于在公司和团队中培养一种道德文化,以及在公司内部和外部保持透明。在本文中,我们将重点介绍从数据和算法中删除排除的机制。在我们可以采取的所有干预措施或行动中,此处的进展变化最快。识别和解决数据和算法偏差的新方法不断涌现,这意味着客户必须紧跟这一新兴技术。
进入AI系统存在多种偏见。为了修复它们,必须首先识别它们。
确定算法中显着且易变的因素。
数字借贷应用程序从一个人的移动设备中获取大量替代数据,例如每日位置模式,社交媒体活动,文本标点符号或他们的联系人中有多少人姓氏以批准或拒绝贷款或收取更高的利率。例如,吸烟者和深夜互联网用户不好偿还贷款。由于在服务条款(TOS)中隐藏了许可,因此通常在用户不知情的情况下收集此数据。
工程师和最终用户都对“黑匣子”不满意。他们想了解提出建议的投入。但是,几乎不可能完全解释AI如何提出建议。在上面的借贷示例中,重要的是要记住,相关性不等于因果关系,并在做出重大决策(例如房屋贷款批准)时批判性地考虑所建立的联系。
操纵AI推荐结果的因素有哪些?通过了解所使用的因素并将其打开/关闭,创作者和用户可以了解每个因素如何影响AI以及导致有偏见的决策。
本指南由克里斯托夫·莫尔纳制造黑箱模型可以解释的是,在更深的挖掘一个尝试。Google研究人员在2015年演示了另一种方法。他们对基于深度学习的图像识别算法进行了反向工程,以便代替发现照片中的对象,它可以生成或修改它们,以便发现程序用于识别杠铃的功能或其他对象。
微软的包容性设计团队已在其设计工具中添加了一系列准则,以识别人工智能中的排斥因素。本节中的其余建议均受其关于这五类偏见的中级帖子的启发。
确定在数据集中哪些人或什么被排除或过量代表,为什么将它们排除在外以及如何缓解。
在Google上搜索“ 3个白人少年”,然后搜索“ 3个黑人少年”,您将看到大部分白人女孩的库存照片和大部分黑人少年的照片。这是因为数据集中缺少黑人少年的库存照片,但是很容易看出,如果仅在该数据集上对其进行训练,那么AI系统将如何得出有偏见的结论,即黑人或白人青少年被捕的可能性。
数据集偏差会导致组代表过多或不足。例如,在代表其余用户群的情况下,您的数据集可能会偏重于最高级的用户。结果可能是创建您的超级用户所钟爱的产品或服务,而从未给其余用户提供成长和繁荣的机会。那么,这是什么样子?如何解决?
确定您的训练数据或标签是否代表刻板印象(例如性别,种族),并进行编辑以避免放大。
在用于训练图像识别AI系统的照片数据集中,研究人员发现,在与烹饪,购物和洗涤相关的照片中,该数据集的女性人数比男性多,而驾车,射击和教练的照片中的女性人数多于女性。
关联偏差是指用于训练模型的数据可以使构造型永久存在并放大,而构造型不仅限于图像。例如,在土耳其语等性别中立的语言中,Google翻译通过将“他”与“勤奋”,“医生”,“总统”和“她”与“懒惰”,“护士, ”和“保姆”。在Google新闻搜索中也发现了类似的偏见。
不幸的是,使用这些偏差数据集的机器学习应用程序会放大这些偏差。在照片示例中,在涉及烹饪的照片中,数据集的女性人数比男性多33%,但该算法将这一偏误放大到68%!这是使用区分模型(与生成模型相对)的结果,该模型通过放大数据中的泛化(偏差)来提高算法的准确性。如果您想了解更多信息,劳拉·道格拉斯(Laura Douglas)会很好地解释此过程。
偏差放大的结果意味着,仅将数据集保持原样是因为它代表“现实”(例如,美国91%的护士是女性)是不正确的方法,因为AI扭曲了本已不平衡的视角。这使人们更加难以意识到今天的劳动力队伍中有许多男护士,例如,她们的薪水往往比女性高。
研究人员找到了一些方法来纠正不公平的偏见,同时通过使用语料库级别的约束和消除词嵌入的偏见来减少性别偏见的放大,从而在保持准确性的同时。如果您的AI系统随着时间的推移而学习,则有必要定期检查系统结果,以确保偏差不会再次蔓延到您的数据集中。解决偏见并非一次性解决;它需要不断的警惕。
偏差放大的结果意味着仅将数据集保持原样是因为它表示“现实”……这不是正确的方法,因为AI扭曲了本已不平衡的视角。
确定系统中的偏见是否正在造成自我充实的预言并阻止选择自由。
一些法院系统使用的Compas AI系统来预测定罪的罪犯再次犯罪的风险已显示出针对有色人种的系统性基础,从而导致假释或更长的徒刑。
确认偏见强化了对群体或个人的先入之见。通过提供与个人选择的信息或选项相似的信息或选项,可以形成一个回音室。在上面的示例中,ProPublica的一篇文章证明了Compas AI使用的算法更有可能将黑人被告具有较高的再犯风险,并且更有可能将白人被告归为低风险。另一项研究表明,仅使用六个因素来预测累犯的未经训练的Amazon Mechanical Turk工人与使用157个因素的Compas一样准确(分别为67%和65%)。
即使种族不是使用的因素之一,两者都更有可能错误地预测黑人被告会得罪而白人被告不会得罪。那是因为某些数据点(例如,入狱时间)是种族创造失控反馈回路的代名词,这些反馈回路对已经在社会上处于不利地位的人产生了不成比例的影响。
Compas系统只是一个例子,但是这里讨论的许多系统包括预测警务,借贷应用,乘车服务和AI助手,一部分人口面临类似的偏差。只能想象每天面对多个方面的偏见和排斥是多么的压倒性。与其他类型的偏差一样,您必须测试结果以查看偏差的发生,识别偏差因素,然后将其删除以打破这些失控的反馈回路。
确定您的值何时覆盖用户的值,并为用户提供撤消它的方法。
一场AI选美大赛在评估美感方面没有偏见,但几乎所有获奖者都是白人。
自动化偏见将多数人的价值观强加于少数人,这损害了多样性和选择自由。然后执行AI系统创建者的价值。在上面的示例中,一次AI选美比赛根据训练数据将主要是白色面孔标记为最美丽的面孔。欧洲的美容标准困扰着当今非欧洲人的照片质量,导致皮肤黝黑的人的照片曝光不足,并且AI系统难以识别它们。反过来,这会导致侮辱性标签(例如Google Photos的“大猩猩事件”)和通知(例如“智能”相机询问亚洲人是否眨眼)。更差,警察的面部识别系统对非洲裔美国人的影响尤其严重。
要开始解决这种偏见,必须首先检查基于价值的偏见的结果(例如,训练数据缺乏多样性来代表所有用户或更广泛的人群,主观标签代表创造者的价值观)。
在借用应用程序根据某人是否吸烟者做出决策的较早示例中,必须提出一个问题,即这是否代表创造者的价值或大多数人的价值观(例如,吸烟不好,因此吸烟者不好)。返回到社会系统分析以获取用户的反馈,以确定他们的价值观或文化考虑是否被覆盖。您的用户会做出与AI相同的评估或建议吗?如果不是,请修改训练数据,标签和算法以表示值的多样性。
了解您的系统如何从实时交互中学习并进行检查以减轻恶意意图。
Inspirobot使用AI和从网络上抓取的内容来生成“鼓舞人心的”报价,但结果范围从可笑的怪异到残酷和虚无。
当人类与AI系统互动或故意影响AI系统并产生有偏见的结果时,就会发生互动偏见。Inspirobot的创建者报告说,该机器人的报价反映了它在网络上的发现,而他试图缓解该机器人的虚无主义倾向只会使它们更糟。
您可能无法避免有人试图故意破坏您的AI系统,但是您应该始终进行“验尸”,以确定可能滥用您的AI系统并造成伤害的方式。一旦确定了潜在的滥用行为,就应该进行检查,以防止可能的滥用,并在不可行时进行修复。定期检查您的系统用于学习和清除有偏见的数据点的数据。
您可能无法避免有人试图故意破坏您的AI系统,但是您应该始终进行“验尸”,以确定可能滥用您的AI系统并造成伤害的方式。
人工智能的偏见反映了我们整个社会的偏见。将道德规范融入AI可以解决更大问题的症状。作为一个社会,我们必须决定我们重视所有人的平等和公平,然后在现实生活中实现这一目标,而不仅仅是在我们的AI系统中实现。人工智能有可能成为伟大的民主化者或扩大社会不公,这取决于您决定希望产品出现在频谱的哪一边。
原文:https://medium.com/salesforce-ux/how-to-build-ethics-into-ai-part-ii-a563f3372447
既然来了,说些什么?