最近研究显示,在软体工程职位的模拟面试中,进行面试回馈的 AI 模型对男性评价较低,尤其是那些拥有「英式」名字的男性。
这项研究是由 Celeste De Nadai 在瑞典斯德哥尔摩皇家理工学院(KTH)所进行的毕业论文,目的是调查当大型语言模型(LLM)面对性别资料与可进行文化推论的名字时,是否展现偏见。
同时 De Nadai 也是 AI 内容公司 Monok 行销长。她告诉 The Register,彭博社曾报导神经网路基於名字会产生偏见的新闻,成为他做题目的灵感。目前很多新创公司都透过 AI 进行招募,强调没有偏差,而她质疑这个说法。
De Nadai 的研究以 Google 的 Gemini-1.5-flash、Mistral AI 的 Open-Mistral-nemo-2407,以及 OpenAI 的 GPT4o-mini 为研究对象,在温度(影响可预测性与随机性的模型设定)、性别及与文化群体相关的名称变化的情况下,观察它们如何对 24 个求职面试问题的回答进行分类与评分。
最重要的是,为了测试模型,相同答案会使用不同姓名和背景组合。结果发现,具英式(盎格鲁.撒克逊)名字的男性虽然在软体工程表现更好,但模型会降低其他有利答案的评分。
该研究将申请人的名字和性别变换 200 次,以对应 200 个离散角色,再细分为 100 名男性和 100 名女性,并分为四个不同的文化群体(西非、东亚、中东、盎格鲁.撒克逊),主要反映在名字和姓氏上。
结果原本预期男性和西方名字会受青睐,如同过往的偏见研究发现一样。但结果却完全不同。研究报告指出,「这些服务存在固有偏见,在特定研究案例中,男性名字普遍受歧视,尤其是盎格鲁・撒克逊(英式)名字」。不过当包含更详细问题分级标准和温度高於 1 的提示时,Gemini 模型表现比其他模型好」。
De Nadai 认为,对英式姓氏男性的偏见,反映在先前研究中,对偏向相反方向的输出进行过度修正。她建议如果要更公平的话,可提供提示,说明如何为面试问题打分的严格、详细标准。温度调整可能有帮助,也可能有伤害,视模型而定。
这项研究指出,进行分类或评估时,建议务必遮蔽姓名和混淆性别,确保结果尽可能概括且无偏见,并在系统指示提示中提供如何分级的标准。
- The inherent predisposition of popular LLM services
- AI hiring bias? Men with Anglo-Saxon names score lower in tech interviews
(首图来源:pixabay)