根据史丹佛大学的一项研究,使用於 Stable Diffusion 等主流人工智慧(AI)服务的 LAION-5B 机器学习数据集已被建立了该数据集的组织撤下。史丹佛大学的研究发现,该数据集内部包含了 3,226 例可疑的儿童性虐待材料(CSAM),其中 1,008 例经过外部验证。
根据 LAION 的说法,出於「极度谨慎」的考虑,他们将暂时撤下其数据集,包括 LAION-5B 和另一个名为 LAION-400M 的数据集,在确保它们是安全的之後才会重新发布。
该研究使用感知和基於加密杂凑(cryptographic hash)的检测方法分析图像,发现了这些可疑的儿童性虐待材料。报告指出,拥有 LAION‐5B 数据集,就代表着拥有数千张非法图像,这还不包括所有以非同意方式发布和蒐集的私密图像(NCII),以及社群媒体贴文和流行成人网站上的非法图像。
研究还发现,透过从网路上抓取真实的 CSAM,有助於帮助 AI 生成更好的 CSAM 图像。研究强调了透过大规模、无差别地从网路上抓取数据来进行生成式人工智慧的危险。
Large-scale Artificial Intelligence Open Network(大规模人工智慧开放网路,又称 LAION)是一家非营利组织,为机器学习提供开源工具。 LAION-5B 是其最大且最受欢迎的产品之一,虽然不保存图像,但它包含了其抓取的图像的连结和图像的替代文字,多达 50 亿个。根据报导,Stability AI 曾资助 LAION-5B 的开发。
考量到研究团队进行的评估是从 9 月才开始的,且只研究了数十一个片段中的一小部分,数据集中实际的 CSAM 数量可能要高得多。
研究的主要作者兼首席技术专家 David Thiel 表示:「如果您出於任何目的下载了完整的资料集,用於训练、用於研究目的的模型,那麽您绝对拥有 CSAM,除非您采取一些非常措施来阻止它。」
Stable Diffusion 在其回应中表示,他们对防止人工智慧被误用,特别是用於非法活动,有着零容忍的态度,并已使用过滤器来拦截不安全内容。
Google 则表示 Imagen 从未使用 LAION-5B,而 LAION-400M 仅用於训练 Imangen 的早期研究模型。且在对 LAION-400M 进行审查时,Imagen 的开发人员就发现了「大量不当内容」,包括色情图像、种族主义诽谤和有害的社会刻板印象,并认为其不适合公众使用。
OpenAI 的发言人 Hannah Wong 表示,OpenAI 不会在任何 LAION 资料集上训练 DALL-E,包括 5B。
根据 LAION 官方 Discord 伺服器中的公开聊天历史纪录,他们早在 2021 年就已经意识到可能会将儿童性虐待材料爬取到数据集中。
Thiel 指出,LAION 本可以在发布数据集之前使用研究人员使用的方式来避免类似的事情发生,但 LAION 却选择没有这麽做。「(他们)最初确实使用 CLIP 来尝试过滤掉一些东西,但他们看起来并没有谘询任何儿童安全专家,他们的尝试远远不够。」
在过去 15 年中,CSAM 的报告增加了 15,000%。CSAM 是科技公司致力於解决的问题,包括苹果、Google 等科技公司都在积极配合政府执法机构,以技术与科技的力量来进行审查,也有新创公司专门开发技术来保护儿童免受性虐待,例如 Thorn。该新创公司的数据科学主管 Rebecca Portnoff 博士在早前的 AWS re:Invent 大会中,分享使用机器学习技术来过滤 CSAM 材料的解决方案。
核稿编辑:Mia
快加入 INSIDE Google News 按下追踪,给你最新、最 IN 的科技新闻!