ImageNet 数据集中的人脸为何一夜变糊?研究团队表示,这样做既有利于保护个人隐私,同时也不会明显影响到应有的模型训练效果。
作为 AI 领域的知名数据集,ImageNet 曾极大地推动了计算机视觉技术突破。自 ImageNet 论文 2009 年发布以来,它在 Google Scholar 上的引用量高达 26115 次,该论文也获得了 CVPR 2019 的经典论文奖。
不过随着计算机视觉技术成熟,有越来越多的应用,ImageNet 数据集中的隐私与偏见问题也引发了极大的争议,例如部分标签包括种族歧视、性别歧视、色情内容等。
而针对数据集中的人脸隐私问题,这个曾经红极一时的数据集最近友不得不作出新的调整。
近日,ImageNet 管理团队推出新论文《A Study of Face Obfuscation in ImageNet》,对 ImageNet 中的人脸做了模糊化处理。
- 论文链接:https://arxiv.org/pdf/2103.06191.pdf
- 项目地址:https://github.com/princetonvisualai/imagenet-face-obfuscation
目前 ImageNet 数据集包含了大约 150 万张图片和 1000 个标签,主要用于评估机器学习算法的性能,或训练针对特定计算机任务的算法。被模糊掉的图片涉及到数据集中的 243198 张。
具体地说,研究者对人脸模糊图像进行了多个深度神经网络测试,总体识别率略有下降 (≤0.68%)。然后研究者将学习迁移到 4 个下游任务(目标识别、场景识别、人脸属性分类和目标检测),结果表明在人脸模糊图像上学习的特征是同样可以迁移的。
在《连线》相关报道中,ImageNet 的管理者之一、普林斯顿大学助理教授 Olga Russakovsky 表示:「我们很关心隐私问题。」
「人脸出现在这些数据中是偶然的」,换而言之,在一张展示啤酒瓶的图片中,即使喝啤酒的人脸被遮挡,对啤酒瓶本身又有什么影响呢?
图 1:ImageNet (Russakovsky et al. ,2015) 中的大多数类别都不是人类。这些图片包含了许多和人相关的目标,构成了潜在的隐私威胁。比如理发椅、哈士奇、啤酒瓶、排球和军装。
论文也声称,模糊掉脸部并不会影响在 ImageNet 上训练的目标识别算法的性能。Russakovsky 说:「我们希望这种概念验证为该领域的隐私视觉数据收集探索出一条实践之路。」
与此同时,团队在这篇论文中也介绍了模糊人脸所用的亚马逊 AI 服务 「 Rekognition」,当然,过程中也采取了人为确认、调整的步骤。
模糊化能否解决问题?
这并不是 ImageNet 的第一次调整。2019 年 12 月,ImageNet 团队就删除了带有偏见和贬义的标签。
2020 年 7 月,UnifyID 机器学习科学家 Vinay Prabhu 和都柏林大学博士生 Abeba Birhane 发表了论文《LARGE DATASETS: A PYRRHIC WIN FOR COMPUTER VISION?》。这项研究揭露现有的大规模图像数据集所存在的问题:他们可以识别出数据集中的某个人,包括其中的计算机科学研究人员,甚至发现数据集中包含色情图片。
Vinay Prabhu 表示,人脸模糊化是好的,但对 ImageNet 团队没有承认他和 Birhane 的研究贡献,这让他感到失望。在李飞飞等人的论文发布之后,他和 Birhane 撰写了一篇长文发表自己的观点。
对此,Olga Russakovsky 表示 Prabhu 二人的研究将出现在论文的更新版本中。
不过,人脸模糊化能真正解决问题吗?是否会产生预料不到的后果?例如,算法可能会在搜索特定对象时学会寻找模糊的面孔。此外,有面部表情的图片模糊化后,其训练的 AI 模型性能是否也会变得奇怪?
这些微妙的变化,也许会带来难以想象的后果。
参考链接:https://www.wired.com/story/researchers-blur-faces-launched-thousand-algorithms/