麻省理工学院的研究人员发现ImageNet数据集中的系统性缺陷

2021-11-19 20:53 来源:

打印 放大 缩小

麻省理工学院的研究人员得出的结论是,众所周知的ImageNet数据集具有“系统注释问题”,并且在用作基准数据集时与实际情况或直接观察不一致。

研究人员在题为“从ImageNet到图像分类:情境化的进展”的论文中写道:“我们的分析指出了嘈杂的数据收集管道如何导致所产生的基准与其充当代理的真实任务之间的系统性失调。”根据基准。”“我们相信,开发能够更好地捕获基本事实同时又保持可扩展性的注释管道是未来研究的重要途径。”

麻省理工学院的研究人员发现ImageNet数据集中的系统性缺陷

当斯坦福大学视觉实验室在2009年计算机视觉与模式识别(CVPR)大会上推出ImageNet时,它比许多以前存在的图像数据集要大得多。ImageNet数据集包含数百万张照片,并且在超过两年的时间里进行了组合。ImageNet将WordNet层次结构用于数据标签,并广泛用作对象识别模型的基准。直到2017年,与ImageNet的年度竞赛在促进计算机视觉领域中也发挥了作用。

但是,在仔细研究ImageNet的“基准任务未对准”之后,麻省理工学院的团队发现,大约20%的ImageNet照片包含多个对象。他们对多个物体识别模型的分析表明,照片中包含多个物体会导致总体准确性下降10%。作者说,这些问题的核心是用于创建像ImageNet这样的大规模图像数据集的数据收集管道。

“总体而言,此[注释]管道表明单个ImageNet标签可能并不总是足以捕获ImageNet图像内容。但是,当我们进行培训和评估时,我们将这些标签视为基本事实。”报告的合著者和麻省理工学院的博士学位。候选人Shibani Santurkar在国际机器学习会议(ICML)上介绍了这项工作。“因此,这可能会导致ImageNet基准测试与现实世界中的对象识别任务之间出现不一致,这在我们鼓励模型执行[[]]以及评估其性能的功能方面都是如此。”

研究人员认为,大规模图像数据集的理想方法是收集世界上各个物体的图像,并让专家将它们精确分类,但这并不便宜,也不容易缩放。相反,ImageNet从搜索引擎和Flickr之类的网站收集图像。然后,来自亚马逊搜索引擎的注释者对从互联网搜索引擎抓取的图像进行了审查。研究人员指出,标记了ImageNet照片的Mechanical Turk员工被指示专注于单个对象,而忽略其他对象或遮挡物。研究人员说,其他大规模图像数据集也遵循类似的流程,并且可能存在问题。

为了评估ImageNet,研究人员创建了一条管道,要求人类数据标签从多个标签中进行选择,然后选择与照片最相关的标签。然后使用最频繁选择的标签来训练模型,以确定研究人员所谓的“绝对基础事实”。

“我们利用的关键思想是使用模型预测来实际扩展ImageNet标签。具体来说,我们采用了多种模型并汇总了他们的前五项预测,从而获得了一组候选标签。” Santurkar说。“然后,我们实际上是通过使用人工注释符来确定这些标签的有效性,但是我们不问它们单个标签是否有效,而是针对多个标签独立地重复此过程。这使我们能够确定与单个图像可能相关的标签集。”

但是该团队警告说,由于他们还使用了非专家数据标记器,因此他们的方法并非完全符合地面真理。他们得出结论,对于不是专家的人类注释者,在某些情况下可能难以准确标记图像。例如,除非您是狗专家,否则从24种梗犬中选择一种可能很困难。

该小组的论文于5月下旬首次发表后,于本周在ICML上接受发表。该论文在会议上的介绍是在麻省理工学院决定从互联网上删除8000万个“小图像”数据集并要求具有数据集副本的研究人员删除它们之后做出的。在研究人员提请注意数据集中的令人反感的标签(例如N字)以及女性的性别歧视术语和其他贬义标签之后,采取了这些措施。研究人员审核了2006年发布的8000万个Tiny Images数据集,得出的结论是,这些标签是WordNet层次结构的结果。

ImageNet还使用WordNet层次结构,在ACM FaccT会议上发表的一篇论文中,ImageNet的创建者表示,他们计划删除数据集的人员子树中的几乎所有2800个类别。他们还列举了数据集的其他问题,例如缺乏图像多样性。

除了用于训练和基准测试模型的大规模图像数据集之外,大规模文本数据集的缺点是本月初在计算语言协会(ACL)会议上的一个关键主题。

在与ImageNet相关的其他新闻中,Richard Socher本周离开了Salesforce首席科学家的职位,创立了自己的公司。Socher于2009年帮助编译了ImageNet数据集,并监督了该公司首批云AI服务的发布以及监督Salesforce Research。

责任编辑:互联网