ICML 2021
第三十八届国际机器学习大会(ICML)于2021年7月18日正式召开。ICML作为由国际机器学习学会(IMLS)主办的年度机器学习国际顶级会议,致力于展示和发表与人工智能、统计学和数据科学等密切相关领域以及重要应用领域的研究成果,推动人工智能分支机器学习的发展。
一年一度的ICML汇聚了众多高水平的学者、工业研究人员、企业家以及工程师,共同分享科技领域的前沿资讯。格物钛作为今年ICML 2021的主办人之一,有幸参与ICML Expo分享大会,与机器学习领域内的研究者们共同探讨开放数据的未来。
ICML SPONSOR
在过去的几十年里,ImageNet、KITTI 和 MNIST 等开放数据一直是人工智能研究的核心。随着开放数据的兴起,越来越多的研究人员开始意识到数据在人工智能发展中的重要性。行业专家吴恩达和许多其他开发人员正在倡导从以模型为中心的 AI 过渡到以数据为中心的 AI 开发。
在ICML 2021 Expo上,格物钛创始人兼CEO崔运凯从当前开放数据的一些痛点角度出发,分享了格物钛对于公开数据集的思考以及解决方案。
以下是崔运凯演讲《探究开放数据的未来》中分享的有关“开放数据的痛点”:
MNIST 数据集
第一个我想分享给大家的例子是MNIST数据集。这是一个非常有名的数据集,最初在1998年被创造出来。根据谷歌学术(google scholar),目前已经有大约50000篇研究论文是与该数据集有关或直接使用该数据集。最初,这个数据集的量就非常大,包含了60000张训练图像以及10000张测试图像。但是每张图像都非常小。一张图像只有28*28个像素点。MNIST数据集激发了很多机器学习算法方面的创新:从线性回归模型到支持向量机再到神经网络。
ImageNet 数据集
第二个我想分享的数据集是ImageNet数据集。它同样非常有名---李飞飞教授在2009年的国际计算机视觉与模式识别会议(CVPR)中初次展示了该数据集。根据谷歌学术的数据,一篇基于ImageNet数据集的论文“ImageNet: a Large-Scale Hierarchical Image Database”也被引用了30000次。比起MNIST数据集,ImageNet数据集会更大:该数据集包含了40000000(40million)张数据集并涵盖了20000个种类。在这张PPT的右边,我们可以看到ImageNet比赛中的模型预测错误率(error rate)在逐年降低。颠覆性的机器学习模型AlexNet也使用了ImageNet数据集作为基准并获得了10%的预测准确性提升。比起之前的许多模型,这也是非常显著的进步。
KITTI 数据集
第三个我想介绍的数据集是KITTI。该数据集在自动驾驶领域也是非常有名。KITTI是一个相对而言比较新的数据集,在Max Plank Institute,Toyota institute和KIT合作下,KITTI于2012年被创造出来。关于KITTI的论文“Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite”被引用了7000次。在自动驾驶领域,KITTI是最早并且最有名的数据集之一,相信在座的很多人也或多或少接触过这个数据集。
以上的三个数据集都是完全公开的,由此可见公开数据集着实推动了AI研究的发展。
第一,查找公开的数据集具有一定的难度,尤其是当你搜索具备某些特殊性质的公开数据集,直接在网上搜索并不能给到你满意的结果。
为什么数据集这么难找呢?如果你知道你想用来训练的数据集名字,比如说你想用MNIST或者是ImageNet,那么查找这些数据集是比较简单的。但是如果你只知道你要用的公开数据集需要有某种特定的标注格式时,那么这个时候会非常难搜索到。比如说你去搜含有2D框标注的公开数据集,我们可以看到前三个结果竟然是和3D框标注相关的,并不是我们需要的2D框标注格式。如果我们把搜索关键词改为2D多边形或者是2D立方体,搜索结果也不是我们想要的,而且搜索结果的数量也非常有限。
第二,不是所有的公开数据集都有完整的标注。有些数据集只有一部分数据被人工标注了。
标注并不总是完整的。从谷歌公开图像数据集中选的一张图像。我们可以发现这辆车的后轮并没有被标注出来,但是如果我们用整个训练数据集去训练一个模型并将再其用在训练数据集上,标注完整性的问题就暴露了出来。
另一个例子是Udacity的自动驾驶数据集,该数据集中有11.5%的图片都没有被标注。图中所有用红框标出来的都是缺失的标注。基于这类存在标注缺失的公开数据集的模型其实是非常危险的,因为这个模型有很大的可能性会识别不了像图中的自行车手以及推着婴儿车过马路的母亲。
第三,即使某些公开数据集被用作基准数据集,它们的标签/标注也存在一些错误。
来自MIT和Amazon的学者做了一项研究,他们发现许多著名的基准数据集都有错误的标签。比如说这只来自CIFAR-10数据集中的绿色青蛙就被打上了猫的标签,我可从来都没见过绿色的猫。右图则是更系统的分析,我们可以看到即使是非常有名的ImageNet中也有5.83%的标签错误率。QuickDraw数据集就更糟糕了,它的标签错误率甚至达到了10%左右。要知道这里罗列的可都是行业内公认的AI基准数据集,但它们中也存在错误。
第四,偏差(bias)问题。我们都知道如果数据集本身是有偏差的,那么基于该数据集训练出来的模型也会是有偏差的。
在图中我们可以看到这些公开数据集的种族分布,很大一部分人脸数据都是以白人为主的,这肯定有些偏颇的。在左下我们可以看到这些数据集在性别与年龄的比例上也是有偏差的。如果我们使用这样有偏见的公开数据集去训练模型,那么这个模型也会是有偏差的。右图展示了微软、旷视以及IBM的商用人脸识别模型的预测准确性,结果是非常让人震惊的:对于肤色较深的女性,这些模型的准确性都非常差,最高的错误率甚至达到了34%。但是对于肤色较浅的男性,模型的预测准确性都非常的高。正是这类现象说明了带有偏见的数据会导致最终训练出来的模型也是存在偏见的。
除了以上几个使用公开数据集的问题,创造一个公开数据集也是非常难的。首先,收集数据就有很大的开销。如果你想准备一个类似KITTI的数据集,那么你就必须购买很多昂贵的传感器(包括雷达),然后要把它们组装在一起并装载到车上。当然了,你也得雇佣一个司机。无论天气如何,你都得开车出去收集数据。在收集完了数据之后,你还需要把数据从硬盘中导出,然后进行数据清理,并把处理好的数据发送给人工去标注。每一个步骤都很费时费力,同时也会产生很大的花费。
即使你把以上的步骤都做好了,下一步的托管也需要很多的资源:你可能需要雇一些人(学生或者是工程师)来建立托管数据的服务器和网站以及添加一些其他的功能来方便用户上传和比较数据集。
当一切前期准备都完成了之后,除了干等着别人来使用你的公开数据集,有时候你也要去主动地宣传一个新的数据集,但本质上你也在做市场的工作。这就导致了吸引用户来使用你的公开数据集会很难。你可能要去很多的展会和论坛露脸来给你的数据集打广告,由此来吸引对的人来瞧并使用你的数据集。
除此之外,如何获得最初的社群成员并和他们互动也不简单。你很有可能在最开始要通过邮件回答社区成员的每一个问题,即使这些问题会有重复。在前期你很难号召社区成员主动的互帮互助。
想要了解格物钛如何通过公开数据集解决以上行业内的痛点: