对人类来说,识别图像是非常容易的,但对机器来说,这已经历了漫长的岁月。
深度学习是图像识别最新进展的驱动力,智慧教学、视频监控、自动驾驶和智能医疗等有价值的应用正在我们身边发生。深度学习的成功主要得益于三个方面:大规模数据集的生成、强有力的模型的发展和可用的大量计算资源。对于各种图像识别任务,精心设计的深层神经网络已经远远超过了以往基于人工设计图像特征的方法。
虽然深度学习在图像识别领域已经取得了巨大的成功,但要使其得到广泛的应用,还面临着许多挑战。
挑战一:如何提高模型的泛化能力
在图像识别技术得到广泛应用之前,一个重要的挑战是如何知道一个模型对于一个从未见过的场景仍然具有良好的泛化能力。
在目前的实践中,将数据集随机分为训练集和测试集,并在此数据集上对模型进行相应的训练和评估。需要注意的是,在这种方法中,测试集与训练集具有相同的数据分布,因为它们是从具有相似场景内容和成像条件的数据中采样的。
然而,在实践中,测试图像可能来自与训练期间不同的数据分布。这些先前未知的数据可能与训练数据在透视图、大小、场景配置、相机属性等方面有所不同。
一项研究表明,这种数据分布的差异会导致各种深网络模型的精度显著降低。在诸如自动驾驶等关键应用中,当前模型对数据分布的自然变化的敏感性可能成为一个严重的问题。
挑战2:如何利用小规模和超大规模的数据
我们需要面对的另一个重要挑战是如何更好地利用小规模培训数据。虽然深度学习通过利用大量注释数据在各种任务中取得了巨大的成功,但现有技术经常在小数据场景中崩溃,因为只有少量标记实例可用。这种情况通常被称为“少样本学习”,需要在实践中仔细考虑。例如,一个家庭机器人被期望在它能够向它展示一次新物体就能够认识这个物体。一个人可以自然地完成这项任务,即使这个物体后来被操纵,比如折叠起来的毯子。如何赋予神经网络以人类的泛化能力是一个开放研究的问题。
另一个极端是如何利用超大规模数据有效地提高识别算法的性能。对于自主驾驶等关键应用,图像识别的出错代价非常高。因此,研究人员创建了大量的数据集,其中包含了数亿个带有标注丰富的图像,他们希望利用这些数据集使模型更加精确。
然而,目前的算法不能很好地利用这样的超大数据量。在包含3亿个带注释图像的jft数据集上,随着训练数据量的增加,各种深度网络的性能只呈现对数级的提高。在大规模数据的情况下,增加训练数据的效益将越来越不明显,这是一个需要解决的重要问题。
挑战3:全面的情景理解
除了这些与训练数据和泛化能力相关的问题外,一个重要的研究课题是对场景的全面理解。除了识别和定位场景中的对象外,人类还可以推断对象之间的关系、部分到整体的级别、对象的属性和三维场景布局。
获得对场景的更广泛理解将有助于应用,例如机器人交互,这通常需要的信息超出了对象识别和位置。这项任务不仅涉及对场景的感知,还涉及对现实世界的认知理解。要实现这一目标,我们还有很长的路要走。全景分割是一个全面的场景理解的例子,如下所示。
(a)原始图像;(b)语义分割:识别没有固定形状的天空、草地、道路和其他未计数的材料。标记方法通常是对每个像素进行标记;(c)实例分割:将人、动物或工具等可数的、独立的对象实例进行分割,通常用包围盒或分割掩码对目标进行标记;(d)全景分割:生成统一的、全局的分割图像,同时识别材料和物体。
虽然图像识别发展还面临诸多挑战,但现在很多利用图像识别技术的实际应用已经突破了原有的模式。比如再教育领域的应用,已经有像翌学这样可以原卷留痕自动批阅的系统出现,相信目前的这些问题都会一一解决的,就像我们原来很多不敢想象的事情,都通过现代科技完成了。
— end —
文章素材及图片来源网络
相关24848威尼斯的版权归原创所有
如有侵权请联系删除