当前位置:首页 > 新闻 > 正文

基于互联网文本描述和深度对偶学习的图像分割技术

发布时间: 2017-12-05 17:37   作者: 罗平 吴凌云   来源: 人工智能

        一、图像语义分割

  图像语义分割,即对图像中的每个像素分配一个语义类别。例如,行人、汽车和道路等。该问题是解决许多重要的计算机视觉问题的基础,如自动驾驶中的场景理解。历年来,研究者们尝试了许多语义分割算法。根据具有挑战性的Pascal VOC 2012(VOC12)数据集测试结果来看,最佳性能的方法均采用深度卷积神经网络(CNNs)。但是,构建基于CNNs的分割模型有一个关键问题,即在训练模型的过程中需要大量像素级的标注图像,如图1 (b)所示,获取这样数据集的过程是非常高成本且耗时的工作。

  相比像素级图像标注,获取图像级别的标签成本低廉且高效。这些标签描述了哪些物体类别出现在图像中,而不是哪一个像素属于哪个类别。为了构建图像级标签,本研究将VOC12的标签作为关键词,在互联网上自动下载大量的图片。这些图片建成了一个拥有图像级弱标注的数据集,称为Image Description in the Wild(IDW)。该数据集内的每张图像均配有一句在网页上直接获得的文字描述。为了使数据构建过程全自动化,IDW数据集未经过任何的手动筛查。其原始描述可能包含不重要或缺失的细节和语法错误,如图1 (a)所示。因此,本文使用的数据集包括两部分,一部分是拥有完整像素级类别标注的少量VOC12数据;另一部分则是本研究构建的大量图像级弱标签数据集IDW。

  基于VOC12和IDW数据集,本研究提出两种基于深度卷积网络的物体分割模型。第一种模型将有效利用IDW数据集的物体交互及文本描述信息,称为IDW-CNN;第二种模型则使用深度对偶学习,减少对完整标注数据的依赖,称为DIS。

  IDW数据集可以提取出物体交互关系。例如“人骑马”、“人站在马前面”、和“人坐在椅子上”。这些关系是像素级类别标注的VOC12数据集不能提取的。然而,VOC12的像素级标注图可以捕获精准的物体定位和边界,这是图像级类别标注的IDW所没有的。所以,本研究提出的IDW-CNN模型通过自动挖掘两个数据集的特性,相互迁移学习有用信息。同时提高VOC12图像分割的精度和IDW物体交互预测的准确率。通过大量的实验证明了该模型的有效性。并发现一些重要现象。例如,随着IDW数据量的增加,VOC12图像分割的精度会持续提高。

  仅利用物体交互信息去优化像素级的物体分割会有两个劣势。一方面,包含在物体交互中的类别标签仅可以帮助区分被错误分割的像素点,但不能区分物体的边界和形状信息;另一方面,互联网自动下载的数据可能会有噪声标签,这些会误导训练过程。受机器翻译中对偶学习启发,本研究提出对偶图像分割模型(Dual Image Segmentation,DIS)。它将弱标记的类别标签和分割图均作为潜在变量来重新生成(重构)输入图像。通过缩小输入图像与重构图像的差,来捕获精准的物体类别和准确的物体边界及形状。利用这些训练过程中得到的信息,DIS模型不仅大大减少完整标注的数据量,同时在VOC12测试集上取得最优的物体分割性能。

  本文将在第二部分详细介绍IDW数据集的构建过程。并在第三、四部分分别阐述本研究提出的两个基于互联网图像文本描述的物体分割模型。

 

以上内容精选于《人工智能》杂志第一期p62—p71

 

本文作者

        罗 平

  香港中文大学研究助理教授,中国科学院先进技术研究院访问学者。2008、2011年于中山大学分别获得学士学位和硕士学位,2014年于香港中文大学获博士学位。罗平博士长期从事人工智能与计算机视觉方面研究,包括人脸识别、图像与视频理解、超大规模深度学习优化问题等。在国际顶级期刊和会议,如TPAMI、IJCV、ICML、NIPS和CVPR发表论文40余篇。Google Scholar引用2600余次。由于深度学习在计算机视觉中的应用与推广,在2013年获得亚洲微软学者奖(MSRA Fellow)。

  吴凌云

  商汤科技研究中心研究员。 2017年获得深圳大学硕士学位, 并获得优秀毕业生和广东省优秀学生称号。长期从事图像解析、场景理解、视频识别等研究领域。在国际顶级期刊与会议如IEEE Transactions on Cybernetics和AAAI发表论文多篇。

 

欲阅读完整文章,可通过以下方式购买《人工智能》杂志!

订阅2018年《人工智能》杂志6期共计360元
银行转账:北京赛迪出版传媒有限公司
开户行及账号:北京银行北洼路支行20000030565000007701154
银行转账,请备注:人工智能
接收详细信息请发到:aiview@ccidmedia.com;或是添加客服微信:13601092749

收藏