【摘要】 对于目标的检测和实例分割任务,边界区域往往具有重要意义,决定了目标的包围框或分割图精准程度。一些领域的学者开始对这一特性进行挖掘,如OCR领域和通用目标实例分割领域,并都取得了良好的效果。本文选取了几篇近期的工作加以介绍。

    对于目标的检测和实例分割任务,边界区域往往具有重要意义,决定了目标的包围框或分割图精准程度。一些领域的学者开始对这一特性进行挖掘,如OCR领域和通用目标实例分割领域,并都取得了良好的效果。本文选取了几篇近期的工作加以介绍。

1. Boundary Spotter介绍

  该方法All You Need Is Boundary: Toward Arbitrary-Shaped Text Spotting 发表于AAAI 2020,主要关注自然场景文本的端到端检测和识别任务。该论文提出了用边界点来表示任意形状文本的方法,解决了自然场景图像中任意形状文本的端到端识别问题。

image.png

图1. 文本区域表示的两种方法

  现有方法用外接四边形框来表示文本边界(图1,(a)),通过RoI-Align来提取四边形内的特征(图1,(b)),这样会提取出大量的背景噪声,影响识别网络。利用边界点来表示任意形状文本有以下优势:边界点能够描述精准的文本形状,消除背景噪声所带来的影响(图1,(c));通过边界点,可以将任意形状的文本矫正为水平文本,有利于识别网络(图1,(d))。

  得益于边界点的表示方法,识别分支可以通过反向传播来进一步优化边界点的检测。该方法总体框架图2所示。该方法的包含三个部分:多方向矩形包围框检测器(the Oriented Rectangular Box Detector),边界点检测器(the Boundary Point Detection Network),以及识别网络(the Recognition Network)。

  对于多方向矩形包围框检测器,该文首先使用RPN网络进行候选区提取。为了产生多方向的矩形框,在提取出的候选区对目标矩形框的中心偏移量、宽度、高度和倾斜角度进行回归。获取了矩形包围框后,利用矩形框进行特征提取,并在提取的候选区中进行文字边界点的回归。得到预测的边界点后,对文本区域的特征进行矫正,并将矫正的特征输入到后续的识别器中。

image.png

图2. Boundary Spotter总体框架

  由表1可见,该方法在曲形数据集上取得了优异的结果,结果的提升主要来源于下面几个原因:相对于基于分割的方法,本文的识别器采用了基于注意力的解码器,能捕获字符之间的语义联系;对文字区域的特征进行了校正,使识别器拥有更好的特征。

image.png

表1. 方法性能

2. 基于边界点的目标检测算法(实例分割)介绍

  在通用目标领域,目标的外形变化对于文本来说更大,实现边界点的准确预测更有难度。同时我们应注意到,目标定位是否准确,是由目标的边界决定的,而边界相对于目标所占比例比较小,所有如果能只关注边界区域,并对预测的边界点进行多次优化,最终有望预测出精准的边界,并且能有效地控制整体的计算量。  

  下面将介绍的两篇论文遵循的基本思路是,先获取目标的粗略边界,而后对预测的边界区域进行采样,使用一个轻量的分支对边界进行调整,来获取精细的边界,调整可通过回归也可通过分类完成。

2.1 DeepSnake

  该论文Deep Snake for Real-Time Instance Segmentation发表于CVPR2020。 该论文采用的是两阶段基本框架,不过由于第二阶段计算量较小,最终算法的速度能达到实时。

  该方法主要思路如下图所示,先通过一个初始检测器,获取目标的水平包围框的,将框的各边中点进行连接,在连线的边上进行采样获取更丰富的特征,然后通过调整网络,输出到目标极点的偏移。得到目标八边形轮廓后,再次在轮廓上采样进行调整,经过多次迭代后最终获取目标的准确边界。

image.png

图3. 示意图

  论文中使用的调整网络结构如图4所示。由于输入为边界的采样特征,因此论文采用的是环形卷积,该卷积基于一维卷积实现,在这些边界的采样点上循环执行一维卷积,最终网络输出目标边界的偏移量,实现对粗略边界进行修正。经过多次迭代后获取目标的准确边界。由于计算是在采样的特征上进行的,所以该网络带来的计算量比较小,从而使得网络在多次迭代后还能保持实时。

image.png

图4. 边界调整网络

2.2 PointRend 

image.png
image.png

图5. PointRend 框架示意图

  这篇论文做法相对于DeepSnake来说更为直接。对于实例分割任务,为了实现速度和精度的均衡,现有模型(如MaskRCNN)往往采用一个较低的分辨率。若采用更高的分辨率,对结果提升不大,计算量却会激增。本文观察到提高分辨率主要是会使边缘更加精细,从而对最终结果带来提升,因此对边界区域的分割效果进行提升就能带来整体分割精细度的提升。本文在MaskRCNN输出的低分辨分割图的基础上,选择分割图的边界区域(如图5 左图中黑色点辨识),并在特征图上对这些区域进行双线性上采样,得到的特征经过一个全连接网络输出在高分辨率情况下的像素值,遵循相同的步骤进行多次迭代,并逐步提高分辨率。由于迭代优化的过程主要集中在边界区域,因此论文的方法在计算量提升不大的情况下取得了较好的结果。【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。

发表评论