【摘要】 视频OCR(Video Optical Character Recognition)用于识别视频中出现的中英文字、繁简体文字、数字等内容,包括字幕、弹幕,以及部分自然场景文字、竖直文字和艺术字。通过自动分析视频中出现的文字内容,可以识别并提取违规或者关键信息。随着数字电视的不断推广和普及,对媒介管理的有效监控对于保障出品的质量和安全具有重要的作用。

视频OCR(Video Optical Character Recognition)用于识别视频中出现的中英文字、繁简体文字、数字等内容,包括字幕、弹幕,以及部分自然场景文字、竖直文字和艺术字。通过自动分析视频中出现的文字内容,可以识别并提取违规或者关键信息。

随着数字电视的不断推广和普及,对媒介管理的有效监控对于保障出品的质量和安全具有重要的作用。

图一:新闻视频

(一)应用范围

视频OCR应用范围广泛,可适用场景如下

  • 视频、舆情监控
  • 电视的自动化检测
  • 手游截屏文本提取
  • 机顶盒自动测试
  • 无人机、机器人项目

图二:敏感信息监控

常用研究方法是基于追踪的方式,相对于图片OCR,视频OCR可以跟踪文字区域位置,提高精确率。

(二)常用数据集

常用数据集如下。

DatasetYearCategory
MoCA1998Caption Text
Merino2007Scene Text
Minetto2011Scene Text
ICDAR-132013Scene Text
Merino-Gracia2014Scene Text
ICDAR-152015Scene Text
SVT2010Scene Text

表格一:常见数据集

Minetto数据集是2011年公开的数据集,主要包含5个户外的视频数据,每一帧图片尺寸都是640×480,共3575帧图片,包含28个不同的文本目标,总共出现目标8621次。文本密集的视频平均一帧大约存在15个文本目标,其余视频平均一帧大约存在1-3个目标。

ICDAR 2013 Text in Videos 数据集:公开了28个真实场景的视频数据集以及对应的标注文件,其中13个视频作为训练集,15个视频作为测试集。

ICDAR 2015 Text in Videos 数据集:在ICDAR 2013 的基础上,将训练集扩充为25个视频共13450帧,测试集扩充为24个视频共14374帧,不过新增的视频中只公开了训练集的标注文件,采用官网测评的方式。

 (三)挑战

视频OCR挑战很多,包括但并不限于视频层面挑战和文本层面的挑战。

视频层面挑战:

  • 压缩失真
  • 运动模糊,遮挡,光照变化等
  • 多个文字目标不断运动变化
  • 不断消失和出

文本层面的挑战(和场景OCR类似):

  • 文本背景复杂
  • 背景与文本相似
  • 小尺度文本
  • 文本运动复杂

图三:常见挑战

至于最新的研究、常用技术等,敬请期待本系列第二篇文章。【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。

发表评论