作者:仵冀颖
编辑:Joni
本文从三篇表格识别领域的精选论文出发,深入剖析了深度学习在表格识别任务中的运用。
表格识别是文档剖析与识别领域的一个主要分支,其详细目标是从表格中获取和访问数据及其它有效信息。众所周知,实质上表格是信息表达的一种主要形式,它能将数据组织成标准的构造,便于信息检索和比较。常日我们现阶段针对表格的处理办法是:人工利用 Excel 等工具打开表格,之后提取、操作和处理表格中的内容。人工处理表格的办法存在很多问题,一是,由于表格数量大,编辑过程中常常更新,不同的表格中可能写入了相同的内容,对这些表格进行手动交叉检讨的韶光有限,这种人工处理方法常常会涌现表格处理缺点、不一致等问题,这种缺点和不一致可能会给公司带来巨大的荣誉风险,乃至是经济丢失。二是,手工提取表格信息每每是一个繁琐而耗时的过程。三是,在金融业和许多其他领域,表格每每因此非构造化的数字文件(如可移植文档格式(PDF)和图片格式)公开的,这些文件难以直接进行人工提取和处理。
因此,高效地从文档中找到表格,同时有效提取表格中的数据与构造信息即表格识别,成为了一个亟待办理的问题。表格识别详细是指,将表格以图片的形式发送到电脑上,自动提取表格图片中的各种信息,同时将这些信息重新堆叠为新的文档,也称为表格文档重修。运用表格识别技能能够大大节省表格内容处理的韶光,同时能够减少由人为成分产生的缺点。
近年来,国内外专家、学者针对这一问题进行了大量研究,引入图卷积神经网络(Graph convolutional network ,GCN)、快速 R-CNN (Fast R-CNN),全卷积神经网络(Fully Convolutional Networks,FCN)、条件天生式对抗网络(Conditional Generative Adversarial Networks,CGAN)等深度学习方法和模型进行自动化的表格识别。表格识别也逐渐演化成了多个分支研究领域,包括:专门的数据集构建、表格检测、表格构造识别、表格检测与构造识别等。
本文从近两年公开拓表的文章中,包括国际文档剖析与识别会议(International Conference on Document Analysis and Recognition,ICDAR)和arXiv平台的论文中精选了三篇,深入剖析深度学习在表格识别任务中的运用。个中,第一篇文章重点关注表格识别任务的数据集构建,第二篇文章聚焦的是表格检测与构造识别任务,第三篇文章重点研究表格构造识别任务。
一、GFTE: Graph-based Financial Table Extraction
论文地址:https://arxiv.org/abs/2003.07560
本文为 2020 年最新公布在 arxiv 上的一篇文章。本文的事情聚焦的是金融类的、中文表格数识别。此文的贡献紧张包括两部分。第一,为了便于从非构造化数字文件中进行基于深度学习的表格抽取,本文发布了一个标准的中文数据集 FinTab,它包含了 1600 多个不同类型的财务表格及其相应的 JSON 构造表示。第二,本文提出了一种新的基于图卷积神经网络(Graph Convolutional Network ,GCN)的模型 GFTE 作为该表格识别数据集中的基线方法。GFTE 通过领悟图像特色、位置特色和文本特色,能够对表格进行精确的边缘预测,取得了较好的效果。FinTab 数据集和 GFTE 方法都已经公布在 GitHub 中:https://github.com/Irene323/GFTE。
首先,作者给出了一个经典的表格识别问题示例。图 1 给出了两个已有的表格内容提取方法的效果,即 Adobe Acrobat DC 和 Tabby[1]。在示例中的表格运用这两种方法都无法精确提取表格内容。同时,不难创造在跨单元格的情形下,由于这些单元格很可能携带表头的信息,表格识别常常会涌现问题。因此,表格抽取方法的性能仍有待提高,尤其是在繁芜的情形下对付表格的提取和理解至关主要。
图 1. 包含跨单元格的表格和利用现有方法规复的表格构造示例
1、经典表格识别数据集及表格识别方法回顾
首先,作者回顾了以前发布的用于表格识别任务的数据集,然后先容了表格识别的不同方法。
1.1、数据集
(1)Marmot[2]。Marmot 数据集由中英文两部分组成。中文网页是从方正阿帕比图书馆(Founder Apabi library)供应的超过 120 天职歧学科领域的电子书中网络的,而英文网页则来自 Citeseer 网站。该数据集是基于 PDF 格式文件的,存储了所有文档布局的树构造,个中的叶子是字符、图像和路径,根是全体页面。内部节点包括文本行、段落、表格等。
(2)UW3 和 UNLV 。UW3 数据集 [3] 是从 1600 页倾斜校正的英文文档中网络的,个中 120 页包含至少一个标记的表格区域。UNLV 数据集来自 2889 页扫描文档图像,个中 427 幅图像包括表格。
(3)ICDAR 2013[4]。该数据集共包含 150 个表格:欧盟 27 个摘录中的 75 个表格,美国政府 40 个摘录中的 75 个表格,即统共 67 个 PDF 文档,共包含 238 页英文页面。
(4)ICDAR 2019[5]。该数据集用于 ICDAR 2019 年表格检测和识别竞赛。全体数据集划分为演习部分和测试部分。演习数据集包含 600 个当代文档的图像及其表格区域的边框,以及 600 个文档的图像、表格区域和单元格区域的表格构造和边框。在测试数据集中,供应了 199 份档案文献和 240 份当代文献的图像和表格区域。此外,还包括 350 份档案文献的表格构造和单元区域。
(5)PubTabNet[6]。PubTabNet 数据集包含 56.8 万张表格数据的图像,以及图像对应的 html 格式的注释。更详细地说,该数据集供应了表格构造和字符,但短缺边界框。
(6)SciTSR[7]。SciTSR 是一个综合性的数据集,由 15000 个 PDF 格式的表格、表格区域的图像、它们对应的构造标签和每个单元格的边框组成。个中,12000 个文档用于演习,3000 个用于测试。同时,还供应了一个称为 SciTSR-COMP 的繁芜表列表。
(7)TableBank 表格库[8]。TableBank 是基于图像的表格检测和识别数据集。由于涉及两个任务,以是它由两个部分组成。对付表格检测任务,包含了表格区域的页面和边框的图像。对付表格构造识别任务,供应了表示行和列的排列以及表格单元类型的页面和 HTML 标记序列的图像。然而,由于这个数据集不涉及文本内容识别任务,因此不包含文本内容及其边界框。
关于上述七个数据集的详细信息见表 1。可以看出,除 Marmot 中包含有部分中文表格外,其它数据集均为英文数据集。
表 1. 用于表格识别的公共数据集
1.2、表格识别方法
表格识别被视为表格理解的一部分,常日包括两个步骤:
1) 表格检测。也便是说,在这个步骤中,将文件中的某个部分标识为表格。
2) 表格构造分解。这一步骤的任务是识别出原始表格的组件,通过对组件的堆叠恢复原始表格。例如,标题元素的精确标识、列和行的构造、数据单元的精确分配等等。
现有的表格识别方法紧张包括三大类:1)基于预定义布局的方法,2)基于启示式的方法,3) 基于统计或优化的方法。基于预定义布局的方法为可能的表格构造设计多个模板。如果文档的某些部分对应于某些模板,则它们被标识为表格。基于启示式的方法指定一组规则来进行决策,以便检测出知足特定条件的表。基于统计或优化的方法首先通过离线演习得到统计指标,然后将估计得到的参数用于实际表格识别。
2、FinTab 先容
作者剖析,现有的运用于表格识别任务中的数据集存不才述两个问题:1)从财务文档中提取表格信息的方法和标准数据集很少。2) 表格信息提取的来源缺少多样性。本次发布的基准数据集 FinTab 旨在办理上述问题。在这个数据集中,统共网络了 19 个 PDF 文件和 1600 多个表格。详细文件分类见表 2。所有文件总计 3329 页,个中 2522 页包含表格。为了担保表格类型的多样性,除了表格的基本形式外,FinTab 中还包括了不同难度的分外表格形式,如半规则表格、跨页表格、合并单元格表格、多行标题表格等。FinTab 中共有 119021 个单元格,合并单元 2859 个,占 2.4%。
表 2. FinTab 的文档类型分类
FinTab 包含各种类型的表。在这里,我们按难易程度大略先容个中的一些。
1) 基本单页表格。这是最基本的表格类型,它占用不到一个页面,并且不包括合并单元格。值得一提的是,本数据集中不仅供应了文本的基本事实和构造信息,而且还供应了表格的单位,由于大多数财务表格包含了相称多的数字。
2) 包含合并单元格的表格。
3) 跨页表格。当表格是跨页展开的,则须要将跨页表格合并。如果两页的页眉是重复的,则只需保留一页。页码和其他无用信息也应删除。另一个须要把稳的任务难点是,如果一个单元格被两个页面分隔,则该当根据其语义将其合并为一个单元格。
4) 表格线条不完全。在这种情形下,须要根据文本的位置、格式和含义智能地定位分边界。
3、方法先容
本文提出了一种新的基于图神经网络(GCN)的表格构造识别算法 GFTE(a novel Graph-Neural-Network-based algorithm),GFTE 的完全事情流程如图 2。
图 2. GFTE 完全事情流程
GFTE 可以概括为以下步骤:(a) 构建基本事实,包括表格区域的图像、文本内容、文当地位和构造标签。(b) 基于单元格布局一个无向图 G=。(c)利用 GFTE 来预测相邻关系,包括垂直关系和水平关系。表 3 给出一个任务示例(表格笔墨已经转换为英文)。
表 3. 本文中用来阐述方法的示例性表格的翻译版本
首先,作者阐明了任务的详细内容。在表格识别问题中,可以将表格中的每个单元格视为一个节点,节点与它的邻域可以理解为边。如果用 N 表示节点集,用 E_C 表示完备连通的边,则表格构造可以用一个完全的图来表示 G=,R_C = EC x {vertical, horizontal, unrelated}。我们可以把这个问题阐明为:给定一组节点 N 及其特色,尽可能精确地预测节点对之间的关系 R_C。由于 R_C 描述每个节点(表格的单元)的相互相干,打算量颇大,文中只考虑了单元格周围相邻的格子,也便是利用 K - 最近邻(KNN)方法布局 R_C,它包含每个节点与其 K 个最近邻之间的关系。每个节点包含三种类型的信息,即文本内容、绝对位置和图像,如图 3 所示。然后,利用构造关系来建立基本的图构造,全体构造可以如图 4 所示。为了提高准确度,分别演习水平和垂直关系。对付水平关系,将每条边标记为(1: 在同一行中,或 0: 不在同一行中)。对付垂直关系,将每条边标记为(1: 在同一列中,或 0: 不在同一列中)(图 4)。
图 3. 源数据格式的直不雅观示例
图 4. 基本图构造
图 5 给出了基于图的卷积网络 GFTE 的构造。首先将绝对位置转换为相对位置,然后用这些位置来天生图。同时,将纯文本嵌入到预先定义的特色空间中,然后利用 LSTM 来获取语义特色。将位置特色和文本特色连接在一起,并将它们传送到一个两层图卷积网络(GCN)。同时,作者利用了一个小内核算子对图像进行膨胀,使表格的线条更粗。还将图像调度为 256x256 像素,以便使输入的图片正常化,然后利用三层 CNN 打算图像特色。末了,利用节点的相对位置,打算出流场网格。利用网格中输入的像素位置打算输出,可以得到某个节点在某一点上的图像特色。这三种不同的特色都得到后,将天生的图的一条边上的两个节点配对,即,找到一条边上的两个节点,并将它们的三种不同的特色凑集在一起。末了,利用 MLP 来预测两个节点是在同一行还是在同一列中。
图 5. 基于 GCN 的 GFTE 算法的构造
4、实验结果先容
首先,作者比拟了不同 GFTE 模型的效果。第一步,对 GFTE-pos 进行演习,即利用相对位置和 KNN 算法天生图,只利用位置特色演习 GFTE。第二步,利用 LSTM 获取的位置特色和文本特色对网络进行演习,该模型标记为 GFTE pos+text。末了,在网格采样的根本上,进一步加入图像特色,演习得到本文提出的 GFTE。表 4 给出了不同 GFTE 模型在 FinTab 数据集上的性能。当引入更多种类的特色时,准确度总体呈上升趋势。当加入文本特色时,准确度有明显的改进,即水平预测和垂直预测分别提高了 10% 和 5%。进一步加入图像特色仍能连续提高性能,但提高的程度不会太大。
表 4. 不同 GFTE 模型在垂直和水平方向上的准确度结果
表 5 给出了 GFTE 在不同数据集上的准确度结果,即,在 SciTSR 测试数据集上进行验证,在本文提出的 FinTab 数据集上进行测试。可以不雅观察到,本文提出的 GFTE 算法在 SciTSR 验证数据集上达到了相称高的准确度,这意味着 GFTE 在演习数据足够的情形下能够很好地作为基线方法。其余,虽然 FinTab 数据集的数据源和属性与 SciTSR 数据集完备不同,但 GFTE 仍旧取得了良好的结果,这表明 GFTE 具有一定的鲁棒性。
表 5. 验证数据集和测试数据集垂直和水平关系的准确度结果
5、小结
本文基于 PDF 文件构建了一个中文金融表格数据集 FinTab,该数据集具有多样性、充分性和全面性等特色。基于 FinTab,后续可以研究并提出更多具有创新性、性能更优的表格识别算法,从而赞助金融类、中文表格识别任务。此外,作者提出了一种基于 GCN 的 GFTE 算法作为该数据集的基线表格识别方法。本文对该基线方法的性能、可能存在的问题进行了剖析,为后续的事情打下了根本。
二、TableNet: Deep Learning model for end-to-end Table detection and Tabular data extraction from Scanned Document Images
论文地址:https://arxiv.org/abs/2001.01469
本文为揭橥在 ICDAR 2019 中的一篇文章。与上一篇文章聚焦金融类表格不同,本文关注的是一样平常用场的表格检测与构造识别。随着配备摄像头等移动设备的激增,越来越多的客户通过这些设备上传文档,使得从这些图像中提取信息的需求更加急迫。常日,这些文档中包含存储在布局和视觉外不雅观上有多种变革的表格数据。因此,从这些文档中提取信息的一个关键组成部分是将这些表格图像中的数据数字化。然而,由于表格构造的多样性,以及用于视觉上分离表格组件的图形元素的变革,使得从这些图像中提取数据成为一个非常具有寻衅性的问题。本文提出了一个新的端到端深度学习模型 TableNet,它利用了表格检测和表格构造识别这两个任务之间固有的相互依赖性,利用一个根本网络通过预先演习的 VGG-19 特性进行初始化。接下来是两个解码器分支,用于 1)表格区域的分段和 2)表格区域内列的分段。然后,利用基于规则的行提取来提取表格单元格中的数据。
本文采取多任务方法对深度模型进行演习。该模型接管一个输入图像,并为表格和列分别天生两个不同的语义标记的输出图像。该模型中,表格检测器和列检测器共享 VGG-19 编码层,而两个任务的解码器是分开的。共享的公共层通过从表格检测器和列检测器吸收到的梯度进行重复演习,而解码器是独立演习的。然后利用基本数据类型的语义信息进一步提升模型性能。利用 VGG-19 作为根本网络(在 ImageNet 数据集上预先演习)可以有效利用通过在 ImageNet 上进行演习学习的低级特色形式的先验知识。
1、方法先容
1.1 TableNet
在传统的基于深度学习的表格识别问题中,表格检测和列检测常日被视为两个可以独立办理的单独的问题。然而,如果文档中的所有列都是先验已知的,则可以很随意马虎地确定表格区域。但根据定义,列是垂直对齐的字 / 数字块。因此,独立搜索列会产生大量的误报,而提前剖断表格区域可以大大提高列检测的结果(由于表格和列都有公共区域)。因此,利用卷积滤波器来检测表格,进一步运用列检测滤波器来加强,能够大大提高模型的性能。本文所提出的模型便是基于这种思想,同时引入了 Long 等人提出的用于语义分割的编码器模型[9]。模型的编码器在表格检测和列检测任务中都是通用的,但是解码器作为表格和列的两个不同分支涌现。详细地说,逼迫编码层利用文档表格和列的基本构造进行演习。但是,对付表格和列分支,解码层是分开的。因此,须要演习两个图。
文档中表格的检测问题与真实图像中的工具检测问题类似,可以利用表格的视觉特色检测表格 / 列。差异在于,表格 / 列检测中的噪声容忍度比工具检测中的小得多。因此,本文采取了一种逐像素预测表格和列区域的方法,而不是对表格和列的边界进行回归。本文提出的 TableNet 整体构造见图 1。
图 1:(a)来自 Marmot 数据集的演习样本图像,突出显示了文本;(b) TableNet:该模型由 VGG-19 作为根本网络的预演习层,从 conv1 到 pool5 的层用作表格和列图的通用编码器层,编码器层后的两个解码器分支 conv7 column 和 conv7 table 天生单独的表格预测和列预测结果
TableNet 利用编码 - 解码器架构,利用预演习的 VGG-19 层作为根本网络。VGG-19 的全连接层(pool5 之后的层)被两个(1x1)卷积层取代。每个卷积层(conv6)利用 ReLU 激活,然后是一个概率为 0.8 的 dropout 层(conv6+dropout,如图 1 所示)。在这一层之后,附加理解码器网络的两个不同分支。因此,单一编码网络可以同时利用表格区域和列区域的特色,从而更好地找到活动区域。(conv6+dropout)层的输出被分配到两个解码器分支。在每个分支中,通过增加额外的层以过滤出相应的活动区域。在解码器网络的表格分支中,利用额外的(1x1)卷积层 conv7_table,然后利用一系列分数阶跃的卷积层来提升图像。conv7_table 的输出也利用分步卷积进行放大,并附加了相同维度的 pool4 池化层。类似地,再次放大组合特性映射,将 pool3 池化层附加到个中。末了,对终极得到的特色图进行放大,以知足原始图像的维度哀求。在另一个检测列的分支中,有一个附加的卷积层(conv7_column),具有 ReLU 激活函数和相同 dropout 概率的 dropout 层。在(1x1)卷积(conv8 列)层之后,利用分步卷积对特色图进行上采样。将上采样的特色映射与 pool4 池化层相结合,上采样的组合特色映射与具有相同维度的 pool3 池化层相结合。在这一层之后,放大特色图至原始图像的大小。在两个分支中,在转置层之前利用多个(1x1)卷积层。末了,打算图的两个分支的输出生成表格和列区域的掩码。
1.2 提取表格行
在利用 TableNet 处理文档之后,可以得到表格和列区域的掩码。这些掩码用于从图像中过滤出表格及其列区域。由于文档的所有单词位置都是已知的(利用 Tesseract-OCR),因此只过滤掉了表格和列区域内的单词补丁。基于这些过滤后的单词提取表格行,一行可以被定义为来自多个列的单词的凑集。然而,一行不一定只局限于一行,根据列或行的内容划分,一行可以超过多行。因此,为了涵盖不同的可能性,本文制订了三种行分割规则:
1)在大多数有标线的表格中,直线将每列中的行分段。为了检测可能的行划分,通过 Radon 变换测试列中两个垂直放置的单词之间的每个空格是否存在行。
2)如果一行超过多行,则表格中具有最大非空项的行被标记为新行的出发点。例如,在一个多列表格中,一些列可以只包含一行的条款,而其他的列可以有多行的条款。因此,每列中的所有实体都被添补后,新的一行就开始了。
3)表格中的所有列都被完备添补,并且没有标线,则每一行(级别)都可以看作是一个唯一的行。
1.3 数据集准备
本文利用 Marmot 数据集进行模型演习。Marmot 是用于表格检测的最大的公共可用数据集,但是,Marmot 中没有对表格列或行的注释。因此,作者手动标注数据集以进行表格构造识别。通过在表格区域内每个列周围的边界框上添加标签,手动对数据集进行注释。手动注释的修正数据集以 Marmot Extended 的名称公开拓布,用于表格构造识别:https://drive.google.com/drive/folders/1QZiv5RKe3xlOBdTzuTVuYRxixemVIOD。
2、实验剖析
本文实验是基于 ICDAR 2013 表格竞赛数据集完成的。作者根据召回率、查准率和 F1 分数对模型性能进行评价,对每个文档打算这些度量值,并在所有文档中取其均匀值。本文利用的 Mamot Extended 数据集中共有 1016 份文件,包括中文和英文表格,个中 509 份英文文件附有注释,并用于演习。利用 Tensorflow 实现该深度学习模型,并在一个利用 Intel(R)Xeon(R)Silver CPU(32 核)和 128 GB Tesla V100-PCIE-1 GPU 的 RAM 和 6GB GPU 内存的系统上完成实验。
表 1. 表格检测实验结果
表 2. 表格构造识别和数据提取实验结果
在实验 1 中,作者在所有 Marmot 数据集的正样本中演习 TableNet,并在 ICDAR 2013 表格竞争数据集上测试表格和构造检测任务。有两个打算图须要演习。每个演习样本是文档图像、表格掩码和列掩码的元组。对付每个演习元组,这两个图至少要打算两次。实验结果见表 1 和表 2。
在实验 2 中,利用修正过的 Marmot 数据集,个中每个文档中的单词都被突出显示以供应语义高下文信息。当这些空间、语义信息被附加到图像中时,结果略有改进(见表 1、2 中的比较)。模型的输出如图 2 所示。
图 2.TableNet 天生的样本文档图像及其输出掩码
实验 3 将 TableNet 与基于深度学习的办理方案 DeepDSert[10]进行比较(DeepDSert 为 2017 年 ICDAR 中提出的用于表格检测和构造识别的深度学习方法)。在 DeepDSert 中,分别利用单独的模型进行表格检测和构造识别,这些模型在不同的数据集上进行演习,例如用于表格检测的 Marmot 数据集和用于表格构造识别的 ICDAR 2013 数据集。为了天生可比拟的结果,作者在 ICDAR 演习和测试数据集上分别对基于 Marmot 演习得到的 TableNet 模型进行了微调。与 DeepDSert 中所做的事情类似,作者还随机选择了 34 幅图像进行测试,并利用别的的数据图像对 TableNet 模型进行微调。TableNet 经由微调后,利用相同的参数以 1:1 的比例对两个分支进行 3000 次迭代,批量大小为 2。经由微调后,TableNet 的性能进一步提高。产生这一提高的缘故原由可能是由于引入了 ICDAR 文档。实验结果见表 1 和表 2。TableNet 处理每个文档图像所花费的均匀韶光是 0.3765 秒,由于 DeepDSert 未公布干系数据,这一性能无法进行比拟。虽然 TableNet 的终极结果并不比 DeepDSert 好,但 TableNet 是端到真个模型,也就意味着后续可以通过引入更丰富的语义知识的方法,或是增加更多的用于学习基于行的分割的分支来进一步改进模型的效果。
3、小结
本文提出了一种新的深度学习模型 TableNet,它以端到真个办法演习表格检测和构造识别的双重任务。现有的表格识别方法将表格检测和构造识别视为两个不同的问题,须要独立办理。作者提出,TableNet 是第一个同时处理这两个任务的模型,它利用了表格检测和表格构造识别之间固有的相互依赖性。TableNet 利用以前学习任务中的知识,并将这些知识转移到新的、干系的任务中,这在所得到的演习数据稀疏时特殊有用。此外,作者在文中还证明了突出显示文本以供应数据类型信息可以进一步提高模型的性能。作者提出,在后续的事情中考虑引入第三个分支演习 TableNet 来识别行。但是,这项事情须要在现有的数据集中增加手工注释的行信息,而当前的用于表格识别任务的数据集都不供应基于行的注释。此外,作者还提出,后续将进一步思考可以引入哪些其他语义知识来提高模型性能,例如引入更抽象的数据类型,如货币、国家或城市等。
三、Table Structure Extraction with Bi-directional Gated Recurrent Unit Networks
论文地址:https://arxiv.org/abs/2001.02501
本文也是 ICDAR 2019 中的一篇文章,重点研究表格构造识别。表格能够呈现归纳和构造化的信息,这使得表格的构造提取成为文档理解运用的主要组成部分。然而,表格构造识别是一个很难办理的问题,不仅由于表格布局和样式的变革,而且由于页面布局和噪声污染程度的变革。目前对表格构造的识别已经做了大量的研究,个中大部分是基于启示式技能结合光学字符识别(OCR)来手工选取表格的布局特色。由于表格布局的变革和 OCR 产生的偏差,这些方法并不能很好地推广。
本文提出了一种鲁棒的基于深度学习的表格构造提取方法,能够从文档图像的表格中高精度地提取行和列。在该方法中,首先对表格图像进行预处理,然后将其输入带有门控递归单元(Gated Recurrent Unit,GRU)的双向递归神经网络,然后通过 softmax 激活实现全连接层。网络从上到下、从左到右扫描图像,并将每个输入分类为行分隔符或列分隔符。该方法的核心便是 GRU 的引入,与传统的基于 CNN、启示式算法的方法比较,基于序列的模型可以有效捕捉表格中重复的行 / 列构造,因此能够大大改进表格构造识别的性能。
1、方法先容
该方法分为三个模块:图像预处理、行列分类器和后处理。预处理模块将包含文本的表格图像转换为不包含文本特色的自然图像。然后,将这些图像通报给行列分类器模块,行列分类器模块利用行和列作为韶光步长对每行和每列进行分类。后处理模块对分类器天生的分割空间进行解析,给出行和列的单行预测结果。
1.1 图像预处理
首先,对表格图像进行预处理,将原始表格图像转换为更大略的形式,从而突出表格的布局或构造。这种转换的目的是通过去除输入图像中不必要的细节来提高分类器的效率。
详细的预处理过程包括:去除掉图像中的划线和其它非文本的前景工具,对清理后的图像进行自适应二值化处理,使像素强度均匀。图像二值化处理后,尺寸调度为 1600x512 以便于后续输着迷经网络处理。利用矩形核对调度后的图像进行三次膨胀变换(Dilation Transform)。在列检测的情形下,膨胀核(Dilation Kernel)是维数为 3x5 的垂直膨胀滤波器,在行检测的情形下,它是维数为 5x3 的水平膨胀滤波器。通过这些膨胀变换处理,能够连接表格中相邻的行和列,从而有助于模型获取行和列分隔符的模式。然后,将变换后的图像标准化,使其值介于 0 和 1,以将其输入到后续的递归神经网络。
1.2 分类器
和之前兩篇文章不同,分类器的核心是利用循环神经网络识别行和列间的分割区域。作者首先考虑的是门控递归单元(GRU)和是非期影象网络(Long Short-Term Memory ,LSTM)这两种循环神经网络。这两种网络都可以在避免梯度消逝问题的情形下合并引入高下文信息。作者提出,在行和列分类方面,GRUs 的性能优于 LSTM,且二者在分类器的运用处景中事情过程类似,因此,本文中的详细剖析都以 GRU 为例。双向 GRU 以行和列作为基本韶光步长,利用利用行 - 列元素的信息来预测未来的行 - 列元素。由于 GRUs 中的存储单元可以有效地学习行间距和列间距的模式以及行 - 列元素的重复顺序,因此该方法比基于 CNN 的模型有了显著的改进。下面,分两个部分分别先容行和列分类的神经网络构造。
1) 列分类:列分类将图像的每一列分类为列或两列之间的空缺。每次输入一个图像,每个图像都被看作是一个类似于随机梯度低落(SGD)的批处理图像。在一个批次中,将尺寸为 1600x512 的预处理输入图像划分成 1600 个序列(列),每个序列由 512 个像素值组成。两层 GRU 初始化为隐蔽维度(4 x1x 512),对应于“2 x 层数 x 批次大小 x 隐蔽维度大小”。
GRU 将图像处理为 1600 个韶光步长,每个韶光步长对应一个具有 512 个输入像素值的列。在每个韶光步长(timestep),GRU 都考虑了关于当前列的左侧和右侧(如果有)的所有列的信息,以及当前列中包含的正在打算的像素值的信息。利用这些信息,GRU 可以学习识别列之间的空缺间隙,由于这些列紧张包含白色像素,并且在其旁边两侧有两个列区域。
GRU 的输出是一个 1600x512 形状的张量,对应的是“序列长度 x 隐蔽维度”。然后,这个张量通过一个全连接层,输出一个 1600x 2 形状的张量,再经由一个 softmax 层,得到形状为 1600 x 2 的终极输出,由 1600 列中每个列的二进制类概率组成。
2) 行分类:行分类器的构造是列分类器的转置,它将图像的每一行分类为一行或两行之间的空缺。每次输入一个图像,每个图像被视为一个批次。在一个批次中,将尺寸为 1600x512 的预处理输入图像划分成 512 个序列(行),每个序列由 1600 个像素值组成。两层 GRU 初始化为隐蔽维度(4 x 1 x 1024),对应于“2 x 层数 x 批次大小 x 隐蔽维度大小”。
在行分类的情形下,将图像处理为 512 个韶光步长,每个韶光步长对应一个具有 1600 个输入像素值的列。在每个韶光步长,GRU 都考虑了关于当前行的高下所有行以及当前行内像素值的信息。
GRU 的输出是一个 512 x 1600 形状的张量,对应的是“序列长度 x 隐蔽维数”。然后,这个张量通过一个全连接层,输出一个 512 x 2 形状的张量,再经由一个 softmax 层,得到形状为 512 x 2 的输出,由 512 行中每个行的二进制类概率组成。
分类的末了一步是对前面得到的分类器预测的分割空间进行解析。选取分段空间的中点,对付列,运用逻辑来删除最左边和最右边的预测。对付行,去掉顶部和底部的预测。此步骤将输出回归到行和列分隔符的单行预测。图 1 和图 2 分别给出行、列分类器神经网络构造。
图 1. 行分类器神经网络构造
图 2. 列分类器神经网络构造
1.3 后处理
文章中利用 Adam 优化器和二进制交叉熵丢失函数来演习模型。范例的表格图像包含的行和列的数量要多于它们之间的空缺,为理解决这种类不平衡问题,作者对丢失函数进行了加权,使缺点预测的行列元素的惩罚仅为缺点预测的空缺元素的 66%。
本文利用从各种来源下载的免费文档图像作为神经网络的演习数据集。表格、行和列是利用自定义工具手动标记的。固定学习速率为 0.0005。作者演习了 323 幅图像中的 10 次迭代的列分类器和 286 幅图像中的 35 次迭代的行分类器。
2、实验剖析
本文实验利用的是 UNLV 数据集。本文重点谈论的是表格识别问题中的表格构造提取,因此作者从 UNLV 库中的真实文件中裁剪得到 557 个表用于实验。作者利用 T-Recs 作为比拟方法[11]。T-Recs 是一个用于表格构造提取的非深度学习方法。由表 1 和表 2 的实验结果可知,本文提出方法显著提高了列的检测准确度,准确度从 40.51% 提高到了 55.31%。在行检测的情形下,准确度从 54.98% 提高到了 58.45%。另一方面,与 T-Recs 方法比较,本文方法得到的结果中过分割和欠分割的数量更多,因此涌现表格构造部分检测的情形减少了。
表 1. 在 427 个包含表格区域的二进制 300-DPI 扫描 UNLV 数据集文件中的评估结果(列分割)
表 2. 在 427 个包含表格区域的二进制 300-DPI 扫描 UNLV 数据集文件中的评估结果(行分割)
末了,作者将本文提出的方法与文献 [12] 中提出的基于深度学习(CNN)的表格构造识别方法进行比拟。该实验利用 ICDAR 2013 表格竞赛数据集,个中包含 67 个文档,238 页。详细实验结果见表 3。本文提出的方法在打算准确度、召回率和 F1 分数等方面性能都优于 [12] 中的方法。
表 3. ICDAR 2013 数据集中计算准确度、召回率和 F1 分数的实验结果
3、小结
针对表格构造识别任务,本文提出了一种基于 GRU 序列模型的表格构造抽取方法。与启示式算法和基于 CNN 的模型比较,基于序列的模型可以有效捕捉表格中重复的行 / 列构造,因此大大改进了表格构造抽取的性能。作者表示,后续事情将集中于开拓一个从表格单元格中提取信息的连贯框架。
四、本文小结
在这篇文章中,我们谈论了表格识别问题。表格是一种非常主要也非常常见的公函格式、文档形式,因此,有效对表格进行剖析和识别,从表格中抽取信息,具有非常主要的运用代价。表格中具有繁芜的层次构造,除了存在行、列、表头构造外,还存在分割线、合并单元格等元素。这就导致传统的信息抽取、文档剖析与识别方法直接应用在表格识别中效果都不好。
本文结合表格识别数据集构建、表格检测与构造识别任务、表格构造识别任务等三个方面的运用,剖析了三篇最新的研究论文,理解了深度学习方法在表格识别任务中的运用。个中,第一篇文章的紧张目的是提出一种运用中文措辞的、适用于金融领域的表格识别任务数据集,并在此根本上提出了本数据集的基线任务方法。该方法紧张办理经典的表格识别问题,即从表格中提取单元格中的内容。作者将表格中的单元格组织成为图构造,利用图神经网络技能实现表格识别。第二篇文章紧张目的是同时办理表格检测与表格中的构造识别问题。因此,为了能够同时办理两项任务且有效利用两项任务之间的干系信息,作者利用了编码器 - 解码器构造的深度学习模型,通过共享编码器的办法完成表格检测与构造识别任务。第三篇文章目的是提出一种表格构造抽取方法。由于表格中的行和列具有范例的相互关联、相互影响的特点,本文作者利用了带有门控递归单元的双向递归神经网络。双向递归神经网络可以有效捕捉表格中重复的行 / 列构造,因此大大改进了表格构造抽取的性能。
近年来,针对表格的剖析和处理从基本的构造识别、信息抽取,逐渐转向公式提取、交叉内容验证等更高层次的研究和运用。表格是与我们日常生活和事情都紧密干系的一种文档形式,对表格的自动化处理能力的不断提升,也将会给人们的生活和事情带来更大的便利性。
本文参考引用的文献:
[1] A. Shigarov, A. Altaev, A. Mikhailov, V. Paramonov, E. Cherkashin, “TabbyPDF: Web-Based System for PDF Table Extraction,” 2018, 24th International Conference on Information and Software Technologies.
[2] Institute of Computer Science and Techonology of Peking University, Institute of Digital Publishing of Founder R&D Center, “Marmot Dataset,” 2011, China, http://www.icst.pku.edu.cn/cpdp/sjzy/index.htm.
[3] Asif Shahab, “Table Ground Truth for the UW3 and UNLV datasets,” 2013, German Research Center for Artificial Intelligence (DFKI), http://www.iapr-tc11.org/mediawiki/index.php/Table Ground Truth for the UW3 and UNLV datasets.
[4] M. G¨obel , T. Hassan , E. Oro , G. Orsi, “ICDAR 2013 Table Competition,“ 2013, Proceedings of the 2013 12th International Conference on Document Analysis and Recognition, p.1449-1453.
[5] L. Gao, Y. Huang, H. Dejean, J. Meunier, “ICDAR 2019 Competition on Table Detection and Recognition (cTDaR),” 2019, International Conference on Document Analysis and Recognition (ICDAR), pp. 1510-1515, https://github.com/cndplab-founder/ICDAR2019 cTDaR.
[6] X. Zhong, J. Tang, A. J. Yepes, “PubLayNet: largest dataset ever for document layout analysis,” 2019, International Conference on Document Analysis and Recognition (ICDAR), https://github.com/ibm-aur-nlp/PubTabNet.
[7] Z. Chi, H. Huang, H. Xu, H. Yu, W. Yin, X. Mao, “Complicated Table Structure Recognition,” 2019, arXiv preprint arXiv:1908.04729, https://github.com/Academic-Hammer/SciTSR (http://github.com/Academic-Hammer/SciTSR).
[8] M. Li, L. Cui, S. Huang, F. Wei, M. Zhou, Z. Li, “TableBank: Table Benchmark for Image-based Table Detection and Recognition,” 2020, The International Conference on Language Resources and Evaluation, https://github.com/doc-analysis/TableBank (http://github.com/doc-analysis/TableBank).
[9] J. Long, E. Shelhamer, and T. Darrell, “Fully convolutional networks for semantic segmentation,” CoRR, vol. abs/1411.4038, 2014. [Online]. Available: http://arxiv.org/abs/1411.4038
[10] S. Schreiber, S. Agne, I. Wolf, A. Dengel, and S. Ahmed, “Deepdesrt: Deep learning for detection and structure recognition of tables in document images,” in Document Analysis and Recognition (ICDAR), 2017 14th IAPR International Conference on, vol. 1. IEEE, 2017, pp.1162–1167.
[11] T. Kieninger and A. Dengel, “The T-Recs table recognition and analysis system,” in Document Analysis Systems: Theory and Practice, pp. 255–270, 1999.
[12] S. Schreiber, S. Agne, I. Wolf, A. Dengel, and S. Ahmed, “Deepdesrt: Deep learning for detection and structure recognition of tables in document images,” in Fourteenth International Conference on Document Analysis and Recognition, vol. 1, pp. 1162–1167, 2017.
剖析师先容:
本文作者为仵冀颖,工学博士,毕业于北京交通大学,曾分别于喷鼻香港中文大学和喷鼻香港科技大学担当助理研究员和研究助理,现从事电子政务领域信息化新技能研究事情。紧张研究方向为模式识别、打算机视觉,爱好科研,希望能保持学习、不断进步。
关于机器之心环球剖析师网络 Synced Global Analyst Network
机器之心环球剖析师网络是由机器之心发起的环球性人工智能专业知识共享网络。在过去的四年里,已有数百名来自环球各地的 AI 领域专业学生学者、工程专家、业务专家,利用自己的学业事情之余的空隙韶光,通过线上分享、专栏解读、知识库构建、报告发布、评测及项目咨询等形式与环球 AI 社区共享自己的研究思路、工程履历及行业洞察等专业知识,并从中得到了自身的能力发展、履历积累及职业发展。