CRNN文字识别

2022-10-19 684

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 近几年来，CRNN在计算机视觉文本识别领域取得不错成果。CRNN是一种卷积循环神经网络结构，用于解决基于图像的序列识别问题，特别是场景文字识别问题。CRNN网络实现了不定长验证结合CNN和RNN网络结构，使用双向LSTM循环网络进行时序训练，并在最后引入CTC损失函数来实现端对端的不定长序列识别，

一、CRNN介绍：

近几年来，CRNN在计算机视觉文本识别领域取得不错成果。CRNN是一种卷积循环神经网络结构，用于解决基于图像的序列识别问题，特别是场景文字识别问题。CRNN网络实现了不定长验证结合CNN和RNN网络结构，使用双向LSTM循环网络进行时序训练，并在最后引入CTC损失函数来实现端对端的不定长序列识别，

二、CRNN网络结构：

网络结构包含三部分，从下到上依次为：

（1）卷积层。作用是从输入图像中提取特征序列。

（2）循环层。作用是预测从卷积层获取的特征序列的标签（真实值）分布。

（3）转录层。作用是把从循环层获取的标签分布通过去重整合等操作转换成最终的识别结果。

1.CRNN完整网络结构图：

从整个网络中可以看出，卷积层是由一系列的卷积、最大池化、批量归一化等操作组成，由标准的CNN模型中的卷积层和最大池化层组成，结构类似于VGG网络。maps为卷积核个数，k为卷积核大小，s为步长，pw为填充，这里要注意后两层最大池化改成2×1，保证高度缩小一半，而宽度+1。

2.CRNN模型计算公式：

3.CRNN模型计算详细流程：

注意前几层卷积核使用3×3，且padding为1，步长为1，比如输入32，则根据计算公式（32-3+2×1）/1+1=32，尺寸不变！

注意Pooling层计算：以pool3层为例，如右图，高H为4，经过k=2,s=2,p=0 带入公式 (4+2×0-2 ）/2 +1=2 ，高减少一半，而宽为26 ，k=2,s=1,p=1 带入公式( 26+2×1-2 ）/1 +1=27, 宽度+1变为27,

卷积层计算：以最后一层[H,W]为例，卷积层大小使用2×2，且高的padding为0，步长为2 ，根据上图输入尺寸为2，带入公式：(2-2+2×0 )/1 +1 =1，则最终输出高度为1。宽度计算同上，宽27 ，padding为0 ，步长为1，带入公式：（27-2+2×0）/1+1=26

三、CRNN网络层介绍

1.卷积层

卷积：提取图像特征池化：为了降维减少计算量。

CRNN卷积层由标准的CNN模型中的卷积层和最大池化层组成，自动提取出输入图像的特征序列。与普通CNN网络不同的是，CRNN在训练之前，先把输入图像缩放到相同高度（图像宽度维持原样），论文中使用的高度值是32。

论文中该CNN结构输出的特征图大小为，若输入图片高度为32，宽度为100，则特征图的大小为（1， 24， 512）。这个结果可以认为图片从左到右被分割成了24块，每块大小的特征维度为512。

提取的特征序列中的向量是从特征图上从左到右按照顺序生成的，每个特征向量表示了图像上一定宽度上的特征，论文中使用的这个宽度是1,就是单个像素。

特别强调序列的顺序是因为在之后的循环层中，先后顺序是LSTM训练中的一个重要参考量。

2.循环层

转录就是 RNN 对每个像素的预测转换为标签序列的过程。

CRNN的循环层由一个双向LSTM循环神经网络构成，预测特征序列中的每一个特征向量的标签分布（真实结果的概率列表），循环层的误差被反向传播，最后会转换成特征序列，再把特征序列反馈到卷积层，这个转换操作由论文中定义的“Map-to-Sequence”自定义网络层完成，作为卷积层和循环层之间连接的桥梁。

LSTM（长短期记忆网络）则是一种特殊结构的RNN，用于解决RNN的长期依赖问题，普通RNN会出现“梯度消失”或“梯度爆炸”的问题，不能获取更多上下文信息，所以 CRNN 中使用的是 LSTM，允许捕获长距离依赖。LSTM单元由输入门、遗忘门和输出门组成。

RNN原理参考：水很深的深度学习-Task05循环神经网络RNN_GoAl的博客-CSDN博客

LSTM原理参考：LSTM原理介绍_GoAl的博客-CSDN博客

3.转录层

转录是将LSTM网络预测的特征序列的所有可能的结果进行整合，转换为最终结果的过程。论文中在双向LSTM网络的最后连接上一个CTC模型，做到端对端的识别。

CTC模型（Connectionist temporal classification）联接时间分类，CTC可以执行端到端的训练，不要求训练数据对齐和一一标注，直接输出不定长的序列结果。

CTC一般连接在RNN网络的最后一层用于序列学习和训练。对于一段长度为T的序列来说，每个样本点t（t远大于T）在RNN网络的最后一层都会输出一个softmax向量，表示该样本点的预测概率，所有样本点的这些概率传输给CTC模型后，输出最可能的标签，再经过去除空格（blank）和去重操作，就可以得到最终的序列标签。

四、CTC原理介绍

CTC是一种Loss计算方法，用CTC代替Softmax Loss，训练样本无需对齐。引入blank字符，解决有些位置没有字符的问题,通过递推，快速计算梯度。

以下以apple单词为例，引入“-”符号，解释CTC网络是如何展开路径进行计算的。

9deaf6842206bc6938a5bd9a7c823365_a87ef95e8e2047d89c38ec71984045a3.png

路径展开原则：（如图中5点）

0608220151faf18e5c7c8159e2d141e3_482941d361a842048b63e7ca38534d4c.png

CTC训练流程和传统的神经网络类似，构建损失函数，然后根据BP算法进行训练，不同之处在于传统的神经网络的训练准则是针对每帧数据，即每帧数据的训练误差最小，而CTC的训练准则是基于序列的，比如最大化 p(l|x) ，序列化的概率求解比较复杂，因为一个输出序列可以对应很多的路径，所有引入前后向算法来简化计算。

前向概率：