LaTeX OCR

Apr 27, 2018

Visualization on LaTeX OCR Processing

首先我们获取到足够的公式，对公式进行规范化处理，方便划分出字典。然后通过规范化的公式使用脚本生成图片，具体用到了latex和ghostscript和magick，同时保存哪个公式生成哪个图片，保存为公式-图片映射文件。这样我们得到了3个数据集：规范化的公式集，图片集，公式-图片映射集，还有个附赠品：latex字典。这个字典决定了模型的上限，也就是说，模型预测出的公式只能由字典里的字符组成，不会出现字典以外的字符。

然后构建模型。

模型分为3部分，数据生成器，神经网络模型，使用脚本。

数据生成器读取公式-图片映射文件，为模型提供(公式, 图片)的矩阵元组。

神经网络模型是 Seq2Seq + Attention + Beam Search。Seq2Seq的Encoder是CNN，Decoder是LSTM。Encoder和Decoder之间插入Attention层，具体操作是这样：Encoder到Decoder有个扁平化的过程，Attention就是在这里插入的。随Attention插入的还有我们自定义的一个op，用来导出Attention的数据，做Attention的可视化。

Deep Learning

LaTeX OCR

林学渊

First year PhD Student in Artificial Intelligence Thrust, Infomation Hub, Hong Kong University of Science and Technology (Guangzhou)