IJCAI 2023 | 结合图例解析文本子句的多模态神经几何解题器

本文简要介绍被IJCAI 2023录用的论文 “A Multi-Modal Neural Geometric Solver with Textual Clauses Parsed from Diagram”的主要研究工作。文章提出了一种新的图文融合的几何题神经求解器PGPSNet。该模型能够将几何图形、从图中解析出的文本子句以及文本问题相结合，并生成用于解决几何问题的求解程序。该工作还构建了一个细粒度标注的几何题数据集PGPS9K，包含基元级别的图形标记和可解释的问题求解过程。在Geometry3K和PGPS9K数据集上的实验表明，PGPSNet显著提高了几何题求解的性能，大幅度超越现有的神经求解器。

论文链接： https://arxiv.org/abs/2302.11097

代码地址： https://github.com/mingliangzhang2018/PGPS

数据集地址：http://www.nlpr.ia.ac.cn/databases/CASIA-PGPS9k

一、研究背景

自动几何问题求解(GPS)是一项具有挑战性且研究历史悠久的人工智能任务。几何问题一般由文本问题和几何图例构成，其中文本问题用自然语言描述几何问题条件并设定求解目标，几何图蕴含了文本问题之外丰富的结构和语义信息以辅助问题求解。GPS要求解题器具备数学和多模态推理能力，能同时处理文本问题和几何图例。现有的GPS工作可以分为符号求解器和神经求解器两类。

符号求解器[1,2]将图例和文本问题解析为统一的形式语言，通过路径搜索和条件匹配进行符号推理，直到找到搜索目标。与神经求解器相比，符号求解器虽然具有更好的可解释性，但它们规则复杂，难以扩展。
最近提出的神经求解器[3,4]，使用混合编码器和自监督辅助任务，将图表和文本问题嵌入到统一特征空间，并生成序列求解表达式来求解。

但是这些框架主要用于自然场景中的视觉推理，并不适用于几何图例，甚至破坏几何中的结构和语义信息。考虑到目前神经求解器对几何图例表示欠佳和跨模态融合困难，论文作者使用文本子句来表示几何图，并提出了一种新的图文融合的神经求解器PGPSNet。模型借助结构和语义预训练、数据增强和自限解码器充分融合结构和语义信息，被赋予丰富的几何定理和几何表示的知识。

二、数据集简介

现有的几何题数据集要么样本规模很小，仅适用于基于规则的符号求解器，要么是粗粒度标注的，忽略了图例中的丰富信息。为了促进几何题神经求解器的发展，作者构建了一个大规模几何题数据集PGPS9K，同时标记了细粒度图例注释和可解释的求解程序。该数据集由9022个文本问题与不重复的4000个几何图例配对组成，划分的30个题型几乎涵盖了6-12年级平面几何问题的所有题型。PGPS9K数据具有以下五种特点，如图2展示：

1）基于几何定理：解题过程中，需要运用几何定理或者公理知识进行代数计算，最后得到数值结果；

2）图例依赖性：90%以上的问题必须结合几何图例来解决，因为部分变量内容和几何结构等必要条件是通过视觉图例来展示的，而在文本题目中无法获取；

3）抽象性：图例仅包含基本的几何基元(点、线、圆)和非几何基元(文本、符号)，且问题不涉及复杂的语义场景；

4）细粒度：同一图例对应的几何问题在条件或求解目标上是不同的，文本问题的细微差别通常会导致完全不同的问题解决方案；

5）条件冗余性：文本问题或者语义子句中部分条件在解决问题的过程中并不一定会用到。

综上，这五个属性使PGPS9K专注于几何推理方面的挑战，并缓解文本问题可能引入的偏置。

PGPS9K数据集的标注包括图例标注和解题程序。图例标注采用与几何图例解析工作[5,6]相同的基元级标注，然后将其转化成结构和语义两种文本子句。结构子句描述几何基元之间的连接关系，例如点在线上或点在圆上的描述子句，其中点是按一定顺序排列的。连接关系揭示了最基本的几何结构关系，这种关系显示在几何图例中而往往被文本问题所省略。语义子句用自然语言刻画几何基元与非几何基元之间的基本关系。语义子句对应的关系是问题求解的必要组成部分，图例和文本问题相互补充。

解题程序是由多个演绎步骤组成的几何解题过程。如图3所示，解题程序由运算符OP和操作数PN组成，其中操作数包括问题变量N(出现在文本问题和语义子句中)、过程变量V（求解过程中产生的变量）、参数ARG（字母未知数[a-z]）和常量C。一个运算符和一些操作数组成一个求解步骤，每个求解步骤涉及一个几何定理或公理，其中相关的操作数按照定理公式的变量语义顺序排列。与现有标注相比，该标注方法使用定理操作替换基本的算术运算，具有结构化、知识引导和可解释性等优点。搭配求解程序的标注方式，作者还构建了一个强大的程序执行器来计算数值结果。

三、方法原理简述

3.1 结构与语义预训练

从图例中解析出的文本子句是低层次的，缺乏整体结构以及上下文联系。该研究受到预训练语言模型的启发，如图5所示，基于掩码语言模型（MLM）任务，设计了一种结构和语义预训练方法。首先，为每个Token分配类别标签（Token的语义类别）和章节标签（Token所属的部分）。模型的文本模态输入Token不但融合了位置编码，还集成了类别标签和章节标签的嵌入。然后，仿照MLM的工作，用掩码Token[M]遮掉了30%的文本Token，但是保持类别标签和章节标签不变。预训练目标是以统一的文本生成方式恢复遮盖掉的文本Token。预训练使得模型具备基本的几何认知能力，而这正是几何问题推理求解的基础。

3.2 混合编码器和自限解码器

3.3 几何表示的数据增广

尽管PGPS9K是迄今为止最大且高质量的几何题数据集，但仍然不能很好满足PGPSNet的模型学习，特别是对于结构和语义预训练任务。因此，作者采用了基于几何表示多样性和等价性的五种数据增广策略，并以图6中的问题作为示例进行说明：

1）Token替换；

2）连接关系轮换；

3）表示法转置；

4）文本子句顺序随机打乱；

5）图例翻转。

这五种增强策略是相互独立的，又可以相互结合。数据增广产生的大量样本赋予PGPSNet模型基本的几何表示知识，进而促进高层次的几何推理。

四、主要实验结果

实验首先将PGPSNet与最近提出的符号求解器InterGPS [2]和神经求解器NGS [3]、Geoformer [4]进行了比较，如表2展示。在数据集Geometry3K上，填空评价结果显示，PGPSNet大幅优于Inter-GPS(Predict)，并取得了与Inter-GPS(Diagram GT)相当的性能，但略逊于InterGPS(All GT)。在选择形式上，PGPSNet已经超越了所有的输入模式下的InterGPS方法，甚至比Inter-GPS(diagram GT)高出2%。在填空和选择评价方式上，相比Inter-GPS(Diagram GT)方法，PGPSNet显示出更多的性能提升，而Top-3的结果意味着PGPSNet还有很多提升的潜力。由于合适的模态表示方法和有效的模态融合策略，与基线神经求解器、NGS和Geoformer相比，PGPSNet展示了优越的性能提升。

为了说明PGPSNet不同模块或策略的效果，实验以自限解码器、数据增广、结构子句和预训练语言模型作为对象，进行了消融实验，如表3所示：第1行和第4行之间的对比表明，数据增广通过在增广数据中注入几何表示知识，促进了几何逻辑推理；通过比较第2行和第4行，发现自限解码器提高了几何推理的性能。因为其简化了特征表示空间并限制了搜索空间，从而降低了模型学习的难度；结构和语义预训练语言模型给求解器带来了惊人的性能提升，尤其是在填空形式的评价结果上，答案准确率提升了26.6%，如第4行和第6行所示；对比第3行和第4行，还发现在未经预训练的条件下，结构子句对几何解题性能影响较小。但经过预训练后，结构子句使得几何解题性能获得大幅度的提升，如第5行和第6行所示，这揭示了基本的连接关系可以通过合适的模态融合方法，促进模型对几何结构认知，进而助力几何逻辑推理。

实验还进行了解题案例分析，以讨论解题器的能力和局限性，如图7所示。案例(a)考察了角度平分线定理的应用。方法NGS和PGPSNet w/o LM均不能正确处理在角平分线分割下，三角形对应边边长的比例关系，而PGPSNet 生成了正确的求解程序。案例(b)需要应用两类截弦长度定理，并涉及多步定理操作。对于这道题，所有解题器的解题方案都是错误的，但是PGPSNet 生成的求解程序是最接近真值标注的。综合结果表明，PGPSNet目前还不具备复杂几何推理的能力，但其具有巨大的潜力。

五、总结和讨论

该工作提出了一个结合从图例解析出的文本子句的几何题神经求解器PGPSNet，并构建了一个大规模和精细标注的几何题数据集PGPS9K。受益于有效的模态表示和高效的模态融合，PGPSNet充分利用基本结构和语义信息来实现几何推理。此外，可解释的求解程序和精心设计的数据增广方案，为模型提供了几何定理、几何表示等几何题求解的关键几何知识。对于未来工作，在模态细粒度融合和显式几何知识结合方面，模型仍有很大的改进提升空间。

参考：

[1] Minjoon Seo, Hannaneh Hajishirzi, Ali Farhadi, Oren Etzioni, and Clint Malcolm. Solving geometry problems: Combining text and diagram interpretation. In EMNLP, 2015.

[2] Pan Lu, Ran Gong, Shibiao Jiang, Liang Qiu, Siyuan Huang, Xiaodan Liang, and Song-Chun Zhu. Inter-GPS: Interpretable geometry problem solving with formal language and symbolic reasoning. In ACL-IJCNLP, 2021.

[3] Jiaqi Chen, Jianheng Tang, Jinghui Qin, Xiaodan Liang, Lingbo Liu, Eric Xing, and Liang Lin.

GeoQA: A geometric question answering benchmark towards multimodal numerical reasoning. In Findings of ACL, 2021.

[4] Jiaqi Chen, Tong Li, Jinghui Qin, Pan Lu, Liang Lin, Chongyu Chen, and Xiaodan Liang. Unigeo: Unifying geometry logical reasoning via reformulating mathematical expression. In EMNLP, 2022.

[5] Ming-Liang Zhang, Fei Yin, Yi-Han Hao, and Cheng-Lin Liu. Plane geometry diagram parsing. In IJCAI, 2022.

[6] Yihan Hao, Ming-Liang Zhang, Fei Yin, and Linlin Huang. PGDP5K: A diagram parsing dataset for plane geometry problems. In ICPR, 2022.

作者：张明亮

来源：公众号【CSIG文档图像分析与识别专委会】

IJCAI 2023 | 结合图例解析文本子句的多模态神经几何解题器

一、研究背景

二、数据集简介