该论文提出了一种实际的半自动数据增强框架,可以为半结构化表格推理等 NLI 任务构建训练数据。使用生成可应用于相似表格的假设模板生成假设并基于人类逻辑约束和前提重述创建有理的反事实表。该框架可以产生类人的表推理示例,可在有限监督的情况下提高训练数据的规模。
Oct, 2022
本文通过研究表格自然语言推理问题,针对文本的预训练上下文嵌入等现代自然语言处理方法在表格信息方面所面临的独特挑战,提出了有效的信息呈现改进,经过系统实验表明这些方法可以大幅提高模型的表格推理性能。
Apr, 2021
本文提出了一种基于预训练的方法,通过利用半结构化表格自动生成问题 - 段落对,以检验模型的推理能力,并且通过采样策略来提高模型训练的效率,在三个涉及推理的阅读理解数据集上证明了我们的模型相比于现有流行模型 T5 表现更优。
Jul, 2021
我们提供了一个生成符合用户偏好的流畅且逻辑一致的科学表格数据描述的新任务,并通过构建一个具有高亮单元格和相应专业知识库的数据集,为这个方向的研究提供了基准,并提出了一种优于竞争方法的新架构。结果显示,大型模型在生成与用户偏好一致的准确内容方面存在困难。作为首创,我们的工作有望推动科学领域的进一步研究。
Dec, 2023
基于中国金融公告的表格结构和内容,提出一种用于表格识别的新型注释数据综合方法,利用现有复杂表格的结构和内容,有效地创建接近目标领域中真实风格的表格。借助这种方法,构建了首个广泛的金融领域表格注释数据集,用于训练深度学习的表格识别模型,同时建立了中国金融公告领域中现实世界复杂表格的基准测试,用于评估在模型上训练了我们合成数据的性能,验证了方法的实用性和有效性。此外,通过增加跨越多个单元格的表格比例,将综合方法应用于从英文金融公告中提取的 FinTabNet 数据集,实验证明在表格识别中,通过在这个扩充数据集上训练的模型性能得到全面提升,尤其是在识别具有跨越多个单元格的表格方面。
Apr, 2024
本文提出了一种基于自学习的检索增强型 Transformer 模型,其用于自动数据整理以减轻数据分析师的工作量,实现适用于动态数据视图的表格数据的结构化与数据补全,数据的预处理是实现分析或构建机器学习模型时最昂贵和耗时的步骤之一。
Jun, 2023
本文采用 Pattern-Exploiting Training 技术对预训练语言模型进行强化,在知识事实和表格推理方面优于当前基准,且更有效地支持信息选项卡的底层推理任务,且该模型对各种字符和单词级扰动具有鲁棒性。
本文研究如何将基于 transformer 的模型应用于工业级别的表格数据中的实体识别问题,并开发了一种专用的表格数据增强策略来提高性能,实验证明表格的归纳偏差对于 transformer-based 模型的收敛至关重要。
Sep, 2022
本文提出了一种适用于表格推理任务的统一的无监督框架(UCTR),该框架通过生成复杂逻辑的充足和多样化的合成数据,使得模型能够在无人标注数据的情况下获得良好的推理性能。该方法在实验中表现出了与监督模型最多 93% 的性能,并在低资源领域作为数据增强技术大幅提高了监督性能。
Dec, 2022
为了弥补现有评估数据集的不足,本研究构建了一个更具挑战性的数据集,并引入了一种新颖的问题,用于解决实体链接任务,即对单元格中的命名实体进行识别。最后,我们提出了一个提示框架,以评估新开发的大型语言模型在这一新的表格解释任务上的表现。
Mar, 2024