用于稳健结构预测的结构化语言生成模型
利用用户查询和数据库的结构信息改进结构化 SQL 的生成问题,提出了一种结构引导的 SQL(SGU-SQL)生成模型,并通过实验验证其优于 16 种 SQL 生成方法。
Feb, 2024
本文提出了一种结构调整框架,以在训练时通过软化约束来提高模型性能,利用神经网络的表达能力和具有结构化损失的监督学习组件,通过实验证明可以在语义角色标注任务中取得比 RoBERTa 等基线更好的结果,并在低资源情况下实现了持续改进。
May, 2020
本文研究 NLP 中使用预训练语言模型(PLM)的结构化预测问题,描述了一种基于 PLMs 的结构建模方法,在命名实体识别、端到端关系提取和指代消解三个任务上实现了最新的最优性能。
Oct, 2022
结构化数据是普遍的知识源,大型语言模型在处理结构化数据方面存在显著不足,为了增加语言模型中的结构化知识落地能力,研究人员开发了一种全面的指导调整数据集,并利用此数据集训练了一系列基于 Code-LLaMA 架构的模型,横跨 7B 到 34B 参数范围。这些模型在 18 个评估数据集中有 14 个超越了任务专用模型,并在 7 个结构化知识落地任务中取得了新的最佳成果。此外,这些模型在 6 个新的结构化知识落地任务上表现出出色的泛化能力。然而,我们观察到模型规模的扩大只能带来些微的改进,这表明结构化知识落地仍然是一个具有挑战性的任务,需要更多创新的设计突破新的领域。
Feb, 2024
使用大规模预训练结构转换器的句法语言模型(SLM),通过从头开始在原始文本上进行高并行度的无监督训练,弥补了以前的 SLM 存在的限制,如依赖于黄金树和顺序训练。同时,我们介绍了一个表示替代方法,以在硬 EM 方式下联合并行训练模型,证明了 Generative Pretrained Structured Transformers(GPST)在语言理解和语言生成等多个任务中相比 GPT-2 具有可比大小时的优越性,同时在左到右语法归纳方面也显著优于现有的无监督 SLM,并具有训练加速的优势。
Mar, 2024
本论文研究了在不需要大量预训练的情况下,以结构为导向的指导是否能够使 Transformer 语言模型学习更接近人类的系统语言泛化。通过在 BLLIP 数据集上对两种新模型进行实验,研究者发现引入结构性解析的辅助训练能够提高 Transformer 语言模型在句法推理上的泛化能力。
Jul, 2021
该研究报告介绍了一种新方法 —— 结构化语言建模(SLM),利用编程语言的严格语法将代码片段建模为树来实现任意代码完成,该方法可以生成任意编程语言的任意代码,在生成 Java 和 C# 代码方面,效果显著优于现有技术。
Sep, 2019
本文提出了一种新型非自回归对话系统核心部件 ——Layered-Refine Transformer,其包含 Slot Label Generation 和 Layered Refine Mechanism,通过在训练期间有效获取依赖信息,实现了在推断时显著提高了 SLU 性能(总体准确率提高 1.5% 以上)并加速了(超过 10 倍)推断过程。
Aug, 2021
通过 G&O 方法,将大型语言模型的生成分为两个步骤,首先生成自然语言的中间回答,然后使用中间回答作为上下文,将输出整理成所需结构,从而有效提高了大型语言模型在结构化文本生成任务中的性能。
Feb, 2024
研究表明,为了改善 VL 模型的结构理解能力,场景图等结构化标注数据虽然耗时、昂贵和繁琐,但只需要小型数据集,就足以使用专用的模型架构和新的训练范式来提高 VL 模型的表现,通过直接使用场景图标签监督图像和文本编码器,以及添加专门的自适应 SG 令牌和新的适应技术来提高 SG 信息的预测。
May, 2023