基于上下文无关文法的领域特定速记生成
大型语言模型在自然语言到代码生成方面展现出卓越的性能,在通用领域语言(如 C++、Java 和 Python)上表现出最先进的性能。但是,在面向特定领域的结构化语言(如 YAML、JSON)上,它们的实际使用受到限制。为了克服这个挑战,我们提出了 DocCGen 框架,通过将结构化代码语言的自然语言到代码生成任务分为两步处理。通过从库文档中提取的模式规则对解码进行约束,我们的框架在两个复杂的结构化语言(Ansible YAML 和 Bash 命令)上不断改进不同规模的语言模型,并降低了结构化代码中的语法和语义错误。我们计划开源数据集和代码以促进受限制代码生成的研究。
Jun, 2024
通过利用协程方式的内容生成约束和预先协商的上下文无关文法(CFG),我们提出了一种引导大型语言模型(LLMs)生成符合特定约定的结构化内容的方法,从而增强生成目标数据结构、类型或指令的稳定性和一致性,降低应用开发复杂性。与基准测试相比,我们的方法提高了准确性 1.09 到 11.6 倍,LLMs 仅需约 16.5% 的样本即可有效生成 JSON。这提高了 LLM 生成内容在计算机程序中的可用性。
Apr, 2024
在这项研究中,我们介绍了一种名为 DSG 的文档解析系统,它是一种全面可训练的端到端系统,用于将渲染文档映射到结构化的分层格式。我们通过训练 DSG 系统,使其在实际应用中具有高效和灵活的功能,并在评估中证明 DSG 优于商业 OCR 工具并且达到了最先进的性能水平。据我们所知,我们的 DSG 系统是第一个进行层次化文档解析的全面可训练系统。
Oct, 2023
我们提出了一种基于句法树的语法引导生成模式,通过解码过程的两个部分:(1)对给定源句子中词汇化的句法上下文中的每个成分预测填充文本;(2)映射和扩展每个成分以构建下一级语法上下文以生成自然语言文本,并在重述生成和机器翻译上进行了实验。与自回归基线相比,该方法在有效性和可解释性方面更加出色。
Jun, 2023
本文提出使用预训练语言模型 (PLM) 通过序列生成 (DPSG) 实现通用且无模板的依存解析 (DP),可以实现单模型下句法 DP 和语义 DP,并具有多方案解析功能,与现有方法相比在多个基准任务上表现相当甚至更好。
Jan, 2022
本文提出了一种处理 neural text-to-SQL models 中编写语法的复杂性的技术,从而生成 schema-dependent grammar,对 ATIS 和 Spider 两个挑战性的 text-to-SQL 数据集进行分析,显示可以减少 14-18% 的相对误差。
May, 2019
本文介绍了一种名为 GraphGen 的领域无关技术,它使用 DFS 代码将图形转换成序列,并利用一种新颖的 LSTM 架构学习图形和语义标签之间的复杂联合分布,从而克服了许多现有技术的局限性,该技术在多个性能指标方面表现优异。
Jan, 2020
该论文提出了一种名为 ProgSG 的方法,结合源代码序列模态和图模态,实现深入和精细的互动,以促进领域特定加速器(DSAs)的自动化设计并解决现有高级综合工具需要进行微体系结构决策的问题。
May, 2023
针对大型语言模型的硬件挑战,我们提出了一种新颖的依赖感知半结构稀疏性(DaSS)方法,它将结构依赖性引入基于权重大小的非结构化剪枝,并引入了一个 MLP 特定的剪枝度量来评估每个权重的重要性,同时考虑其大小和对应的 MLP 中间激活规范。我们在 Mistral 和 LLaMA2 模型上的实证评估表明,DaSS 不仅在实现硬件友好的 N:M 稀疏模式方面优于 SparseGPT 和 Wanda,而且还保持了 Wanda 的计算效率。
May, 2024
通过对多项任务的优化,本文展示了分类器自由引导(CFG)可以作为一种单纯的语言模型推理技术,以优于当前最佳模型的表现在 LAMBADA 任务上取得了 SOTA 成果,并可改善语言助手任务的准确性和连贯性。
Jun, 2023