基于草图的自然语言和示例生成正则表达式
该研究旨在探索将自然语言查询翻译成代表它们含义的正则表达式的任务。为了充分发挥神经模型的潜力,该研究提出了一种收集大规模的正则表达式和自然语言对的方法,并通过该模型实现了比之前最先进模型提升了19.6%的性能。
Aug, 2016
本文探讨了将神经网络与正则表达式相结合来提高自然语言处理中的有监督学习效果,通过在口语理解中应用表明该方法显著地提高了有限的训练数据的利用效率。
May, 2018
本文提出了一种新方法 NeuralREG,该方法通过深度神经网络一步决定形式和内容,并在WebNLG语料库的去词汇化版本上显示出优越的性能,数据和模型已公开。
May, 2018
使用概率语法生成多模态细节复杂的正则表达式,并利用众包工人提供语言多样性的描述。通过定性和定量分析,论文证明了StructuredRegex数据集相对于现有数据集的优势和挑战。
May, 2020
使用神经网络技术将正样本中的字符串分解成多个相似的子字符串,再综合生成正则表达式,从而更快、更准确地实现学习正则表达式的过程,同时使用自动生成的子正则表达式,保证匹配负样本的正确性
May, 2022
GENIUS是一种基于条件文本生成模型,利用素描作为输入,通过构建从素描目标到新样本的映射,生成高质量文本,并归纳提出了一个名为GeniusAug的数据增强方法,可以通过对原始数据集转换而来的目标感知的素描进行样本生成,进而用于自然语言处理各种任务,实验结果表明GeniusAug可以显著改善模型在数据分布范围内和外的性能
Nov, 2022
本文提出了一种针对任意字母表的REI(正则表达式推理)算法,其将搜索空间紧凑地实现为位向量的连续矩阵,使用形式幂级数的半环表示子语言,并在GPU上实现时能显著提高性能。
May, 2023
从自然语言描述生成正则表达式(regexes)的新范 Paradigm InfeRE 通过逐步推理的方式生成 regexes,通过多个模型的采样输出来提高鲁棒性,优于先前的基线方法和基于树的生成方法 TRANX,具有提高 DFA@5 准确率的性能
Aug, 2023
提出正则表达式推理(REI)作为代码/语言模拟的挑战,并对更广泛的机器学习社区提出。REI是一项监督式机器学习和程序综合任务,通过示例来找到最小的正则表达式。最近在GPU上实现了REI求解器,首次实现了用于复杂REI实例的快速最小表达式生成。以此为基础,我们生成并发布了REI的第一个大规模数据集,并设计和评估了几种初始启发式和机器学习基准方法。邀请社区参与并探索学习解决REI问题的机器学习方法。我们相信,在REI方面的进展直接转化为代码/语言模型。
Aug, 2023
我们的研究引入了正则表达式指令(REI),通过基于指令的机制来充分利用正则表达式的优势以统一地建模各种约束,支持多种常见的细粒度可控生成约束,并对它们的复杂组合进行建模。实验证明,我们的简单方法在各种约束下都能取得很高的成功率和适应性,并且在自动评估指标方面具有竞争力,并优于大多数之前的基准模型。
Sep, 2023