基于草图的自然语言和示例生成正则表达式

Aug, 2019

基于草图的自然语言和示例生成正则表达式

Sketch-Driven Regular Expression Generation from Natural Language and Examples

Xi Ye, Qiaochu Chen, Xinyu Wang, Isil Dillig, Greg Durrett

TL;DR本研究提出了一个综合自然语言描述和示例的正则表达式合成框架，其中语义解析器将自然语言描述映射到包含空洞的中间草图，然后程序合成器搜索草图定义的正则表达式空间并找到符合给定字符串示例的正则表达式，该系统在先前数据集和现实世界中表现出最高的性能。

Abstract

Recent systems for converting natural language descriptions into regular expressions have achieved some success, but typically deal with short, formulaic text and can only produce simple regular expressions, limiting their applicability. Real-world regular expressions are complex, hard to describe with brief sentences, and sometimes require examples to fully

发现论文，激发创造

最小领域知识下，从自然语言生成正则表达式的神经网络

该研究旨在探索将自然语言查询翻译成代表它们含义的正则表达式的任务。为了充分发挥神经模型的潜力，该研究提出了一种收集大规模的正则表达式和自然语言对的方法，并通过该模型实现了比之前最先进模型提升了19.6%的性能。

Aug, 2016

将正则表达式和神经网络相结合：口语理解案例研究

本文探讨了将神经网络与正则表达式相结合来提高自然语言处理中的有监督学习效果，通过在口语理解中应用表明该方法显著地提高了有限的训练数据的利用效率。

May, 2018

神经网络引用表达生成的端到端方法

本文提出了一种新方法 NeuralREG，该方法通过深度神经网络一步决定形式和内容，并在WebNLG语料库的去词汇化版本上显示出优越的性能，数据和模型已公开。

May, 2018

用于多模态正则表达式综合的复杂结构基准测试

使用概率语法生成多模态细节复杂的正则表达式，并利用众包工人提供语言多样性的描述。通过定性和定量分析，论文证明了StructuredRegex数据集相对于现有数据集的优势和挑战。

May, 2020

神经符号正则合成框架的神经示例拆分

使用神经网络技术将正样本中的字符串分解成多个相似的子字符串，再综合生成正则表达式，从而更快、更准确地实现学习正则表达式的过程，同时使用自动生成的子正则表达式，保证匹配负样本的正确性

May, 2022

GENIUS: 使用极限与选择性Masking进行基于草图的语言模型预训练，用于文本生成和增强

GENIUS是一种基于条件文本生成模型，利用素描作为输入，通过构建从素描目标到新样本的映射，生成高质量文本，并归纳提出了一个名为GeniusAug的数据增强方法，可以通过对原始数据集转换而来的目标感知的素描进行样本生成，进而用于自然语言处理各种任务，实验结果表明GeniusAug可以显著改善模型在数据分布范围内和外的性能

Nov, 2022

基于搜索的 GPU 正则表达式推断

本文提出了一种针对任意字母表的REI（正则表达式推理）算法，其将搜索空间紧凑地实现为位向量的连续矩阵，使用形式幂级数的半环表示子语言，并在GPU上实现时能显著提高性能。

May, 2023

InfeRE: 逐步生成正则表达式的推理链

从自然语言描述生成正则表达式（regexes）的新范 Paradigm InfeRE 通过逐步推理的方式生成 regexes，通过多个模型的采样输出来提高鲁棒性，优于先前的基线方法和基于树的生成方法 TRANX，具有提高 DFA@5 准确率的性能

Aug, 2023

正则表达式推理挑战

提出正则表达式推理（REI）作为代码/语言模拟的挑战，并对更广泛的机器学习社区提出。REI是一项监督式机器学习和程序综合任务，通过示例来找到最小的正则表达式。最近在GPU上实现了REI求解器，首次实现了用于复杂REI实例的快速最小表达式生成。以此为基础，我们生成并发布了REI的第一个大规模数据集，并设计和评估了几种初始启发式和机器学习基准方法。邀请社区参与并探索学习解决REI问题的机器学习方法。我们相信，在REI方面的进展直接转化为代码/语言模型。

Aug, 2023

通过正则表达式指令实现统一可控文本生成

我们的研究引入了正则表达式指令（REI），通过基于指令的机制来充分利用正则表达式的优势以统一地建模各种约束，支持多种常见的细粒度可控生成约束，并对它们的复杂组合进行建模。实验证明，我们的简单方法在各种约束下都能取得很高的成功率和适应性，并且在自动评估指标方面具有竞争力，并优于大多数之前的基准模型。

Sep, 2023