- 生成实用示例用于训练神经程序合成器
本文提出了一种使用神经网络在编程示例中选择信息性数据集的新方法,并在合成正则表达式任务上验证了该方法的有效性,相对于不选择信息性示例训练的模型,其性能提高了 23%(相对增长了 51%),并且与使用人类数据进行训练的监督学习模型的表现相当。
- STEP -- 面向结构化场景文本检测
我们介绍了结构化场景文本定位任务,该任务要求场景文本 OCR 系统根据查询正则表达式在野外定位文本。为了解决这个任务,我们提出了 Structured TExt sPotter(STEP)模型,该模型利用提供的文本结构来指导 OCR 过程。 - InfeRE: 逐步生成正则表达式的推理链
从自然语言描述生成正则表达式(regexes)的新范 Paradigm InfeRE 通过逐步推理的方式生成 regexes,通过多个模型的采样输出来提高鲁棒性,优于先前的基线方法和基于树的生成方法 TRANX,具有提高 DFA@5 准确率 - LLM 的高效导向生成
使用正则表达式和上下文无关文法对语言模型的文本生成过程进行高效引导,通过 Outlines 开源 Python 库实现可行的引导生成。
- 正则表达式过程解释图像在 Bisimulation Collapse 下不封闭
研究笔者探讨了 Milner 过程语义中正则表达式模除双模价的公理化和表达问题,研究发现盲目添加 1 并不能接受,但在图解释中,LEE 特征可以被指出并应用于证明一个等式证明系统的 1-free 正则表达式,并可以在多项式时间内决定一个过程 - 使用 ReLM 验证大型语言模型
本文介绍了用标准正则表达式验证和查询 LLMs 的 ReLM 系统,其结果表明 ReLM 的最高系统效率是现有方法的 15 倍,数据效率是现有方法的 2.5 倍,并且具有竞争力和较高的统计学和提示调整覆盖率。
- EMNLP挖掘式零样本学习:基于语言模型的搜索方法
本文提出了一种使用正则表达式从未标记语料库中挖掘标记示例的替代模板提示方法,通过微调预训练模型,相比模板提示方法更加灵活和可解释,在使用相似模板时在多个任务中表现出更好的性能。
- 神经符号正则合成框架的神经示例拆分
使用神经网络技术将正样本中的字符串分解成多个相似的子字符串,再综合生成正则表达式,从而更快、更准确地实现学习正则表达式的过程,同时使用自动生成的子正则表达式,保证匹配负样本的正确性
- 什么使得指导学习变得困难?一个人工环境的研究和新挑战
使用 T5-based text2text transformer 构建了一个 Hard RegSet dataset,用于研究 instruction learning,该 transformer 学习从指示中执行任务的能力存在挑战,其中 - 多模态合成正则表达式
本文提出了一种多模式综合技术,用于自动从示例和自然语言中构造正则表达式,并实现了一个名为 'Regel' 的工具以及一个 用户研究,结果表明使用 Regel 能够显著提高用户成功地构建所需正则表达式的概率。
- ACL将正则表达式和神经网络相结合:口语理解案例研究
本文探讨了将神经网络与正则表达式相结合来提高自然语言处理中的有监督学习效果,通过在口语理解中应用表明该方法显著地提高了有限的训练数据的利用效率。
- 合成双射透镜
使用 Optician 工具在具有丰富类型等价关系的语言中,为两个数据格式表示的正则表达式生成双向转换器,使两个方向可以写成单个表达式。
- 使用令牌正则表达式和双向推理的越南命名实体识别
该论文提出了一种有效的方法,通过在标记序列模型中应用标记规则和双向推理方法来提高越南语命名实体识别系统的准确性,该方法在 VLSP 社区于 2016 年底组织的一次评估活动中的测试集上取得了 89.66%的总体 F1 得分。
- EMNLP最小领域知识下,从自然语言生成正则表达式的神经网络
该研究旨在探索将自然语言查询翻译成代表它们含义的正则表达式的任务。为了充分发挥神经模型的潜力,该研究提出了一种收集大规模的正则表达式和自然语言对的方法,并通过该模型实现了比之前最先进模型提升了 19.6% 的性能。