DisCoCirc 的文本电路的语言无关性:英语和乌尔都语
提出了 DisCoCirc 模型,用于将自然语言文本表示为电路,以提供可以在经典和量子方法中应用于自然语言处理任务的神经符号模型。此外,还描述了将英语文本转换为 DisCoCirc 表示的软件管道,该管道使用组合的范畴语法解析及核心指代解析信息来转换文本。
Nov, 2023
本文利用 DisCoCirc 框架,提出了一种适用于自然语言的生成文本电路,该电路独立于语音和语言,并能够在不同表现层次上捕获和更新单词、句子和文本内涵,并通过构建混合语法和翻译过程,实现了文本生成和解析的循环互逆。
Jan, 2023
本研究探讨了 DisCoCirc 模型的不同更新机制以及双重密度矩阵对语义编码的优势,同时将(可交换的)spiders 解释为 Leifer-Spekkens 更新机制的实例。这为在量子硬件上实施文本级自然语言处理提供了基础,先前已确定其具有指数空间增益和二次速度提升的优点。
Jan, 2020
本文主要探讨了基于 DisCoCat 模型的 VQSCs 和 VQTCs 在量子自然语言处理中的应用,并讨论了 DisCoCat 和 DisCoPy 对于对句子进行建模和参数化量子电路编码的方法。但由于 DisCoPy 不支持处理多个句子的文本,因此提出了基于 DisCoCat 模型的三种 VQTCs 方法:基于句子加权的 bag-of-sentences 方法、涉及共同参照的指代消解方法,以及基于 DisCoCirc 模型考虑句子顺序和单词交互作用的文本编排方法,但 DisCoCirc 与 DisCoCat 相比具有更新单词意义的特征,因此尚不清楚 DisCoCirc 能否在 lambeq / DisCoCat 中实现而不破坏 DisCoCat。
Mar, 2023
我们展示了如何在一个组合分布式意义模型中解析 Geach 的驴子句。我们在 DisCoCat(分布式组合范畴)框架的基础上进行了扩展,包括对话、限定词和关系代词的建模。我们提出了一种类型逻辑语法来解析驴子句,其中我们定义了关系和向量空间语义。
Aug, 2023
消除话语中填充词、重复和修正等不流畅元素的过程是后处理自动语音识别(ASR)输出、在下游语言理解任务之前的关键步骤。我们提供了一个高质量的人工标注的多语言不流畅纠正语料库,涵盖了四种重要的印欧语言:英语、印地语、德语和法语。在四种语言的全面结果分析中,我们获得了 97.55(英语)、94.29(印地语)、95.89(德语)和 92.97(法语)的 F1 得分。为了证明不流畅纠正对下游任务的益处,我们展示了与最先进的机器翻译(MT)系统结合使用时 BLEU 得分平均提高了 5.65 个点。我们在此处发布了运行实验的代码和我们的注释数据集。
Oct, 2023
本文介绍了一种针对近期量子计算机运行的自然语言处理全栈流程 ——QNLP,该流程中所采用的语言模型框架为组合密度语义学(DisCoCat),它扩展和补充了预组语法的组合结构;我们将 DisCoCat 图解释作于近期的量子线路映射,为量子技术运用于自然语言处理开拓了道路。
May, 2020
我们提出了一种新的高阶 DisCoCat(分类组合分布)模型的定义,其中词的意义不是一个图表,而是一个图表值的高阶函数。我们的模型可以看作是基于 lambda 演算的 Montague 语义的变体,其中的原始操作作用于字符串图表而不是逻辑公式。作为特例,我们展示了如何从 Lambek 演算翻译为一阶逻辑中的 Peirce 系统贝塔。这使我们能够在自然语言语义中以纯图表的方式处理高阶和非线性过程:副词、介词、否定和量词。这篇文章中提出的理论定义带有 DisCoPy 的概念验证实现,这是用于字符串图表的 Python 库。
Nov, 2023
本文研究提出了一种基于条件随机场序列建模器的乌尔都语词分割系统,使用正字法、语言学和形态学特征,该模型能够自动学习预测单词边界和子单词边界,在手动注释的语料库上实现了 0.97 的单词边界识别 F1 分数和 0.85 的子单词边界识别 F1 分数。
Jun, 2018