零和少样本语义解析与模糊输入
本文提出一种零样本方法,该方法可以在只在其他源域示例中进行训练的情况下解析看不见领域的话语,并通过词汇对齐分数和全局推理将槽替换为知识库常量,从而解决了当前语义解析器需要昂贵监督并且不能推广到新领域的问题。
Apr, 2018
探讨如何开发一种语义解析方法,既可应对自然语言变异,又能在组合推理方面具有强大的针对性。我们在非合成数据集上提出了新的训练和测试集分割,证明现有方法在广泛的测试中表现不佳。并提出了 NQG-T5,这是一个混合模型,结合了高精度的基于语法的方法和预先训练的序列到序列模型。它在非合成数据上的多个组合泛化挑战中优于现有方法,在标准评估上也具有竞争力。
Oct, 2020
利用大型预处理语言模型作为少型语义解析器,将输入 paraphrase 成类似英语的控制子语言,通过很少的数据和代码快速批量生成语义解析器,表现出令人惊讶的有效性,远超过基线方法。
Apr, 2021
本文研究使用具备上下文的例句,将语义解析问题转化为规范语句的近义词问题,旨在改善大型语言模型在少量训练数据下的性能,并探究在自然语言映射为代码的语义解析任务中,使用预训练模型OpenAI Codex能否表现更好。实验发现,相比等效的GPT-3模型,Codex在这种任务中表现更佳,尤其是在像Overnight和SMCalFlow这样的数据集中。
Dec, 2021
本论文提出了一个基于语言学家注释的语言歧义数据集,并测试了预训练的语言模型在识别和分离歧义上的表现。结果表明,这是一个极具挑战性的任务,现有的模型正确率仅为32%,本文挑战学术界重新认识语言歧义在自然语言处理中的重要性。同时,本文还展示了一个多标签自然语言推理模型如何帮助识别由于语言歧义而引起的虚假政治言论。
Apr, 2023
研究探讨了ChatGPT在理解语言方面的局限性,着重于对于通常对人类来说很容易但对该模型来说具有挑战性的简单推理任务的限制,研究结果表明,虽然ChatGPT在某些领域具有语言理解的能力,但是其对于一些特定类型的蕴含有所盲区,该研究强调了更多的对LLMs(大型语言模型)语言理解和推理能力的研究,以提高其可靠性,确立其在实际应用中的可信度。
May, 2023
本文研究荷兰语定语从句的结构歧义,通过研究基于语境的消歧任务,探讨前一句话的存在如何解决定语从句的歧义,应用此方法于两种句法分析结构,结果表明基于证明网的神经符号句法分析器比基于通用依赖的方法更容易纠正数据偏见,然而两种设定都受到相应的初始数据偏见的影响。
May, 2023
近期的研究指出,NLP系统在理解人类语言时可能会遇到困难,因为它们可能无法像人类自然地处理语言的歧义。本文提出了基于英语的歧义类型分类法,旨在帮助NLP分析,并通过对数据集和模型性能进行更精细的评估。
Mar, 2024