- 基于 Continuous Prompt Tuning 的文本蕴含模型在电子商务实体类型识别中的应用
为应对电子商务领域商品标题语言特点与新实体的问题,我们提出了基于连续提示调整、融合嵌入的文本蕴含模型来进行电商中实体类型标注,模型改进了 BERT 模型的平均 F1 得分约 2%。
- COLINGSEE-Few: 小样本命名实体识别的种子、扩张与蕴含
本文提出了一种新颖的多任务学习框架 SEE-Few,用于在没有使用源域数据的情况下进行少样本实体识别,该框架通过种子、扩展和蕴含的学习模块来提高实体识别的准确性,实验结果表明,该方法在四个基准数据集上表现出了比现有技术高出很大的优势。
- 重新思考事件编码管道与提示蕴含
本文提出了一种名为 PR-ENT 的事件编码新方法,通过引入预训练语言模型对事件描述进行扩展,并将事件描述视为前提,填充的模板作为假设,从中提取可解释的答案,从而可直接起草编码手册,并通过交互式编码手册设计工具进行人机交互,从而更灵活、高效 - 超越词级别的释义、文本蕴涵和语义相似度
本论文研究语言和计算方面在短语、从句、句子和段落之间可能存在的意义关系,特别关注了近义词替换、文本蕴涵、矛盾和语义相似性,并探讨了量化语义相似度的不同方法,以及自动化的近义词识别。
- ORCA:通过定位预训练数据海洋中的支持数据证据解释提示型语言模型
本文旨在探究预训练模型在零样本情况下的特定任务认知。通过对支持数据证据进行迭代使用,可以发现 BERT 在情感分析和文本蕴含任务中对 BookCorpus 预训练数据的大量依赖,以及对掩盖任务动词词汇同义词的预训练示例的依赖。
- ACL基于文本推理的事件论元提取:多源学习实现零 - 和少样本
本文通过使用预训练推理模型,将事件论元抽取等 NLP 任务转化为文本蕴涵任务,证明了文本蕴涵模型在复杂任务中同样有效,且可以大幅减少人工标注量和依赖于特定领域语料库的限制。使用多份蕴涵数据集来预训练模型是获得优异结果的关键。
- ACL文本蕴涵和软可传递性的蕴涵图学习
本研究提出了一种名为 EGT2 的两级方法,通过识别由类型 CCG 解析谓词形成的模板句子之间的可能文本蕴含关系来学习局部蕴含关系,其依赖于三种新颖的软传递性约束来考虑蕴含结构中的逻辑传递性,实验证明此方法可以很好地模拟蕴含图中的传递性,从 - 蕴含关系感知的释义生成
这篇文章介绍了一种新的基于强化学习的弱监督的改述系统 ERAP,通过使用现有的改述和自然语言推理 (NLI) 语料库进行训练,可以生成符合给定蕴涵关系且质量良好的改述,经实验证明,使用 ERAP 来增强下游的文本蕴涵任务训练数据可以提高性能 - DEIM:一种有效的句子匹配深度编码与交互模型
通过深度编码和交互来提取深层语义信息的句子匹配方法,使用自注意机制和双向注意机制获得深层语义信息并进行分类,适用于文本蕴含识别、释义识别和答案选择,实验证明其可有效提取深层语义特征并验证其在句子匹配任务中的有效性。
- EMNLPTextHacker: 基于学习的混合局部搜索算法用于文本硬标签对抗攻击
该研究提出了一种基于单独预测标签的敌对攻击 TextHacker,通过学习词汇替换对文本输出标签的影响来确定关键词汇,采用混合本地搜索和攻击历史估计词汇重要性来最小化被攻击文本所需的修改,该攻击在文本分类和文本蕴含方面具有显著的优越性。
- 使用 Tree-RNN 和 Typed dependencies 识别句子对中的语义关系
提出了一种改进的 DT-RNN 模型,使用句法分析中识别出的语法关系类型来识别非近义句子,实验结果表明,在 SICK 数据集上进行的语义相关性和文本蕴含识别任务上,该模型比 DT-RNN 模型的分类准确率提高了 2%,且模型预测的相似度得分 - ACL上下文中的词汇推断语言模型
该研究利用基于预训练语言模型的方法探究了语义词汇判断任务,并通过构建几个模型在该任务上取得了新的最优结果。
- COVID-19 虚假新闻检测和事实核查的两阶段 Transformer 模型
为了在新冠疫情期间快速检测和减轻假新闻的传播,我们开发了一种基于机器学习自然语言处理模型的两阶段自动化检测流程来检测 COVID-19 假新闻,其中第一模型利用了基于事实检查的算法,通过检索特定 COVID-19 索赔的相关事实,第二模型通 - 使用自然语言推理评估数据生成文本的语义准确性
本论文提出了一种使用预训练的自然语言推理神经模型来衡量数据到文本生成语义准确性的新度量方法,并利用该方法来检验两个方向之间的文本蕴含,从而揭示输出中的遗漏或虚构。实验证明,该指标能够在鉴定系统输出的错误方面达到高的精度。
- COLING跨文体的状态性:一种分布式语义学方法
研究动词词汇体现出的语态对于文本蕴涵和学习语篇层推断至关重要。我们使用分布语义学有效地模拟了动态类别的两个基本维度,状态与事件以及目的性与非目的性事件。我们发现动词的本地上下文最能表明其语态,并证明封闭类词往往比内容词更具区分能力。我们的方 - EMNLP有限标注的通用自然语言处理:以少样本文本蕴含为起点
本文探讨如何通过 Few-shot 学习和文本蕴含来实现通用的 NLP 任务解决方案,并且说明文本蕴含可以应用于多种 Downstream NLP 任务,用于解决数据稀缺的情况。
- ACL立场预测和主张验证:阿拉伯视角
该论文探讨了在阿拉伯语新闻断言验证和观点预测中使用文本蕴含的应用,并使用一个新的语料库。作者介绍了语料库的创建方法和注释过程,开发了用于两个提出的任务的两个机器学习基线:断言验证和立场预测。作者的最佳模型利用预训练(BERT),在立场预测任 - ACL提高标题生成的真实性
本文旨在提高生成式摘要的真实性,在两个流行数据集上进行了标题生成的研究,发现总结存在虚假性,且虚假性的监督数据会导致模型行为不真实,通过二分类器过滤掉虚假数据并重新训练模型可以在不影响 ROUGE 分数的情况下提高摘要标题的真实性。
- EMNLP关于去词法化对事实验证的重要性
本研究主要关注在文本蕴涵任务上,探索神经网络在学习和预测时如何赋予数据中的各个方面重要性;实验发现神经网络模型主要根据名词及其短语的词性标签赋予权重,并且这些基于词汇的模型在跨语境时表现较差,但使用语义类别代替实体名词即可显著改善模型性能。
- AAAIBERT 在自然语言攻击上真的很强吗?文本分类和蕴含的强基准线
本文提出一种简单却强大的文本对抗生成基准,名为 TextFooler. 在两个自然语言任务中将其应用,成功攻击了三个目标模型,包括强大的预训练 BERT 和广泛使用的卷积和循环神经网络。该框架具备以下三个优点:有效性,实用性和高效性。