- 民主化扩散语言模型
本文旨在提出一种去中心化的扩散语言模型(DDLM),该模型基于连续性扩散的范畴数据(CDCD)框架,使用 C4 数据集进行简化的培训过程,并提出一种新颖的早期退出策略,通过 GLUE 基准研究 DDLM 的知识转移能力。
- ACL使用去噪结构 - 文本增强提升事件抽取
本文提出了一种通过知识基础结构生成模型和深度强化学习代理程序迭代地从中选择有效子集的去噪结构生成增强框架(DAEE),以解决事件提取任务中语法不正确、结构不对齐和语义偏差等问题,并在多个数据集上进行试验,结果表明该方法生成了更多元化的事件提 - ACL使用同层嵌入的分布进行无监督语义变化预测
本文介绍了一种利用目标词的词汇上下文嵌入组成的同义分布来预测语义变化的方法,在 SemEval-2020 任务 1 基准数据集上实验证明了该方法优于使用平均嵌入表示的先前方法,并且与当前的最先进技术持平。此外,定性分析表明该方法能够检测到现 - ChatGPT 在超越英语方面的综合评估:多语言学习中的大型语言模型
本研究评估了多语言文本处理技术的热门系统 ChatGPT 在 37 种不同的语言中进行的 7 项不同任务的表现,揭示了其在不同 NLP 任务和语言方面的表现与其他模型相比较差,需要进一步的研究来发展更好的模型和了解多语言学习。
- 印度尼西亚语自然语言处理技术(NLP)的历史与发展:印度尼西亚语 NLP 技术、应用及发展的综述
论文概述自然语言处理在印度尼西亚语境下的发展历史,着重研究基本技术、方法和实际应用,包括词干提取、词性标注、情感分析、跨语言信息检索系统、信息提取以及统计机器翻译等,同时探讨了自然语言处理在印度尼西亚语产业和研究中的应用及挑战,提出了未来研 - EMNLP隐喻表达强烈情感的奥秘
研究隐喻与字面表达在情感表达上存在差异的原因,发现隐喻基于更具体的表达方式,因此在情感表达能力上更具优势,并发现字面语言同样可以透过增强具体性来增加情感表达。
- EMNLP传统英文可读性公式比较
该研究为自然语言处理领域做出了贡献,提出了新的英语可读性公式(NERF),重新校准了旧的可读性公式系数,并开发了基于 Python 的程序,以在各种 NLP 项目中广泛应用。
- EMNLP通过层次感知的主题短语生成扩展话题分类
TopicExpan 是一种新的主题分类扩展框架,它结合了基于文本内容和新主题周围的层级关系结构,直接生成新主题相关的术语,实验结果表明,它在两个真实文本语料库中的表现显著优于其他基线方法。
- COLING基于组合短语语义的无监督句子文本相似度
本文针对各种领域但仅需要最少的数据和计算资源的无监督 STS 提出了一种轻量级的 Expectation-Correction (EC) 公式来计算 STS,此方法包括通过组合多个递归 EC 公式来捕捉组合短语语义的 Recursive O - 利用语言模型和变形金刚学习国际象棋
本研究使用基于文本的记号表示来实现棋盘和其位置的表述,随后应用 BERT 模型在 Nim 和国际象棋游戏中实现无监督学习和玩家行为检测。研究结果表明,该模型已经实践证明在 A 类评级水平中已经可以与 Stockfish 进行胜负对抗了。
- 始终牢记目标:研究语义并提高神经词汇替换的性能
本文比较了多种词汇替换方法,使用包括 context2vec、ELMo、BERT、RoBERTa、XLNet 等在内的多种语言模型,并证明注入目标词信息后,能够进一步显著提高现有最佳语言模型的结果。作者还分析了不同模型或注释者给出的目标词和 - ArgRewrite V.2: 一个带标注的论证性修订语料库
ArgRewrite V.2 是一个修订语料库,包含用于自动修订目标预测和标杆的注释的论证性修订,这些修订是在关于自动驾驶汽车的论证性文章的两个循环修订中收集的。
- ELQA: 英文语言问题及答案语料库
本文介绍一个包含 18 万多个有关英语语言的问题和答案的共同数据集,这个数据集可以用于语言学习者的自然语言处理应用,并介绍了以这个数据集为基础的三个任务:1)回答质量分类、2)语义搜索查找相似问题和 3)回答生成,并展示了当前基于 Tran - 语言数据影响上,先驱胜于追随
该研究针对 NLP 应用中大型模型在调试训练数据和解释模型行为时计算影响力的问题,提出了一种名为 TracIn-WE 的技术,该技术基于词嵌入层进行数据影响力分析,能够获得较高的影响力得分,可有效调试。
- MACRONYM:多语言和多领域首字母缩写词提取的大规模数据集
该研究论文主要研究了缩写词的提取及其在自然语言处理应用中的重要性,进一步提出了一种用于多语言和多领域缩写提取的新数据集,并通过实验证明不同语言和不同学习设置下的缩写提取存在独特的挑战和必要的进一步研究。
- 从干净的爬取语料开始 —— 打造优秀语言模型的秘诀
本文介绍了利用冰岛语通用爬虫语料库进行训练的几种语言模型,包括 IceBERT,这些模型在诸多下游任务中均达到了最优表现。通过这些努力,我们证明了经过适当清理的网络爬虫语料库足以实现自然语言处理应用的最佳效果,并且说明使用现有的多语言模型初 - 针对印度语言表示的社交意识偏差测量
本篇论文探讨了语言表示法中出现的灌输的社会偏见,特别是针对印地语语言表示法中种姓和宗教相关的偏见。该研究展示了如何根据地区的历史和文化,将有着独特偏见的语言表示法区分开来,同时强调了当我们建模语言表示法时,必须关注文化和语言学因素以更好地理 - ACL自然语言推理中的标记属性偏差
对 NLP 应用中有害偏差进行报告和提供测试集对于建立对当前问题的强大理解至关重要。通过观察新的标记属性偏差,我们总结了某些向下 NLP 应用中的性别偏差。针对有偏差的词嵌入可能是消除偏差的最具影响力的第一步。通过研究嵌入词汇的内在属性如何 - EMNLP基于理解问答的文本简化
本研究探讨并验证了通过文本简化改善阅读理解相关任务的可行性,创建了被简化过的 SQuAD 数据集 (Simple-SQuAD),并实验表明文本简化对于基于 SQuAD 的问答任务,确实可以提高 2.04% 的精确匹配率和 1.74% 的 F - 自然语言处理的图神经网络综述
本研究综述了基于图形神经网络在自然语言处理中的应用,并提出了一个新的分类(基于图构建、图表示学习和基于图的编码器 - 解码器模型),同时介绍了许多利用 GNN 的 NLP 应用程序,并总结了相应的基准数据集、评估指标和开源代码;最后,讨论了