- 揭示多样性:对印度 AI 研究领域的综述
该综述论文提供了印度语系大型语言模型(LLM)研究方向的全面概述,包括 LLM 的发展、现有 LLM 的微调、语料库的开发、基准测试和评估以及围绕特定技术、工具和应用的出版物。该论文指出了印度语系的挑战,如数据有限、缺乏标准化和语言复杂性, - Qabas: 一个开源的阿拉伯语词典数据库
我们介绍了 Qabas,这是一个新颖的开源阿拉伯词典,用于自然语言处理应用。Qabas 综合了 110 个词典,将词条通过链接的方式组合在一起,并且还与 12 个形态标注的语料库链接,使其成为首个与词典和语料库进行链接的阿拉伯词典。Qaba - 稀疏特斯林机器:活动文字的稀疏表示
这篇论文介绍了稀疏 Tsetlin 机器(STM),一种高效处理稀疏数据的新型 Tsetlin 机器(TM)。通过引入活跃文字(AL),STM 可以集中关注当前数据表示中实际有贡献的文字,显著减少内存占用和计算时间,同时展现了有竞争力的分类 - COLING探索语言模型中的内部数理能力:ALBERT 的研究案例
该研究提出了一种方法来研究 Transformer 语言模型内部如何表示数字数据,并使用该方法分析了 ALBERT 语言模型系列。通过主成分分析(PCA),我们提取这些模型用于表示数字和序数的令牌的学习嵌入,PCA 结果显示不同大小、训练和 - 推进阿拉伯语词网:提升内容质量
高质量的词网(WordNets)对于依赖此类资源的 NLP 应用程序来说非常重要。为了解决诸如词汇错误、缺失的释义和例句,以及语言形态和语义的不完善等问题,我们对阿拉伯语 WordNet 进行了重大修订,更新了超过 58% 的同义词集。通过 - 生物医学和健康信息学中的大型语言模型:一项文献计量学综述
大型语言模型(LLMs)已经迅速成为生物医学和健康信息学(BHI)中重要的工具,通过检查 2022 年至 2023 年的研究文章和合作网络,本文献计量回顾旨在全面了解 LLMs 在 BHI 中的应用情况。它进一步探讨了 LLMs 如何改善医 - QAQ: LLM KV 缓存的质量自适应量化
提出了 QAQ,一种针对 KV 缓存的质量自适应量化方案,通过集成专用的异常值处理和改进的注意力感知方法,QAQ 在对模型性能几乎没有影响的情况下,实现了 KV 缓存大小最大 10 倍的压缩比,显著减少了部署 LLM 的实际困境,并为更长上 - COLING自然语言处理中的情感分析:趋势、差距和未来发展路线图
对自然语言处理领域的情感分析进行全面综述,讨论任务定义、重要情感框架、文化因素的主观性考虑以及 NLP 应用,并指出研究中存在的四个缺陷。
- 大语言模型中上下文长度扩展技术的什么、为什么和如何 - 详细调查
大语言模型的出现在自然语言处理领域具有重大突破,但是它们在上下文长度的推断方面常常存在限制。了解和扩展大语言模型的上下文长度对于提升其在各种自然语言处理应用中的性能至关重要。本综述论文将深入探讨为什么扩展上下文长度以及先进技术可能带来的潜在 - 深度学习中的混合和集成模型在自然语言处理中的综述
该研究综述了自然语言处理中混合和集成深度学习模型的广泛探索,揭示了它们在情感分析、实体识别、机器翻译、问答、文本分类、生成、语音识别、摘要生成和语言建模等多种任务中具有的变革潜力。研究系统地介绍了每个任务,从循环神经网络 (RNNs) 到基 - ACLBERTwich: 扩展 BERT 模型用于建模方言化和嘈杂文本
本文介绍了一种新颖的方法,即在 BERT 的编码器堆栈中插入额外的编码器层,用于对嘈杂文本进行遮蔽语言建模,以促进对方言文本的零转移能力,并减少单词与其噪声对应词之间的嵌入空间距离。
- 公正与可解释性之间的相互作用
建立可靠且值得信赖的自然语言处理应用程序,模型需要在不同人群之间既公平又可解释。本研究通过两个文本分类数据集进行实验证明,公平和可解释性并不总是相互影响的,因此需要同时考虑这两个目标,以获得更好的结果。
- EMNLPGD-COMET:一种地理多样化常识推理模型
通过人类评估和地理多样性任务的外在评估,我们展示了 GD-COMET 的有效性,证明其具有捕捉和生成跟文化相关的常识知识的潜力,从而有望在 NLP 应用中产生广泛影响,并有助于使 NLP 更加包容。
- EMNLP能否借助词义分布检测词义的语义变化?
通过比较两个不同时期收集的语料库中目标词义的分布,利用预训练的静态感知嵌入自动标注每个语料库中目标词出现的感知 id,并使用不同的差异或距离度量来量化目标词在两个给定语料库中的语义变化,实验结果在 SemEval 2020 任务 1 数据集 - EMNLP交换与预测 - 通过上下文交换预测语义变化跨语料库中的词汇
使用预训练的遮蔽语言模型(MLM)中获取的具有上下文的词嵌入来表示在两个不同的文本语料中给定目标词 w 的含义,并通过上下文交换方法准确预测了四种语言(英语,德语,瑞典语和拉丁语)以及不同时间跨度下(超过 50 年和约 5 年)词义的语义变 - 利用大型语言模型进行少样本非语境化
通过一个大型语言模型,我们提出了一种使用少数样例的去语境化方法,并展示了该方法在多个领域上仅仅使用一小组示例就可以取得可行的性能表现。
- 大型语言模型是否仍存在纠正问题?
通过两个实验证明纠错在大型语言模型中的重要性,以及其对自然语言处理和 NLP 应用的影响。
- 罗马尼亚学术词汇表的自动提取:数据和方法
本研究介绍了生成罗马尼亚学术词汇表(Ro-AWL)的方法和数据,Ro-AWL 结合语料库、计算语言学和二语学术写作方法生成,可用于罗马尼亚语的教学、研究和自然语言处理应用。
- 使用迁移学习和基于 BERT 模型的方法对波斯语语义角色进行标注
本研究提出了一种端到端的 SRL 方法,它不仅消除了特征提取的需要,而且在实际情况下面对新样本的时候也表现出优于现有方法 16% (83.16) 的准确性改进。
- 民主化扩散语言模型
本文旨在提出一种去中心化的扩散语言模型(DDLM),该模型基于连续性扩散的范畴数据(CDCD)框架,使用 C4 数据集进行简化的培训过程,并提出一种新颖的早期退出策略,通过 GLUE 基准研究 DDLM 的知识转移能力。