- ACL关于量化语言相似性的可重复性研究:在 URIEL 知识库中缺失值的影响
本研究重点研究的是一个广泛使用的语言学知识库 URIEL,在量化语言相似性方面的方法准确性和可复现性存在问题,尤其在处理缺失值和低资源语言方面存在模糊性,这使得数据库的可靠性受到了影响。
- 多语言基于替代的词义归纳
通过群集将一个多义词的用法分组成对应的几个义项,以发现该多义词的义项是 Word Sense Induction (WSI) 的任务。本研究提出了适用于 100 种语言的多语言替代基础的 WSI 方法,无需或仅需很少调整就能适应不同语言,这 - 对语音情感识别模型的对抗攻击进行系统评估
这项研究评估了深度学习模型在语音情感识别中面临的对抗性攻击问题,发现 CNN-LSTM 模型对对抗示例非常脆弱,且攻击对不同语言和性别的影响差异较小。该研究为提高语音情感识别算法的鲁棒性,设计更有效的攻击、探究可能的防御方法以及加深我们对语 - 多语言语义文本关联度评估
通过挖掘句子之间的深层联系,我们在马拉地语、印地语、西班牙语和英语中探索了语义文本相关性(STR),以在各种学习范式中利用不同的语言模型。结果表明,我们的方法很有效,并且希望在多语言 STR 领域中,特别是对于资源匮乏的语言,继续激发进一步 - 科莫多:探索印度尼西亚地区语言的语言考察
Komodo-7B 是一种 70 亿参数的大型语言模型,能无缝运行于印尼、英语和印尼的 11 种地方语言,比 OpenAI 的 GPT-3.5、Cohere 的 Aya-101、Llama-2-Chat-13B、Mixtral-8x7B-I - IndicVoices:为印度语言构建一个包容性的多语言语音数据集
我们提供了 INDICVOICES 数据集,该数据集包含来自 16237 名发言人的 7348 小时自然和自发的语音,涵盖了 145 个印度地区和 22 种语言。通过本文,我们分享了捕捉印度文化、语言和人口多样性的旅程,为数据收集提供了标准 - 通用依存句法的组合类型语义
通过在不同语言之间建立语义和句法的通用连接,并利用跨语言的并行句法结构,我们引入了 UD Type Calculus—— 一种构成性、有原则且与语言无关的语义类型和逻辑形式系统。我们解释了 UD Type Calculus 的基本特征,这些 - COLING主成分分析作为贝叶斯语言地球生物进化复原的健全性检查
提出了一种简单的方法,通过将重建的语言家族树投影到主成分分析的空间中,有效地可视化了异常,特别是在游走的形式中,以理解这种假设被破坏的程度对于验证语言起源演化推断的准确性至关重要。
- 跨语言文档表征的映射转换器增强嵌入
使用 Transformer Leveraged Document Representations(TLDRs)在不同语言之间实现文档表示,并通过评估多个预训练的多语言 Transformer 模型确定最佳映射方法,结果显示跨语言表示通过预 - 多语种是多语种 LLM
通过对 101 种语言进行全面分析,评估了大型语言模型(LLMs)的多语言能力,并将具有相似特征的语言分类为四个不同的象限,为调整这些语言提供可操作的指导。通过深入研究每个象限,阐明了其分类背后的理由,并提出了改进 LLMs 的多语言性能的 - 遮蔽硬关注变形器和布尔 RASP 准确识别无星语言
Transformer 编码器通过硬注意力和严格的未来掩码来识别语言,其所识别的语言类是无星自由语言;添加位置嵌入可以扩展所识别的语言类到其他研究领域。通过布尔 RASP 技术,我们将 Transformer 与一阶逻辑、时间逻辑和代数自动 - EMNLP跨语言风格比较
使用解释框架从多语言语言模型中提取风格差异,比较不同语言之间的风格差异,探索礼貌在四种语言中的变化,进一步评估不同语言类别如何对风格变化做出贡献,并提供人们在全球范围内沟通差异的可解释性见解。
- 世界语言中存在多种进化压力塑造的相同辅音回避
语言的演化过程中,相同辅音的连续出现并不常见,这主要是由于生物力学和认知上的困难。较容易出现相同辅音的词可能比其他词更常见,而词形变异过程往往倾向于去除相同辅音的连续出现。然而,带有相同辅音的词并不比其他词更容易消失,而是更常被取代。这些发 - 跨语言和方言中的亲属词汇多样性
通过两个大规模案例研究验证了一种方法,用于丰富计算词典中与语言多样性相关的内容。这种方法通过研究亲属称谓的领域,在七个阿拉伯方言和三种印度尼西亚语言中证实了多样性的存在。结果为丰富之前对亲属称谓的语言学研究提供了扩展,并揭示了即使在语言和文 - MM语义通道均衡器:多用户语义通信中的语言不匹配建模
本篇论文探讨了多用户语义通信系统中由于不同语言导致的语义干扰问题,并提出了一种新的语义通道均衡器来解决这个问题。实验结果表明,该语义通道均衡器在操作复杂度和传输准确性方面优于传统方法。
- 跨语言跨年龄组适应低资源老年人语音情感识别
本研究探讨了情感识别在不同语言和年龄组之间的可转移性,结果表明不同的语言和年龄组需要特定的音频特征,并指出数据增强可以提高模型的准确性。
- ACL评估自然语言推理在标注数据有限的语言下对仇恨言论检测的有效性
本研究探讨了自然语言推理(NLI)模型对于在仅有少量标记数据的情况下,提高仇恨言论检测性能的可行性,并提出了一组针对存在极少标记训练数据的语言的仇恨言论检测推荐方法。
- ACL1335 种语言中的跨语言概念化研究
使用 Conceptualizer 方法对 1335 种语言中 83 个概念做出对齐,并且证明具有概念的跨语言稳定性,提出了一种语言之间的概念相似度的方法。
- 大语言模型中涌现能力的潜空间理论
本文研究表明,通过使用大数据和大模型训练的 LLMs 可以准确评估语言的边际分布,并利用这一分布进行贝叶斯推理来分析语言间的稀疏结构,从而提高语言理解、上下文学习、思维链引导和有效指导的能力。
- 第 38 届国际逻辑编程大会论文集
ICLP 是呈现逻辑编程研究的卓越国际会议,涵盖基础、语言、实现和应用,并欢迎相关范式和合作。