使用跨语言词向量检测印度 14 种语言的同源词,通过知识图谱生成上下文特征表示以提高同源词检测方法,并在 12 种印度语言和 2 种新语言上评估此方法,获得最高 18% 的 F-score 和 2.76 BLEU 的 NMT 改进,最后公开代码和数据集。
Dec, 2021
该研究通过分析数据集,探讨了大型语言模型在回答非英语母语使用者的问题时是否会产生性能偏差,结果发现与母语使用者相比,非英语母语使用者在与语言模型的互动中会获得更低质量甚至事实错误的回答。
Jun, 2024
研究发现,非母语人士在处理口语时存在困难,导致其在词汇记忆的语音编码上不够准确,本研究使用计算模型模拟语音学习,发现有些非母语人士的口音知觉可能是导致这种困难的原因之一。
Jan, 2021
双语者的码切(两种语言混合)为何发生?本文通过使用三种语言对五个大型数据集进行更全面、更细致的研究与探讨,以更加清晰地解释触发假设。实验证明,同时存在于双语者心理词汇库中的词确实能触发码切现象,并且码切的倾向取决于触发词距离码切点的远近,以及触发词在码切前还是码切后出现,但不取决于触发词的词源。因此,本研究提供了关于词汇触发词与码切之间关系的强有力、可靠的基于证据的证实。
Aug, 2023
通过探索 NLS 与原型性之间的相关性,本研究考察了分析 NLS 背后的语义动机和推导性的可能性,并设计了一系列创新的方法和程序来解决这个重要但很少被探索的现象。
May, 2024
研究探讨了语言接触中主导语言对被介入语言的影响,通过使用三种方法(其中包括两种传统的序列比较方法和一种机器学习方法)在拉丁美洲七种常常和西班牙语有大量交流和借词的语言中测试新型的词汇借用检测方法,并通过检测中的误差反映出通过考虑来自受体语言不同意义的捐赠词汇可以大大提高借贷检测的精度。
Feb, 2023
本文提出了一种新的方法,利用人类阅读者的凝视行为提取认知特征,用于自动检测同源词,并通过使用搜集到的和预测的视线行为数据,证明该方法可以帮助提高同源词检测任务的性能提高 10%,相比之前的方法预测视线行为数据的性能提高了 12%。
该研究提出一种计算模型来研究母语者较易发现其母语的讲话者的语言熟悉度效应,并发现语言家族间的语言距离会对该效应产生影响。
Jun, 2022
本研究通过英语作为第二语言文本中的结构特征和母语语言的类型学特征之间的相似性,提供了支持语言相似性跨语言转移的实证证据,并利用这一发现,在不依赖类型学资源的情况下,直接从 ESL 文本中恢复母语类型学相似性结构,并以无监督的方式执行对目标语言的类型学特征预测。我们的方法在类型学预测任务上取得了 72.2%的准确度,具有与依赖类型学资源的等效方法相当的竞争力。
Apr, 2014
本文介绍了如何通过共分化现象的利用,建立跨语言数据集,以分析其在精神语言学、认知科学和多语言自然语言处理中的潜力,并在研究中发现了属于不同语言家族的元音和音素的显着相似性。
Jun, 2023