英语俚语中的简单单词构建模型
本文介绍了一种基于概率推理和神经对比学习的框架,通过编码与传统语言和语境相关的新颖俚语意义的方式建立一个模型,旨在机器生成俚语,结果表明这种方法不仅优于现有的语言模型,而且更好地预测了 1960 年代到 2000 年代俚语词语使用的历史演变趋势,为自然语言的自动化生成和解释打下了基础。
Feb, 2021
将不同的表示学习模型和知识资源结合起来,研究下游任务对俚语理解的依赖关系。实验表明,预先在社交媒体数据上训练的模型优于仅针对静态词嵌入的字典的影响。我们的错误分析确定了俚语表示学习的核心挑战,包括词汇表外单词、多义词、变异和注释不一致。
Dec, 2022
通过影视字幕构建了一个用于评估俚语处理的数据集,展示了该数据集在俚语检测和识别地域和历史俚语来源方面的有效性,同时揭示了大型语言模型在该数据集上的性能和微调的潜力。
Apr, 2024
本文介绍了一个简单的神经模型,用于词形还原和形态标记,可以达到 20 种语言的最新结果,并表明联合形态标记和词形还原特别有助于低资源词形还原和形态复杂性较高的语言。
Apr, 2019
使用分布语义学,本文研究了英语名词复数形式的意义聚类,介绍了一种计算方法叫做 CosClassAvg,通过实验比较它与另一种方法 FRACSS 的差异,并验证了 CosClassAvg 方法在语义向量映射中的优越性
Mar, 2022
提出了一个新的基准 SLANG,评估语言模型对于理解互联网上新兴语言趋势的能力,并提出了基于因果推断的方法 FOCUS,它通过研究语言变化的真实例子来增强语言模型对于新短语和用法模式的理解。实证分析表明,基于因果推断的方法在解释互联网俚语和表情包时,准确性和相关性方面优于传统模型。
Jan, 2024
该研究提出了一种新颖的概率模型来捕捉单词形成的分析和合成的含义,利用神经网络的向量组合方法,共同学习单词的形态划分和语义语素的分布式向量,提高了单词的分割准确率和语素 F1 指标 3% 至 5%。
Jan, 2017
利用 15 年的 UrbanDictionary.com 数据,提出了一种基于数据驱动的方法,可以自动解释给定句子中的新的非标准英语表达式。该方法利用神经序列 - 序列模型,通过上下文学习生成解释,利用双编码器方法,即单词级编码器学习上下文表示,字符级编码器学习目标非标准表达式的隐藏表示。该模型可以在一定置信水平下生成新的非标准英语表达式的合理定义。
Sep, 2017
本研究提出一种基于语义信息的俚语解释方法 (SSI),通过考虑候选解释在语境和语义上的适当性,实现了在英语俚语解释方面的最新技术,同时优雅地在缺乏数据的零样本学习和少样本学习中使用。此外,该方法还成功应用于英语俚语的机器翻译中,为自动化解释和翻译非正式语言打开了机会。
May, 2022