通过影视字幕构建了一个用于评估俚语处理的数据集,展示了该数据集在俚语检测和识别地域和历史俚语来源方面的有效性,同时揭示了大型语言模型在该数据集上的性能和微调的潜力。
Apr, 2024
本文介绍了一种基于概率推理和神经对比学习的框架,通过编码与传统语言和语境相关的新颖俚语意义的方式建立一个模型,旨在机器生成俚语,结果表明这种方法不仅优于现有的语言模型,而且更好地预测了 1960 年代到 2000 年代俚语词语使用的历史演变趋势,为自然语言的自动化生成和解释打下了基础。
Feb, 2021
提出了一个新的基准 SLANG,评估语言模型对于理解互联网上新兴语言趋势的能力,并提出了基于因果推断的方法 FOCUS,它通过研究语言变化的真实例子来增强语言模型对于新短语和用法模式的理解。实证分析表明,基于因果推断的方法在解释互联网俚语和表情包时,准确性和相关性方面优于传统模型。
Jan, 2024
本研究提出一种基于语义信息的俚语解释方法 (SSI),通过考虑候选解释在语境和语义上的适当性,实现了在英语俚语解释方面的最新技术,同时优雅地在缺乏数据的零样本学习和少样本学习中使用。此外,该方法还成功应用于英语俚语的机器翻译中,为自动化解释和翻译非正式语言打开了机会。
May, 2022
本文提出一些生成模型,用于解决英语俚语中三种额外语法字形形成的现象,这些模型表现良好。
Apr, 2018
该研究分析了数据集构建到模型行为的关键词对在自动检测滥用语言方面的影响,着重于模型在缺少强烈指示性关键词的情况下漏报滥用和在存在这些关键词的情况下误报非滥用的问题,并提供解决这三个问题的未来研究建议。
本文介绍了一种简单的模型,它可以代表多义词的不同含义,有效地区分单词的语义,并保证计算效率。
Dec, 2014
本文提出了一种学习任务无关的表示法,可用于广泛的社会语用任务,如情感识别、仇恨言论、幽默和讽刺,它在领域内和领域外的数据上均优于其他对比学习框架。
Mar, 2022
研究发现,社交媒体文本中使用表情符号和俚语等非正式语言对情感分析模型的表现具有有限的影响,但将表情符号数据整合到模型中可以稍微提高准确性。
Jan, 2023
本文研究了如何通过利用词的上下文特性和分布式表征来处理混合代码数据中单词的不同变体,并表明这种预处理方式可以提高最先进的词性标注和情感分析任务的性能。