俚语表达方法研究

Dec, 2022

A Study of Slang Representation Methods

Aravinda Kolla, Filip Ilievski, Hông-Ân Sandlin, Alain Mermoud

TL;DR将不同的表示学习模型和知识资源结合起来，研究下游任务对俚语理解的依赖关系。实验表明，预先在社交媒体数据上训练的模型优于仅针对静态词嵌入的字典的影响。我们的错误分析确定了俚语表示学习的核心挑战，包括词汇表外单词、多义词、变异和注释不一致。

Abstract

Considering the large amount of content created online by the minute, slang-aware automatic tools are critically needed to promote social good, and assist →

slang-aware automatic tools social good policymakers moderators representation learning models

发现论文，激发创造

走向非正式语言处理：大型语言模型中的俚语知识

通过影视字幕构建了一个用于评估俚语处理的数据集，展示了该数据集在俚语检测和识别地域和历史俚语来源方面的有效性，同时揭示了大型语言模型在该数据集上的性能和微调的潜力。

Apr, 2024

计算生成俚语的框架

本文介绍了一种基于概率推理和神经对比学习的框架，通过编码与传统语言和语境相关的新颖俚语意义的方式建立一个模型，旨在机器生成俚语，结果表明这种方法不仅优于现有的语言模型，而且更好地预测了 1960 年代到 2000 年代俚语词语使用的历史演变趋势，为自然语言的自动化生成和解释打下了基础。

Feb, 2021

大语言模型的新概念理解

提出了一个新的基准 SLANG，评估语言模型对于理解互联网上新兴语言趋势的能力，并提出了基于因果推断的方法 FOCUS，它通过研究语言变化的真实例子来增强语言模型对于新短语和用法模式的理解。实证分析表明，基于因果推断的方法在解释互联网俚语和表情包时，准确性和相关性方面优于传统模型。

Jan, 2024

语义驱动的俚语解释

本研究提出一种基于语义信息的俚语解释方法 (SSI)，通过考虑候选解释在语境和语义上的适当性，实现了在英语俚语解释方面的最新技术，同时优雅地在缺乏数据的零样本学习和少样本学习中使用。此外，该方法还成功应用于英语俚语的机器翻译中，为自动化解释和翻译非正式语言打开了机会。

May, 2022

英语俚语中的简单单词构建模型

本文提出一些生成模型，用于解决英语俚语中三种额外语法字形形成的现象，这些模型表现良好。

Apr, 2018

社交媒体上的误导性关键字和隐含滥用语：显而易见的背后

该研究分析了数据集构建到模型行为的关键词对在自动检测滥用语言方面的影响，着重于模型在缺少强烈指示性关键词的情况下漏报滥用和在存在这些关键词的情况下误报非滥用的问题，并提供解决这三个问题的未来研究建议。

May, 2022

生成词义表示的简单高效方法

本文介绍了一种简单的模型，它可以代表多义词的不同含义，有效地区分单词的语义，并保证计算效率。

Dec, 2014

社交媒体中的社会语用意义对比学习

本文提出了一种学习任务无关的表示法，可用于广泛的社会语用任务，如情感识别、仇恨言论、幽默和讽刺，它在领域内和领域外的数据上均优于其他对比学习框架。

Mar, 2022

社交媒体文本中包含表情符号、话题标签和俚语等非正式语言是否影响情感分析模型的性能？

研究发现，社交媒体文本中使用表情符号和俚语等非正式语言对情感分析模型的表现具有有限的影响，但将表情符号数据整合到模型中可以稍微提高准确性。

Jan, 2023

自动规范混合语言社交媒体文本中的单词变体

本文研究了如何通过利用词的上下文特性和分布式表征来处理混合代码数据中单词的不同变体，并表明这种预处理方式可以提高最先进的词性标注和情感分析任务的性能。

Apr, 2018