英语俚语中的简单单词构建模型

ACLApr, 2018

Simple Models for Word Formation in English Slang

Vivek Kulkarni, William Yang Wang

TL;DR本文提出一些生成模型，用于解决英语俚语中三种额外语法字形形成的现象，这些模型表现良好。

Abstract

We propose generative models for three types of extra-grammatical word formation phenomena abounding in english slang: Blends, Clippings, and Reduplicatives. Adopting a →

generative models extra-grammatical word formation english slang data-driven approach word formation

发现论文，激发创造

计算生成俚语的框架

本文介绍了一种基于概率推理和神经对比学习的框架，通过编码与传统语言和语境相关的新颖俚语意义的方式建立一个模型，旨在机器生成俚语，结果表明这种方法不仅优于现有的语言模型，而且更好地预测了 1960 年代到 2000 年代俚语词语使用的历史演变趋势，为自然语言的自动化生成和解释打下了基础。

Feb, 2021

俚语表达方法研究

将不同的表示学习模型和知识资源结合起来，研究下游任务对俚语理解的依赖关系。实验表明，预先在社交媒体数据上训练的模型优于仅针对静态词嵌入的字典的影响。我们的错误分析确定了俚语表示学习的核心挑战，包括词汇表外单词、多义词、变异和注释不一致。

Dec, 2022

走向非正式语言处理：大型语言模型中的俚语知识

通过影视字幕构建了一个用于评估俚语处理的数据集，展示了该数据集在俚语检测和识别地域和历史俚语来源方面的有效性，同时揭示了大型语言模型在该数据集上的性能和微调的潜力。

Apr, 2024

一种简单的联合模型，用于改善上下文神经词形还原

本文介绍了一个简单的神经模型，用于词形还原和形态标记，可以达到 20 种语言的最新结果，并表明联合形态标记和词形还原特别有助于低资源词形还原和形态复杂性较高的语言。

Apr, 2019

英语名词复数的语义属性：来自词向量的启示

使用分布语义学，本文研究了英语名词复数形式的意义聚类，介绍了一种计算方法叫做 CosClassAvg，通过实验比较它与另一种方法 FRACSS 的差异，并验证了 CosClassAvg 方法在语义向量映射中的优越性

Mar, 2022

大语言模型的新概念理解

提出了一个新的基准 SLANG，评估语言模型对于理解互联网上新兴语言趋势的能力，并提出了基于因果推断的方法 FOCUS，它通过研究语言变化的真实例子来增强语言模型对于新短语和用法模式的理解。实证分析表明，基于因果推断的方法在解释互联网俚语和表情包时，准确性和相关性方面优于传统模型。

Jan, 2024

基于语义综合与形态分析的派生词处理

该研究提出了一种新颖的概率模型来捕捉单词形成的分析和合成的含义，利用神经网络的向量组合方法，共同学习单词的形态划分和语义语素的分布式向量，提高了单词的分割准确率和语素 F1 指标 3% 至 5%。

Jan, 2017

学习解释非标准英语单词和短语

利用 15 年的 UrbanDictionary.com 数据，提出了一种基于数据驱动的方法，可以自动解释给定句子中的新的非标准英语表达式。该方法利用神经序列 - 序列模型，通过上下文学习生成解释，利用双编码器方法，即单词级编码器学习上下文表示，字符级编码器学习目标非标准表达式的隐藏表示。该模型可以在一定置信水平下生成新的非标准英语表达式的合理定义。

Sep, 2017

形态学屈折的最小监督

该研究使用少量标记的数据引导标注词形变化，利用不同类型的规律，通过类比词标记和距离对词配对，证明了手工标记许多示例可能是不必要的。

Apr, 2021

语义驱动的俚语解释

本研究提出一种基于语义信息的俚语解释方法 (SSI)，通过考虑候选解释在语境和语义上的适当性，实现了在英语俚语解释方面的最新技术，同时优雅地在缺乏数据的零样本学习和少样本学习中使用。此外，该方法还成功应用于英语俚语的机器翻译中，为自动化解释和翻译非正式语言打开了机会。

May, 2022