使用带注释的文学方言语料库检验语言建模假设

Oct, 2024

使用带注释的文学方言语料库检验语言建模假设

Examining Language Modeling Assumptions Using an Annotated Literary Dialect Corpus

Craig Messner, Tom Lippincott

TL;DR本研究解决了对19世纪美国文学正字法变异的理解不足，提出了一个带有方言标签的语料库，以进行计算实验。该论文展示了通过不同的标记化方案，模型对正字法信息的提取方式受到显著影响，揭示了“方言效应”在多种语言渠道中如何表现并影响结果。

Abstract

We present a dataset of 19th century American literary orthovariant tokens with a novel layer of human-annotated dialect group tags designed to serve as the basis for computational experiments exploring literarily meaningful Orthographic Variation. We perform an initial broad set of ex

发现论文，激发创造

从舞台到页面：虚构语言独特性的无语言自举测量方法

本文以戏剧作品为例，分析了角色特点的语言风格区别，提出了两种新的分析独特性的方法，并应用于法语、德语、俄语和莎士比亚作品的语料库中，以探讨不同语言和时期的比较分析。研究发现，女性角色在直接的叙述和情感主题上的语言风格更具独特性。这一发现为未来更深入的研究提供了思路。

Jan, 2023

对齐问题

大型语言模型与人类价值观的结构对齐、用户与模型之间的相互作用以及语言的交际导向性是当前研究的主要关注点。

Dec, 2023

使用神经编辑距离模型将正字文言文词汇配对为标准等价词

我们提供了一个新颖的语料库，其中包含19世纪美国文学作品中的正字异构词，并且用其对应的‘标准’词对进行了注释。我们训练了一组神经编辑距离模型来将这些变体与它们的标准形式进行配对，并将这些模型的性能与训练于L2英语学习者拼写错误文本的神经编辑距离模型进行了比较。最后，我们分析了这些模型在不同负样本生成策略下的相对性能，并对文学正字异构变化对字符串配对方法学的独特挑战提出了总结性的观点。

Jan, 2024

通过叙述方式检测语言模型中的模式坍塌

研究发现，较早的大型语言模型在与虚拟作者的对齐中存在模式崩溃现象，导致无法多角度模拟，而通过指导调整和人类反馈强化学习所得的对齐模型保留了模拟任意虚拟作者的能力，对于社会学模拟研究具有重要意义。

Feb, 2024

我们正在呼唤干预：对语言模型在不同类型语言变异中的适应性进行深入研究

通过一系列干预和实验证明，我们可以理解语言模型对于存在语言变异（例如非标准或方言文本）的文本的适应性。在包括字符级、子词级和词级变化的语言变异方面进行干预，通过不同规模和性质的训练数据进行语言模型适应，我们对于语言变异对于语言模型的困难有了重要的认识。我们的发现对于方言自然语言处理和增强语言模型对语言变异的鲁棒性的未来研究有着重要的启示。我们公开提供了可以应用于任何英文文本数据的干预代码。

Apr, 2024

模型化正字变化提升尼日利亚商业英语的NLP性能

试验展示了将来自其他语料库的真实文本与合成的正字法变异相结合以增强训练数据的益处，在情感分析方面效果提升了2.1分，英文翻译方面效果提升了1.4 BLEU分。

Apr, 2024

奥克西唐语方言的正字法变异建模

通过对多种奥克西唐方言的数据进行微调，我们在本研究中成功地对一种多语种模型进行了评估，结果显示该模型能够较好地表示这些方言。我们还通过编制一个包含四种奥克西唐方言的平行词汇表进行评估，结果显示模型根据方言之间的表层相似性加强了表示。当进一步对模型进行词性标注和通用依存分析微调时，其性能对方言变异是稳定的，即使仅使用单个方言的词性数据进行训练。我们的发现表明，大型多语种模型可以在预处理过程中最小化拼写规范化的需求。

Apr, 2024

变异主义：探索书面语言数据中的多元化变异和偏见

探索和理解语言数据是处理人类语言的所有领域的基础阶段，Variationist是一个高度模块化、可扩展且与任务无关的工具，通过多个变量、语言单位和多样的度量方式进行无缝检查和可视化语言变异和偏见，实现了30多种变量类型-语义组合的五维交互式图表的创建，帮助研究人员轻松回答特定的研究问题或揭示语言数据中不希望的关联。

Jun, 2024

可爱的：测量大型语言模型对其符号的理解

本研究解决了大型语言模型（LLMs）在处理文本时对正字法知识的理解程度这一问题。通过提出新的基准测试CUTE，论文设计了一系列任务来评估LLMs的正字法知识，并发现尽管大多数LLMs能够识别其符号的拼写，但在有效利用这些信息进行文本操作方面存在不足，从而质疑了这种知识的可推广性。

Sep, 2024

可爱：测量大型语言模型对其标记的理解

本文研究大型语言模型（LLMs）在拼写知识方面的能力，提出了一个新基准CUTE来评估这些模型的正字法知识。结果显示，尽管大多数LLMs能识别其标记的拼写，但在有效利用这些信息编辑文本方面存在不足，这引发了关于其知识可推广性的质疑。

Sep, 2024