跨语言风格比较

EMNLPOct, 2023

Comparing Styles across Languages

Shreya Havaldar, Matthew Pressimone, Eric Wong, Lyle Ungar

TL;DR使用解释框架从多语言语言模型中提取风格差异，比较不同语言之间的风格差异，探索礼貌在四种语言中的变化，进一步评估不同语言类别如何对风格变化做出贡献，并提供人们在全球范围内沟通差异的可解释性见解。

Abstract

Understanding how styles differ across languages is advantageous for training both humans and computers to generate culturally appropriate text. We introduce an explanation framework to extract stylistic differen

styles languages multilingual lms politeness stylistic variations

发现论文，激发创造

风格不是单一变量：跨风格语言理解的案例研究

本文提供了一个新的语料库（xSLUE）以用于句子级跨风格语言理解和评估，并提出了三种跨风格应用程序：分类、相关性和生成，从而帮助探索跨风格研究的有趣未来方向。

Nov, 2019

BERT 是否学习人类感知？通过词汇了解语言风格

本研究通过探究人类感知和机器词汇重要性这两个视角，研究了文本的语言风格对词汇用法的影响，通过收集人类感知数据 Hummingbird 并参考目前常用的 BERT 语言风格分类器，比较了两者对于词汇标签的不同理解。研究表明，对于某些风格，如积极情感和愉悦，人类和机器的识别结果存在显著的重叠，但机器标记某些内容词非风格相关，而人们不能通过这些词汇准确感知对应的风格。

Sep, 2021

StyLEx: 用基于词典的人类感知解释风格

本篇研究介绍了 StyLEx，一种使用人工识别的文体词汇作为预测句子文体的附加信息的模型，它不会牺牲原始并且跨域数据集上的句子级文体预测性能，同时可以提供类似于人类感知的文体词汇解释。

Oct, 2022

文本风格的词汇、句法和语义视角

本研究提出了从词汇、句法和语义三个方面分析个体写作风格的过程，并展示该过程在作者风格分析、作者归属度和情感预测方面的应用，结果表明这种多层次的写作风格分析方法能够量化地模拟文本中的主观性，从而在多个任务上提高定量和定性表现。

Sep, 2019

使用眼动跟踪、标注和语言模型进行文本风格显著性比较研究

本文介绍了一个用于人类对文学文本 (例如礼貌) 处理的眼动数据集 eyeStyliency, 并使用各种方法推导出收集的眼动数据中的样式显着性得分，研究人员探讨了眼动数据与人类注释和基于模型的重要性评分的关系，并发现引人注目的单词添加到提示中通常会提高风格分类的准确性，其中基于眼动和注释的显着单词的准确性最高。

Dec, 2022

最近邻语言模型用于风格可控生成

本文构建并评估了一种基于外部记忆的语言建模方法，利用政治正确、正式性和毒性等属性进行样式控制，结果显示基于样式专用数据存储器的生成性能得到了提高，但仍需在未来的工作中探索预训练数据和特定样式的效果。

Oct, 2022

探究在线社区中的语言风格问题

本文研究社区语言的语言风格，通过分析 3 个社交媒体平台上涉及政治，电视和旅游的 9 个在线社区的 262 个特征来验证社区确实具有独特的风格，并发现语言风格是群体成员身份的良好预测器（F 值为 0.952，准确度为 96.09%），并且相对于仅使用内容预测来说，它对训练数据的减少更有韧性。

Sep, 2022

所有语言的语言模型难度是否相同？

本文使用翻译文本开发了一种公平的跨语言语言模型比较方法，在 21 种语言中展示了复杂的屈折形态是导致不同语言性能差异的原因。

Jun, 2018

计算礼貌的方法以及其在社交因素中的应用

本文提出了一种识别礼貌语言方面的计算框架，使用新的语料库对礼貌的不同方面进行评估，发现礼貌标记符与上下文之间的新互动，然后构建了一个具有领域无关词汇和句法特征的分类器，并通过对维基百科和 Stack Exchange 上的数据进行实验，研究了礼貌与社会权力之间的关系，并对性别和社区的反应进行了初步分析。

Jun, 2013

概念语言相似性的研究：比较与评估

本研究旨在将语言学的特性纳入到自然语言处理（NLP）中，通过基于基本概念的表示来定义语言之间的相似性并将其应用于二元分类任务中的低资源语言研究。

May, 2023