文本风格的词汇、句法和语义视角

Sep, 2019

文本风格的词汇、句法和语义视角

A Lexical, Syntactic, and Semantic Perspective for Understanding Style in Text

Gaurav Verma, Balaji Vasan Srinivasan

TL;DR本研究提出了从词汇、句法和语义三个方面分析个体写作风格的过程，并展示该过程在作者风格分析、作者归属度和情感预测方面的应用，结果表明这种多层次的写作风格分析方法能够量化地模拟文本中的主观性，从而在多个任务上提高定量和定性表现。

Abstract

With a growing interest in modeling inherent subjectivity in natural language, we present a linguistically-motivated process to understand and analyze the writing style of individuals from three perspectives: lexical

writing style lexical syntactic semantic multi-level analysis

发现论文，激发创造

具有风格意识的神经模型及其在作者归属方面的应用

本文提出了一种样式感知神经模型，以从三个样式水平对文档信息进行编码，并在作者归属领域进行评估，实验结果表明，相对于文献中的基线方法，从所有三个样式水平编码文档信息具有显著的优势，实验数据来源于四个基准数据集。

Sep, 2019

风格不是单一变量：跨风格语言理解的案例研究

本文提供了一个新的语料库（xSLUE）以用于句子级跨风格语言理解和评估，并提出了三种跨风格应用程序：分类、相关性和生成，从而帮助探索跨风格研究的有趣未来方向。

Nov, 2019

TraSE：从认知科学的角度来解决作者风格问题

本文通过采用基于轨迹的风格估计算法，提出了一种新的特征表示法，成功地解决了作者风格识别领域中遇到的主题影响、无法有效鉴别大量作者和需要大量多样化数据的问题，并在跨领域的场景中筛选超过 27,000 个作者和 1.4 万个样本进行了作者归属实验。实验结果表明，该算法对负面影响具有免疫力，并成为风格研究的一个优秀选择。最后，通过以生理人类特征（如年龄）为基础进行定性分析，验证了其认知特征的表达能力。

Jun, 2022

StyLEx: 用基于词典的人类感知解释风格

本篇研究介绍了 StyLEx，一种使用人工识别的文体词汇作为预测句子文体的附加信息的模型，它不会牺牲原始并且跨域数据集上的句子级文体预测性能，同时可以提供类似于人类感知的文体词汇解释。

Oct, 2022

跨语言风格比较

使用解释框架从多语言语言模型中提取风格差异，比较不同语言之间的风格差异，探索礼貌在四种语言中的变化，进一步评估不同语言类别如何对风格变化做出贡献，并提供人们在全球范围内沟通差异的可解释性见解。

Oct, 2023

BERT 是否学习人类感知？通过词汇了解语言风格

本研究通过探究人类感知和机器词汇重要性这两个视角，研究了文本的语言风格对词汇用法的影响，通过收集人类感知数据 Hummingbird 并参考目前常用的 BERT 语言风格分类器，比较了两者对于词汇标签的不同理解。研究表明，对于某些风格，如积极情感和愉悦，人类和机器的识别结果存在显著的重叠，但机器标记某些内容词非风格相关，而人们不能通过这些词汇准确感知对应的风格。

Sep, 2021

将风格化的词汇偏好纳入生成式语言模型中

本研究采用强化学习框架，结合基于 transformer 的语言模型的生成能力，通过引入作者的多维词汇偏好，成功地实现一定目标作者属性的诱导，并展示了该方法的优越性。

Oct, 2020

美国诗歌中的风格的计算方法

我们开发了一种定量方法来评估美国诗歌的风格，并将诗集可视化以相互关联。我们通过定性诗歌评论指导我们开发了分析各种拼字、句法和音素特征的度量标准，这些特征用于从诗歌的多层潜在结构中发现全面的风格信息，并计算诗歌之间的距离。可视化提供了对分析组件的便捷访问。我们在几个诗歌集上展示了我们的方法，显示出它比传统的词出现特征在典型文本分析算法中使用的方法更好地描绘了诗歌风格。我们的方法在学术研究文本、对诗歌的直观个人反应的研究以及根据读者喜爱的诗歌进行推荐方面具有潜在的应用。

Oct, 2023

写作风格感知的文档级事件抽取

事件提取模型针对多领域文档的写作风格，提出了一个与上下文相关的监督机制来建模文档中的事件结构信息，结果表明该方法能够较好地捕捉这种写作风格的模式。

Jan, 2022

SemStyle: 使用非对齐文本学习生成风格化图像标题

通过 SemStyle 模型，利用自然语言处理技术和语义框架生成语义和风格相符且与图片语义相关的题注，为从丰富的网络语言数据中学习更丰富的图像描述提供可能性。

May, 2018