文本风格的词汇、句法和语义视角
本文提出了一种样式感知神经模型,以从三个样式水平对文档信息进行编码,并在作者归属领域进行评估,实验结果表明,相对于文献中的基线方法,从所有三个样式水平编码文档信息具有显著的优势,实验数据来源于四个基准数据集。
Sep, 2019
本文提供了一个新的语料库(xSLUE)以用于句子级跨风格语言理解和评估,并提出了三种跨风格应用程序:分类、相关性和生成,从而帮助探索跨风格研究的有趣未来方向。
Nov, 2019
本文通过采用基于轨迹的风格估计算法,提出了一种新的特征表示法,成功地解决了作者风格识别领域中遇到的主题影响、无法有效鉴别大量作者和需要大量多样化数据的问题,并在跨领域的场景中筛选超过 27,000 个作者和 1.4 万个样本进行了作者归属实验。实验结果表明,该算法对负面影响具有免疫力,并成为风格研究的一个优秀选择。最后,通过以生理人类特征(如年龄)为基础进行定性分析,验证了其认知特征的表达能力。
Jun, 2022
本篇研究介绍了 StyLEx,一种使用人工识别的文体词汇作为预测句子文体的附加信息的模型,它不会牺牲原始并且跨域数据集上的句子级文体预测性能,同时可以提供类似于人类感知的文体词汇解释。
Oct, 2022
使用解释框架从多语言语言模型中提取风格差异,比较不同语言之间的风格差异,探索礼貌在四种语言中的变化,进一步评估不同语言类别如何对风格变化做出贡献,并提供人们在全球范围内沟通差异的可解释性见解。
Oct, 2023
本研究通过探究人类感知和机器词汇重要性这两个视角,研究了文本的语言风格对词汇用法的影响,通过收集人类感知数据 Hummingbird 并参考目前常用的 BERT 语言风格分类器,比较了两者对于词汇标签的不同理解。研究表明,对于某些风格,如积极情感和愉悦,人类和机器的识别结果存在显著的重叠,但机器标记某些内容词非风格相关,而人们不能通过这些词汇准确感知对应的风格。
Sep, 2021
本研究采用强化学习框架,结合基于 transformer 的语言模型的生成能力,通过引入作者的多维词汇偏好,成功地实现一定目标作者属性的诱导,并展示了该方法的优越性。
Oct, 2020
我们开发了一种定量方法来评估美国诗歌的风格,并将诗集可视化以相互关联。我们通过定性诗歌评论指导我们开发了分析各种拼字、句法和音素特征的度量标准,这些特征用于从诗歌的多层潜在结构中发现全面的风格信息,并计算诗歌之间的距离。可视化提供了对分析组件的便捷访问。我们在几个诗歌集上展示了我们的方法,显示出它比传统的词出现特征在典型文本分析算法中使用的方法更好地描绘了诗歌风格。我们的方法在学术研究文本、对诗歌的直观个人反应的研究以及根据读者喜爱的诗歌进行推荐方面具有潜在的应用。
Oct, 2023
通过 SemStyle 模型,利用自然语言处理技术和语义框架生成语义和风格相符且与图片语义相关的题注,为从丰富的网络语言数据中学习更丰富的图像描述提供可能性。
May, 2018