特朗普最具代表性推文的识别

Sep, 2019

The Trumpiest Trump? Identifying a Subject's Most Characteristic Tweets

Charuta Pethe, Steven Skiena

TL;DR该研究使用名人推文数据集，将文本进行作者检测和特征化评分，从而研究推文的代表性与受欢迎程度之间的相关性。结果显示，这些评分与推文的赞、回复和转发数之间存在显著的相关性。

Abstract

The sequence of documents produced by any given author varies in style and content, but some documents are more typical or representative of the source than others. We quantify the extent to which a given short text is characteristic of a specific person, using a dataset of tweets from

发现论文，激发创造

通过元属性预测任务解释推文表示中的句法和社交元素

本研究对推特文本表示方法的核心属性进行评估和分析，旨在打开社交媒体文章向量表示的黑匣子，以便更好地理解这些方法为文本编码的方式以及其表现的能力，以有助于社交媒体信息处理的应用。

Nov, 2016

社交媒体中政治关注的两种计算模型

本文介绍了两个计算模型，一个是有监督分类器，一个是无监督主题模型，以自动区分政界人士在社交媒体上发布的内容的话题，是政治传播和社交媒体研究的有效、廉价的计算工具。

Sep, 2019

基于文本的理想点

本文介绍了一种基于文本的理想点模型（TBIP），通过分析议员的演讲、推文等文本来量化其政治立场。研究表明，该模型能够将议员按党派划分，并学习到可解释的政治主题，并推断出与基于选票的理想点接近的理想点。此外，TBIP 可以估计任何撰写政治文本的人的理想点，包括非投票行为者，并用于研究 2020 年民主党总统候选人的推文，将他们识别为沿着一个可解释的渐进到温和的光谱。

May, 2020

对推特数据无监督文本表示方法的实证调查

本研究通过实验调查一系列著名的文本表示技术在嘈杂的Twitter数据上进行文本聚类的任务，并表明先进的模型不一定在tweets上表现最佳，需要在这一领域进行更多探索。

Dec, 2020

利用心理测量测试中的项目作为 Twitter 用户个性化建模的训练数据

该研究论文在社交媒体上对作者进行个性化分析，比较了从自我报告的心理测验和已有标签中获取数据的方法和使用经过验证的心理测验数据的方法。使用T5数据增强的BERT分类器在大五个性特征的小数据集上表现可比附近领域训练的模型。

Feb, 2022

使用设计的条件提示和上下文进行零样本实体和推文特征描述

本研究使用预训练语言模型来解决媒体偏见的问题，一方面通过对大型新闻语料库的有条件前缀的微调，对通用实体进行主观性表征；另一方面，通过对来自几个流行 hashtag 的 Twitter 语料库的微调，使用语言模型对推文进行前缀、问题和上下文摘要提示进行表征的评估。

Apr, 2022

推特时间线中AI生成文本的风格学检测

本文提出一种使用风格学特征来辅助检测AI生成的推文的新算法，探讨利用预训练语言模型生成相似于人类撰写的文本的潜在威胁；针对推文信息量小的特点，提出两个任务：区分人工和AI生成的推文，以及检测AI何时在Twitter时间线上开始生成推文；实验证明风格学特征对于AI生成推文检测器具有有效的辅助作用。

Mar, 2023

自动摘要中的政治偏见：特朗普和拜登的案例研究

该研究使用实体替换方法研究了新闻文章自动生成摘要中对政治家的描绘，发现抽取和生成式摘要模型中川普和拜登的政治偏见存在着差异，该系统性特征提供了未来研究偏见的框架。

May, 2023

Twitter党派预测

通过综合调查和实证比较当前党派预测实践，本文提出了几种与或超过最先进方法相竞争的新方法，同时需要更少的计算资源，使从业者能够从多种数据类型中选择并获得强大性能。

Aug, 2023

SMLT-MUGC:小型、中型和大型文本——机器与用户生成内容的检测与比较

对于理解大型语言模型的能力和缓解可能带来的后果，识别由大型语言模型生成的文本至关重要。通过分析不同长度的数据集（小、中、大）以及比较机器学习算法在不同数据集上的性能表现，本研究发现，对于参数非常庞大（比如1542亿参数的GPT2的XL-1542变种）的大型语言模型生成的文本，使用传统机器学习方法更难检测（准确率为74%）；然而，对于参数较小（不超过7.62亿）的大型语言模型生成的文本，可以以高准确率（96%及以上）进行检测。本研究还分析了人工与机器生成的文本在语言学、个性、情感、偏见和道德等多个维度上的特点，发现机器生成的文本通常具有更高的可读性和与人类道德判断相似的倾向，但在个性特征上存在差异。而支持向量机（SVM）和投票分类器（VC）模型在大多数数据集上都表现出较高性能，而决策树（DT）模型表现最低。当处理重新表述的文本时，特别是长度较短的文本（如推文），模型性能下降。本研究强调了检测大型语言模型生成的文本的挑战和重要性，并为未来研究提供了改进检测方法和理解大型语言模型细微能力的方向。

Jun, 2024