- 误导信息并非有关错误事实:边缘内容的制造和消费分析
在线边缘意识形态的传播与信息完整性、质量、狭窄的主题选择以及作者的写作风格有关,这些发现对打击网络误信息具有重要意义。
- QuRating: 选择高质量数据以训练语言模型
使用 QuRating 方法选择预训练数据,可以捕捉人们直观感知的文本抽象品质。通过对四个品质进行分析,我们发现 LLMs 在进行文本配对判断方面表现优于直接评价文本质量。使用 QuRater 模型学习从配对判断中学习标量评分,并使用它为 - 将基于描述的对话状态跟踪器与寻求知识的对话联系起来
通过在训练和推理过程中加入从对话语料库和模式中搜集的寻求知识的对话轮次,使基于模式的对话状态追踪模型具有更强的稳健性。
- ACL作者身份表达学习能捕捉到文体特征吗?
自动从作者的写作风格中脱离其内容是计算语言学中一个长期存在且可能难以逾越的问题。然而,最近可用的带有作者标签的大型文本语料库使得可以通过完全基于数据驱动的方式来学习作者表征,用于作者归属的任务,这个任务似乎更多地依赖于编码写作风格而不是编码 - ACLHonestBait:用于生成吸引人但忠实的标题的前向引用技术
本研究提出 HonestBait 框架,使用前向引用技术生成标语来避免过度夸张的内容和传播虚假信息的风险,并进行自我验证过程来避免虚假发明,并通过人工和自动的评估得出,该框架生成的标语比人工编写的验证新闻标语更有吸引力,同时保持高保真度,有 - 使用语言模型对抗语言模型检测器
本文研究了如何攻击已有的机器文字生成检测算法,并验证了所有被测试的检测器的鲁棒性。结果表明,开发更加鲁棒的机器文字检测系统有着迫切的需求。
- 网络有害行为与社交网络信息撰写风格的关系
研究了个人写作风格与其在网上从事有害行为(如网络欺凌)的风险之间的关系,发现可以通过个人写作风格的差异度量不同的人格类型,如五大人格类型和黑暗三性格类型,区分是否从事有害行为并预测其行为。
- 探究书写风格对科技领域性别差距的影响
本文研究了作者的性别是否会影响其在学术论文和专利申请中的写作风格,并发现女性在写作时更多地使用了涉及性的特征。研究表明,不同性别的作者所著作的文字在信息性和参与性特征上存在差异,这可能导致性别偏见并影响科学工作的公正性。
- 写作风格感知的文档级事件抽取
事件提取模型针对多领域文档的写作风格,提出了一个与上下文相关的监督机制来建模文档中的事件结构信息,结果表明该方法能够较好地捕捉这种写作风格的模式。
- EMNLP重新思考作者验证实验设置
本文提出了五个新的公共分组来隔离和识别与文本主题和作者书写风格相关的偏差,并使用可解释的 AI 发现这些基线模型存在命名实体偏差,进而得出释放命名实体的模型在作者验证中更好的结果和更好的泛化能力,这对与 PAN 大规模作者验证数据集有重要意 - EMNLP独特而非武断:在线寄存器中学习个人语言风格揭示了独特但一致的个体风格
通过大规模的跨作者比较,我们引入了一种新方法来通过识别和编码风格特征来研究 idiolects,神经模型在短文本上实现了强大的作者识别性能,并通过类比探测任务展示出学习到的表示具有惊人的规律性,在文本扰动中,我们量化了不同语言元素对 idi - 抑制领域风格在作者分析中的重要性
本文研究了利用字符三元组频率等常用方法进行作者分析的不足,探讨了领域特异性和主题对于作者风格的影响,并通过固定作者但领域交换的实验展示,表明该方法在未考虑领域的情况下高度偏向于领域信息,对于此,本文提出了以领域对抗学习为基础的新疗法,并将其 - 文本风格的词汇、句法和语义视角
本研究提出了从词汇、句法和语义三个方面分析个体写作风格的过程,并展示该过程在作者风格分析、作者归属度和情感预测方面的应用,结果表明这种多层次的写作风格分析方法能够量化地模拟文本中的主观性,从而在多个任务上提高定量和定性表现。
- 具有风格意识的神经模型及其在作者归属方面的应用
本文提出了一种样式感知神经模型,以从三个样式水平对文档信息进行编码,并在作者归属领域进行评估,实验结果表明,相对于文献中的基线方法,从所有三个样式水平编码文档信息具有显著的优势,实验数据来源于四个基准数据集。
- 虚假新闻调查:基本理论、检测方法和机遇
该论文调查和评估了检测假新闻的四个方法,即错误知识,写作风格,传播模式和来源可信度,并鼓励多个学科间的合作以实现高效且可解释的假新闻检测。
- EMNLP写作风格是否可以预测科学欺诈?
利用机器学习检测科学欺诈的问题已被提出,而初步的实验结果表明,写作风格可以预测科学欺诈。本文重新审视这些实验,并展示采用简单模型可以比他们提出的模型优越一些。同时,本文还探讨了语言特征,如语言复杂性和话语结构,得到了负面的结果。通过分析模型 - 不同写作任务对语言风格的影响:以台湾故事填空任务为例的案例研究
研究了不同写作任务背景下文本的风格特征及其对于分类器的影响。通过简单的线性分类器结合风格特征与语言模型,达到了 state of the art 的成果。
- 学习文体特征表示用于作者分析
本文提出了一种使用神经网络方法来模拟人类组合句子过程,将语言特征的不同类别合并到单词的分布式表示中,以同时学习作者文体表示的作者分析方法,提取出每个文档的话题、词汇、句法和字符级别的特征向量,实验结果表明,这种方法在作者特征化和作者验证方面