媒体机构对公众人物的潜在观点的描述
本研究使用预训练语言模型来解决媒体偏见的问题,一方面通过对大型新闻语料库的有条件前缀的微调,对通用实体进行主观性表征;另一方面,通过对来自几个流行 hashtag 的 Twitter 语料库的微调,使用语言模型对推文进行前缀、问题和上下文摘要提示进行表征的评估。
Apr, 2022
该研究利用自然语言处理技术预测股票价格波动,旨在早期发现能够捕捉市场机会的经济、政治、社会和技术变化。通过从新闻文章中识别重要事实和事件,并使用这些事实与实体形成元组,以获取特定实体的市场变化摘要,最后结合所有摘要形成整篇文章的最终摘要。使用大型语言模型 GPT 3.5 进行摘要提取,并分析维基百科数据和《经济学家》的文章以建立公司和实体之间的关系。该研究旨在开发一种全面的系统,通过提前发现市场趋势和事件,为金融分析师和投资者提供更加明智的决策工具。
Oct, 2023
通过对使用命名实体识别分析主题并通过立场分析讨论这些主题的方法,我们开发了一种无需任何人为输入来定义有线新闻节目偏见的无监督机器学习方法,应用于 2020 年的有线新闻转录中,发现节目的聚类随时间的变化而保持稳定且大致对应于节目所属的有线新闻网络,该方法揭示了未来客观评估媒体偏见和描绘陌生媒体环境的潜力。
Oct, 2023
通过引入 CharacterGPT 框架并利用文档语言模型,我们提出了一种解决助手 API 在维持人物一致性方面面临的挑战的新方法,通过从小说摘要中提取人物特征来更新人物形象,实现了稳定的人物一致性,并在角色扮演代理研究中创造了新的可能性。
May, 2024
使用真实新闻机构的评级,我们创建了一份多语言新闻语料库,其中包括粗略的立场注释(左翼和右翼)以及自动提取的主题注释。我们展示了使用这些数据训练的分类器能够识别英语、德语、西班牙语和加泰罗尼亚语中大部分未见过的报纸的编辑立场。我们随后将这些分类器应用于 ChatGPT 和 Bard 在四种语言中撰写的 101 篇类似报纸文章,并观察到,类似传统报纸,ChatGPT 的编辑立场会随着时间而演变,并且作为一个数据驱动的系统,生成的文章在不同语言中的立场也有所不同。
Oct, 2023
利用大型语言模型(LLMs)预测政治新闻文章中特定实体的情感,并通过少样本学习(few-shot)策略和连续思维(COT)方法增强情感预测准确率。研究结果发现,LLMs 在捕捉实体特定情感方面优于经过调优的 BERT 模型,并且通过在上下文中少样本学习和自一致机制可提高情感预测的连贯性。然而,COT 提示方法的有效性存在一定的不一致性,因此合适的提示策略和模型架构至关重要。
Apr, 2024
本文研究 GPT-3 等零样本学习模型对新闻文本摘要的影响,发现零样本模型的摘要被人类普遍接受,且不会出现数据特异性问题,并探讨零样本摘要的评估问题和后续研究挑战。
Sep, 2022
提出了两种反映演员与角色关系的任务:演员选角预测和演员多才度排名,并提出了一种将演员、电影、角色、类型和描述性关键词嵌入为高斯分布和翻译向量的技术,表明自动识别的人物主题能够在这两个任务上显著提高演员模型的性能。
Apr, 2018
这篇论文介绍了一个名为 PersoNet 的数据集,该数据集是研究角色个性的第一个标记数据集,并且通过在线阅读应用程序中用户笔记的注释策略进行了标注。实验和人类研究表明,我们的数据集构建既高效又准确,并且我们的任务需要长期的上下文才能为机器和人类获得准确的预测结果。
May, 2023
本篇论文探讨了如何建立可扩展 NLP 系统来直接从海量新闻语料库中发现媒体选择偏差模式的挑战,并针对新闻源的意识形态进行了实证研究,通过无监督的学习方法来捕捉新闻语料库中的媒体选择倾向,为未来的媒体选择偏差研究提供了启示。
Apr, 2023