- 极化与道德:对 Reddit 关于堕胎话语的词汇分析
研究考察了政治话题上的分歧是否与语言使用的独特模式有关,收集了 Reddit 上关于堕胎辩论的总共 145,832 条评论,分析了 r/prolife 和 r/prochoice 的子版块社群中的语言使用。通过考虑道德基础理论,分析了三种词 - 利用自动语音识别系统和深度学习主题模型在智能手机收集的自由回答语音记录中识别与抑郁相关的主题
研究表明,语言使用与抑郁症相关,但需要大规模验证。本研究使用 Whispter 工具和 BERTopic 模型从 265 名参与者的 3919 个智能手机采集的语音记录中鉴定出 29 个话题。其中六个话题中 PHQ-8 中值大于等于 10 - 公开演讲中男女演讲者的用语选择分析
本文旨在研究男女语言使用的差异。通过统计演讲者在公共演讲中的用词,发现男性演讲者在语言、心理、认知和社会等方面的特定词汇比女性演讲者使用频率高。
- ACL把 “骗” 放在环境中:在 “黑手党” 游戏中识别欺诈演员
本研究通过研究推理游戏中的发言者角色,分析发言者角色对语言使用的影响,验证了基于语言使用的分类模型可以准确区分诚实玩家和欺骗玩家,提出了使用辅助任务训练模型的方法,以及基于训练模型识别玩家角色的特征以协助推理游戏的方法。
- 如何与人工智能对话:指令,描述和自主性
研究从语言中学习以实现语言使用与机器智能的价值对齐,分析了两种不同类别的语言,即指令和描述,运用上下文强化学习进行形式化的建模,并且验证了这种社会学习方法在传统的强化学习任务中可以降低遗憾值。
- 用于层级适应的混合效应 Transformer
本文提出了混合效应 (transformer) 模型,通过引入前缀 (prefixes),逐级学习并建立结构化的变异因素的影响,以解决 GPT-3 等现代语言模型在面对稀疏、额外的上下文环境时性能下降的问题,实验表明本模型在领域适应性测试中 - BasqueParl: 巴斯克语议会记录的双语语料库
这篇论文发布了一份新编的巴斯克语议会记录文集,其中包含重度的巴斯克 - 西班牙语码转换,同时还提供了与演讲者和演讲有关的元数据,并对文本进行处理以获得命名实体和词汇。 提取元数据后,对语言使用进行了详细的语料库分析,从时间,政党和性别角度提 - 识别和表征在社交媒体中驳斥误信息的积极公民
本研究针对社交媒体中流传的错谬信息的问题,开发并公开了一个新的微博数据集,探究了区分发帖人和积极的公民的任务,在不同的社交媒体平台和语言下分别进行了研究,并对两种用户类别的语言使用差异进行了广泛分析。
- 使用语言和行为视角的在线社交媒体心理障碍分析和可视化
本文旨在通过多种语言学、心理学及在线行为等多个方面,更好地了解患有心理障碍的社交媒体用户的特征和差异。研究结果表明,这些用户与正常用户相比,在词汇唯一性、情感表达和月度发布方差等方面存在明显差异。
- ACL探索在线支持论坛中自我认定的咨询专业知识
本文研究了精神健康相关的在线求助帖子中,自识别为精神健康专家与同龄人的回复差异,使用语言学分析探讨二者交互中的语言使用和互动特点,以期为理解健康专家在社交网络中与信息和支持寻求者的互动作出贡献。
- EMNLPBERT 的时间适应和下游文档分类的性能:来自社交媒体的洞见
本文研究了对于预训练语言模型(如 BERT),是否通过时间适应可以提高性能。结果表明,时间性适应和微调都可以提高性能,但是对于下游任务,时间性适应并不能比仅适应领域更为有效。
- COLING言语是心灵的窗户:基于语言的用户表征在假新闻检测中的应用
探究了社交媒体上语言使用与传播虚假消息倾向之间的关系,提出利用用户在社交媒体上产生的语言生成用户特征来检测虚假消息;使用两个英语数据集扩展地分析了虚假消息传播者的语言,表明其主要特征在许多领域中都存在且相对一致。最后,通过社交网络中用户的连 - ICMLPow-Wow:Pommerman 协作通信的数据集和研究
本研究通过设计 Pow-Wow 数据集,分析人类在团队竞技游戏中的语言使用,提炼有效的通信策略,并将其应用于多智能体学习中,结果表明使用通信的智能体胜率较不使用通信的基准系统高。
- 量化 COVID-19 对心理健康支持论坛的影响
研究表明新冠疫情对心理健康的影响有深远的影响,本文通过检查 Reddit 中心理健康支持社区的讨论,量化 COVID-19 被讨论的速度,分析讨论话题的变化以及观察需求量的增长,以更好地了解疫情对心理健康支持的影响。
- EMNLPReddit 上的双相障碍预测
本研究使用 Reddit 用户所自述的标签,利用用户生成的文本对躁郁症进行预测,并与基准分类器进行比较,结果表明我们的分类器优于基准,并且语言使用的特征分析显示出双极情感障碍患者和对照组之间在情感表达方面有着有趣的差异性。
- 社交媒体语言中的潜在人类特征:一种开放词汇方法
通过社交媒体数据的自然语言使用,我们研究了推断一组新的人类特征的过程,并通过与五因素人格模型的比较得出,语言基础特质的构建更具普适性,并且在某些方面比基于问卷的特质更能预测一些基于实体的结果,从而为新的个性化构建提供了一定的参考价值。
- 与人群交流:人们在网上讨论中对什么做出反应?
本研究探讨了语言使用对社区对在线讨论论坛评论的反应的影响,以及信息和信息发送者之间的相对重要性。基于 Reddit 讨论中社区注释卡尔玛的新评论排序任务被提出,可以控制评论的主题和时间。通过对来自六个子 reddit 的讨论线程进行实验,结