穿越华尔街日报:跨越流派的对比和主题锚定
本研究使用了数据驱动方法和基于远程监督的神经网络来检测文章中的话语关系信号,开发了一个名为 “Delta s” 的衡量信号强度的度量,该度量通过上下文词嵌入表示每个单词对于关系识别的积极或消极贡献,通过对英文语料的分析,研究了该度量的可靠性,以及其与人类判断的重叠和差异,并探讨了神经模型在自动话语关系分类中所需的特征。
Jan, 2020
时间压力和话题协商对人们在即兴对话环境中利用话语关系(DRs)存在限制。本研究使用初学者注释的众包数据,将一种面向书面语的 DR 系统适应到即兴对话中,并测试不同类型的多发话语环境中的话语关系使用情况。我们比较说话者内部和跨说话者以及连续回合内部和跨连续回合的 DR 注释模式。最终,我们发现不同的话语环境产生不同的话语关系分布,而单个回合的注释给注释者带来最大的不确定性。此外,我们发现话语关系注释的质量足以从话语单位的嵌入中进行预测。
Jul, 2023
研究了如何在缺乏话语连词的情况下进行隐含话语关系分类,设计了一种神经网络模型,通过预测和生成连词来实现话语关系的分类。实验结果表明,在 PDTB 2.0,PDTB 3.0 和 PCC 三个数据集上,该模型明显优于其他基线模型,从而表明了该模型的长处。
Jun, 2023
通过学习分布式标记表示以及潜在的语篇感,实现了对句子对之间的标记和语段信息的联系,具备自动学习和解释性强的特点,并在隐式语篇关系识别任务中达到了 SOTA 效果。
Jun, 2023
为了提高不同类型文本中的 Argument Mining 系统的鲁棒性,我们提出了自动使用连贯性标记来增加输入文本的方法,以便明确标记所有关系,并发现即使是现成的最流行的语言模型在这项任务上也会失败。
Jun, 2023
本文介绍了一种基于 Penn Discourse TreeBank 标注语言相关特征的新资源,通过对 TED Talks 进行标注,为中英文翻译和语言技术的发展做出了贡献。该资源注重对计划性口语独白的篇章层面语言特征的标注,而不仅仅局限于书面语,基于多位标注者的协商,该标注方案的可靠性得到了证实。
Mar, 2020
本文讨论了一种基于词汇全面匹配的 Tree-Adjoining Grammar,用于研究语篇,并提出三种语篇意义的来源:基本数理语义,预设语义和一般性的推断。
Jun, 1998