科技写作辅助中的文字修订:概述
本文提供了一个完整的计算框架,对科学写作中的文本修订进行了研究,通过构建一个新的带有金标准句子对齐的带注释语料库来揭示了科研人员修订论文的常见策略,并利用自动方法在文档、句子和单词级别上提取修订内容。
Oct, 2022
本文提出了句子级修订任务(SentRev)作为新的写作辅助任务,旨在帮助作者在早期修订阶段产生流利,完整的句子。为了开发和评估 SentRev 模型,我们建立了一个新的自由可用的众包评估数据集,同时还建立了该模型的基准性能。
Oct, 2019
科学写作反馈生成自动化辅助工具 SWIF$^{2}$T,通过使用多个大型语言模型实现四个组件:计划者、调查员、评论员和控制器,生成具体、可行和连贯的反馈,优于其他方法,并提出将 AI 生成的反馈整合到科学写作中的机会。
May, 2024
本文探讨如何通过学习在线辩论中的协作编辑行为来捕捉修订模式,以开发旨在指导作者进一步改进其论点的方法,并且我们提出一种基于修订距离的新的抽样策略,以解决修订文字料库的噪声问题。
May, 2023
本文针对科学文献中 AI 生成的文本与人类编写的文本之间的差距进行了探讨,提出了一个通过语法、语义和语用来区分 AI 文本的框架,进而将提取到的特征用于分析两种不同类型的内容,发现 AI-generate 的科学文本在深度和总体质量方面还有待提高,并存在事实性问题等方面的差距,同时我们发现 AI-generate 的科学文本和人类编写的科学文本之间存在 “写作风格” 方面的差距,从而提出一些模型和分布无关的特征来用于其他领域的检测任务,这些研究结果有助于指导 AI 模型的优化,以产生高质量的文本,同时也有助于解决相关的伦理和安全问题。
Jan, 2023
本研究提出了一个新的文本资源数据集,名为 CASIMIR,其中包含来自 OpenReview 的 15,646 篇科学文章的多个修订版本以及它们的同行评审。这个数据集对科学文章的修订步骤进行了详细的研究,提供了句子级别的对齐和自动提取修订编辑的功能,同时对评估方法进行了质疑。
Mar, 2024
这项研究描述了 IteraTeR:第一个大规模、多领域、编辑意图注释的迭代修订文本语料库,包括了新框架和注释后的编辑意图,提高了自动生成模型的评价,从而更好地理解文本修订过程,使得编辑意图和写作质量之间可以建立重要联系,并促进迭代修订文本的计算模型的多样性语料库的创建。
Mar, 2022
STEM 教育中,科学写作在强调探究能力的课程中扮演着越来越重要的角色。我们提出了一种端到端的神经架构,该架构通过分离的验证器和评估模块,受到开放领域问答方法的启发,对实验报告进行了自动化评估,超过了其他基于开放领域问答系统或自动化论文评分的基线。
Feb, 2024
研究了自动写作评估系统如何改善学生写作,着重探讨对论证文本进行修订的相关方面,包括修订类型以及对所给反馈的响应程度。通过分析 5-6 年级学生的论文,引入了一种注释方案来捕捉证据使用和推理方面的修订,并展示了手动注释和修订注释与综合评估的相关性。此外,还研究了自动根据该方案对修订进行分类的可行性。
Jul, 2021