基于模板的招聘邮件生成技术用于职位推荐
本文提出了一种基于大型预训练语言模型和概率分布的区分程序来自动评估自然语言生成方法产生的文本样本的人类相似度分数,与人类判断的自动评估进行了验证。
Jun, 2020
本教程关注于文本生成,这是一类自然语言生成任务,它以一段文本作为输入,然后生成一篇按照某些特定标准(如可读性或语言风格)改进的修订版本,同时保留原版文本的大部分含义和长度。
Oct, 2023
研究采用新颖的数据生成文本的方式,对当前的文本生成方法进行了探究,并通过提出一系列抽取性评估方法和使用当前神经生成方法得到基线结果。实验结果表明,这些模型产生流畅的文本,但未能令人信服地近似人类生成的文档,甚至模板化的基线方法在某些指标上超过了这些神经模型,尽管复制和重构扩展会导致明显的改进。
Jul, 2017
本研究探讨了一种简单的降低标注成本的方法,即采用分层抽样和控制变量等技术,结合文档成员身份信息和自动评估指标,从而在固定标注预算下获得更高的准确性。在测试集上,相比于纯随机抽样,平均误差降低了高达 20%。该技术易于实现且适用于类似结构的问题。
Apr, 2022
该文章调查了近年来开发的自然语言生成(NLG)系统的评估方法。将 NLG 评估方法分为三类,讨论了每种类别取得的进展和仍然面临的挑战,重点关注最近提出的 NLG 任务和神经 NLG 模型的评估。最后提出了自动文本摘要和长文本生成的两个任务特定的 NLG 评估示例,并提出了未来的研究方向。
Jun, 2020
本文分析了三种采样解码策略,揭示了在提高欺骗人类的能力时,会引入使自动检测系统易于检测的统计异常,同时也表明即使是多句子摘录也有超过 30%的概率欺骗专家人类评分员,强调了使用人类和自动检测器来评估文本生成系统的重要性。
Nov, 2019
本篇论文提出了一种新的理论方法,用以评估文本生成模型的可靠性与鲁棒性,并在 WMT 21 和 Spot-The-Bot 数据上进行了应用与验证,并实现了对样本量的有效估算。
Oct, 2022
文本生成领域的文献回顾研究了 244 篇论文,将文本生成的工作分类为五个主要任务,并分析了相关特点、子任务和具体挑战。此外,研究还评估了目前的评估方法,并确定存在的问题。研究指出了九个主要挑战,并提供了详细分析和解决方案,以及进一步研究需求。该文献回顾面向自然语言处理领域的初级研究人员和有经验的研究人员。
May, 2024
本文对目前 45 篇与开放式文本生成相关的论文进行了调查,并发现它们中绝大多数未报告有关 Amazon Mechanical Turk 任务的关键细节,从而影响了可重复性。本文还进行了故事评估实验,发现即使使用严格的资格筛选器,AMT 工作者(与教师不同)也无法区分模型生成的文本和人类生成的参考文本。研究表明,当 AMT 工人同时展示模型生成的输出和人类生成的参考文本时,工人的判断能力得到了提高,并为评估过程提供了深刻的洞察。
Sep, 2021