- COLINGSAMER 阿拉伯文本简化语料库
我们提出了 SAMER 语料库,这是第一个针对学龄儿童的阿拉伯语句子简化的手工注释的平行语料库。该语料库包括了 15 部公开可获取的阿拉伯小说,总共约 159K 个单词。我们在文档和单词级别对语料库进行了可读性标注,并提供了针对不同可读性水 - COLING简单变得更难:LLMs 在简化语料库上表现出一致的行为吗?
简化文本以提高阅读能力,保留原始内容和意义。通过比较预训练分类器在原始和简化输入上的预测,研究发现所有语言和模型之间存在令人担忧的不一致性,简化输入很容易被利用来进行零迭代、与模型无关的对抗攻击,成功率可达 50%。
- EASSE-DE:德文自动句子简化评估的更简易方法
提出了 EASSE-multi 框架,用于多种语言的更轻松的自动句子评估;以德语 TS 为例,比较了不同语言和分词设置下的文本简化结果,给出了提高 (德语) TS 模型评估透明度和可比性的建议。
- 评估文档简化:关于分开评估简易性和意义保留的重要性
本文关注文档级文本简化的评估,并使用不同的指标对现有模型进行比较,其中包括针对简化和意义保持性的指标。通过引入一个无参考的度量变体来展示模型在简化和意义保持两个维度上往往倾向于一方,并且在未知数据上应用现有模型的性能也得到了研究。
- COLINGREFeREE: 一种基于模型的无参考文本简化度量方法
简化文本缺乏统一的质量标准和注解参考文本的稀缺和成本高昂。我们提出通过引入无参考基于模型的度量 REFeREE 和一个三阶段的课程来缓解这些限制。我们的实验证明我们的度量模型在预测整体打分方面优于现有的基于参考的度量模型,并且在预测特定打分 - ARTiST:增强现实中的任务指南自动文本简化
提供实时信息的增强现实中的文本对用户来说往往难以快速理解,特别是当它们在头戴显示器上呈现时。本文提出了 ARTiST,一种利用少样本提示和 GPT-3 模型来优化增强现实文本长度和语义内容的自动文本简化系统。经过包括七个用户和三位专家在内的 - MultiLS:一个多任务词汇简化框架
自动将难以阅读的词替换为更易理解的替代词,以改善文本可访问性;通过创建多任务的 LS 数据集,MultiLS 框架和 MultiLS-PT 数据集的潜力得到展示,并报告了基于转换器和大型语言模型的模型性能。
- 生物医学小白指南:规划大型语言模型
使用大型语言模型改进自动化文档摘要,尤其在简化复杂技术文件、生成背景知识、评估文本中起到了重要作用,并在医学文章的简化和评估方面做出了创新性的工作。
- 智力障碍者对简化文本的数字可理解性评估
文本简化是增加文本可理解性的过程。我们通过一个评估研究,使用智力残疾人和普通参与者阅读自动和手动简化的德语文本来探索衡量可理解性的四种不同方法,并发现这些方法在不同读者群体和文本是否经历自动或手动简化时会有显著差异。对于智力残疾人这个目标群 - ACL德文文本简化:使用半合成数据对大型语言模型进行微调
本研究首次使用合成数据来训练德语文档级文本简化的生成模型,通过真实世界在线文本论证了我们方法的有效性。解决语言简化中数据稀缺的挑战,我们爬取了经过专业简化的德语文本并使用 GPT-4 合成了一个语料库。我们在这些数据上微调了多达 130 亿 - 信息损失问答:文本简化中的信息损失特征和恢复
文本简化旨在使技术文本对普通读者更易理解,但常常导致信息缺失和模糊。本研究提出了 InfoLossQA 框架,以问答对的形式描述和恢复由于简化而导致的信息缺失,并基于 Question Under Discussion 理论设计问答对,以帮 - 西班牙金融教育文本简化的新数据集
本研究的主要目标是开发一个西班牙语金融文本简化数据集,并通过使用 GPT-3、Tuner 和 MT5 等系统生成的简化进行比较,评估数据增强的可行性。
- 德国叙事文档的自动文本简化探索
应用基于转换器的自然语言生成技术来进行文本简化研究,发现现有的德语方法无法很好地解决该问题,并提出了一些未来研究的方向。
- EMNLPBLESS:句子简化上的大型语言模型基准测试
我们提出了 BLESS,它是关于最新一代语言模型在文本简化任务上的全面性能基准。我们评估了 44 个模型在三个不同领域(维基百科、新闻、医学)的少样本测试集上的表现,并考察了这些模型的尺寸、架构、预训练方法和可访问性。我们采用一系列自动指标 - EMNLP医疗文本简化:通过不太可能的训练和重新排序的束搜索解码来优化可读性
本文研究了在医学领域中进一步提高文本简化可读性的方法,通过提出新的非概然性损失函数和重新排序的束搜索解码方法,在三个数据集上取得了更好的可读性指标表现,这些研究结果为改善医学领域的文本简化提供了有希望的途径。
- BibRank:利用元数据的自动关键词提取平台
该论文介绍了一种平台,集成了关键短语数据集,促进了关键短语提取算法的评估,对于希望改进他们的关键短语提取算法并推进自然语言处理领域的研究人员和开发人员非常有价值。
- ACL自动人工智能互动文本生成
本教程关注于文本生成,这是一类自然语言生成任务,它以一段文本作为输入,然后生成一篇按照某些特定标准(如可读性或语言风格)改进的修订版本,同时保留原版文本的大部分含义和长度。
- 能否将文本修改为目标可读水平?使用零样本大型语言模型的初步研究
文本简化和增加复杂性的任务是为了提高阅读理解的测试的复杂度控制而有限的。我们提出了一种新颖的可控阅读度的文本修改任务,其中通过生成 8 个不同目标阅读度级别的版本来实现对输入文本的阅读度的绝对修改。此任务的基准是使用 ChatGPT 和 L - ARTIST: 人工智能用于简化文字
通过对荷兰语文本简化进行实证研究,我们提供了一个可配置的文本简化流水线的设计和实现,以控制最先进的生成式文本简化模型、领域和读者适应以及可视化模块,并揭示了自动文本简化的优势与处理文化和常识知识所面临的挑战,这是对荷兰语文本简化探索的第一步 - 一项以用户为中心的西班牙文正文简化评价
我们通过两个以复杂句和复杂词为重点的语料库,对西班牙语文本简化(TS)在生产系统中进行评估。我们将最流行的西班牙语特定可读性评分与神经网络进行比较,并表明后者在预测用户对 TS 的偏好方面始终更好。作为分析的一部分,我们发现多语言模型在相同