- 评估用于图到文本生成的生成模型
本文探讨了生成模型在零样本情况下从图数据生成描述性文本的能力,并与微调后的语言模型进行了比较,在两个图到文本数据集上评估了 GPT-3 和 ChatGPT 的性能。结果表明生成模型能够生成流畅和连贯的文本,AGENDA 和 WebNLG 数 - 放射学报告总结的指导:实证评估和错误分析
自动生成放射学报告的简明摘要可以减轻临床医生的手动负担,并提高报告的一致性。本研究解决了当前方法依赖领域特定资源和了解错误和失败模式的不足,并提出了一种领域无关的变长提取式摘要作为导向信号,进一步改进了自动摘要的效果,并发现自动摘要与放射学 - 使用端到端神经模型产生对冲
通过微调人类 - 人类教学数据的最先进语言模型,结合使用 避免面子威胁 的分类器,对避风生成模型进行了改进,进而实现了在噪声环境中的避风生成,并且通过对两种方法的错误分析,揭示了系统在对话中试图实现社交和任务导向目标所面临的挑战。
- 利用物理神经网络进行电流密度阻抗成像
本文介绍了 CDII-PINNs,这是一种在 Tikhonov 正则化框架下使用 PINNs 求解 CDII 的计算有效方法。该方法通过将正则化最小二乘输出功能与描述电导率和电压之间关系的基础微分方程相结合,构建了一种物理学知识损失函数。其 - 针对任务导向对话系统的上下文学习用户模拟器
本研究提出了一种基于大型语言模型的用户模拟方法来优化面向任务的对话系统,这种方法通过在用户目标和有限对话示例的基础上产生多样化的话语来消除手工规则定义或广泛注释数据的需要,并对用户模拟器和对话系统之间的相互作用进行了误差分析,提供了改进的有 - 基于矢量值随机特征的学习误差界
本论文提供了关于向量值随机特征(RF)学习的全面误差分析,为 RF 岭回归在输入输出设置下建立了理论,该方法直接分析了风险函数,避免随机矩阵理论中的浓度结果,主要结果包括在模型未规范化情况下向量值 RF 估计量的强一致性和在规范化设置下的极 - MuLER: 详细和可扩展的基于参考文献的评估
MuLER 是一种将文本生成的评估指标转化为细粒度分析工具的新方法,可量化所选度量标准对特定错误类型(例如,位置名称错误)的惩罚程度,并通过分析展示了其在机器翻译等任务中的有效性和可用性。
- SCITAB: 一个用于科学数据表格组合推理和论断验证的重要基准测试
构建 SCITAB 数据集用于科学事实审查,从实际科学陈述中提取复合表理推理的 1225 个挑战性科学主张,将其证据呈现为表格形式,揭示了现有提示方法的限制和挑战,提出了未来研究方向。
- ACLBanglaBook:基于图书评论的大规模孟加拉情感分析数据集
本研究旨在解决对于孟加拉语资源与跨领域适应性缺乏研究的限制,因此提出一个大规模的孟加拉语电子书评论数据集, 使用各种机器学习模型分析数据,发现预训练模型比手工特征模型具有更高的性能,同时进行错误分析以提供关于在孟加拉语等欠资源语言中常见的分 - 基于得分的输运建模方法与平均场福克 - 普朗克方程
本文介绍了利用得分基础运输建模方法(MSBTM)求解均场福克 - 普朗克方程的上限并提供相应算法的误差分析以验证该方法在相互作用系统的粒子动力学研究中的可行性。
- SERENGETI:非洲大规模多语言模型
本文介绍了 SERENGETI 多语言模型,覆盖了 517 种非洲语言和方言,并在 8 项自然语言理解任务中得到了较高的表现,特别是在零样本测试下的表现受到了相互可理解的影响。
- 自然语言生成的人类似评估及其误差分析
该论文介绍了一种基于 BARTScore 的人工智能评估方法,通过自动化错误分析以达到更接近人类的漏洞检测,实验证明该方法在 20 个测试环境中优于现有的最佳评价指标。
- 使用文本到音素数据增强的德语音素识别
本研究通过实验考察了在基本词汇中添加最频繁的 n 个音素二元组对德语音素识别模型的影响,得出了音素二元组对模型性能会产生正面或负面影响的结论,并通过错误分析确定了模型重复出现的错误类型。
- 利用因果新闻语料库进行事件因果识别 -- 共享任务 3,CASE 2022
该论文总结了 17 个团队提交的结果以及 12 篇系统描述论文,介绍了他们在 CASE 2022 的事件因果性识别共享任务的表现。最好的 F1 分数分别为 86.19%和 54.15%,所有表现最佳的方法都涉及针对目标任务进行微调的预先训练 - 面向电子病历问答的神经语义解析系统
本文旨在系统评估两种神经 SP 模型在 EHR 问题答案检索上的性能,发现这些先进的神经模型具有良好的易用性和通用性,但也存在常见错误类型。
- 英文进攻性语言误差分析工具与基础设施演示:OLEA
OLEA 是一款开源的 Python 库,提供易于使用的工具来检测英语中的冒犯性语言,同时提供重新分发新数据集和分析方法的基础设施。
- EMNLPAGReE:自动生成语法阅读练习系统
本文介绍了 AGReE 系统,其可以将用户提交的段落作为输入,并自动生成可以在阅读时完成的语法练习题。人工评估表明,95% 的题目大多数评分者可以识别正确答案,85% 的情况下,评分者一致认为选择项中只有一个正确答案。最后的错误分析表明,评 - COLING零样本仇恨言论检测假设工程
本文通过使用自然语言推理模型进行零 - shot 文本分类并结合多种策略以改进英语零 - shot 仇恨言论检测,取得了 79.4% 的检测准确度并比商业系统和基于 BERT 的模型效果更好。
- ACL文档级信息抽取自动错误分析
本研究提出通过基于转换的框架实现文档级事件和关系提取自动化错误分析,进而比较两种最先进的模板填充方法在三个领域的数据集上的表现,并对信息提取领域自其 30 年前创始以来的发展进行了评估。
- 面向知识图谱的对话问答答案表达数据集
本文介绍了一个新的数据集,用于在知识图谱上进行口头回答的对话式问答。该论文通过扩展现有的多轮对话式问答数据集,包括多个释义的口头回答,提供了新的贡献,并使用五个序列到序列模型进行了实验,同时保持语法的正确性。我们还进行了误差分析,详细说明了