该研究提出了一种自动化测试方法 LEAP,基于 Levy 飞行和粒子群优化,结合文本特征生成对抗性测试用例,实验证明 LEAP 在生成对抗性测试用例的平均成功率为 79.1%,比其他方法高出 6.1%,并显著减少了时间开销。此外,实验结果表明 LEAP 可以生成更具传递性的测试用例,并显著提高基于 DNN 的系统的鲁棒性。
Aug, 2023
通过对三类自动评估方法的系统比较,本文认为基于学习的指标是评估开放领域生成对话系统最有效的方法。为了解决由于负采样机制导致的数据集不平衡和低质问题,本文提出了一种新的基于学习的评估指标 PONE,并经过实验证明,在使用增强的正样本和有价值的负样本后,可以显著提高与人类判断的相关性,平均相关性提高达 13.18%。
Apr, 2020
APEL 是一种基于自然语言表述的新型框架,用于间接注释可执行的含义表达式,如 SQL 程序,其中包含由群众智慧注释产生的程序候选列表和输入数据库合成方法。
May, 2022
这篇研究论文通过定量分析 token-level 等价度量的局限性,提出了一个不对称的答案等价度概念,结合 BERT matching 算法,其结果比传统的 F1 方法更为准确,可用于问题回答的实际应用中来找到最小准确预测集。
Feb, 2022
提出一个新颖的 Aspect-oriented Opinion Alignment Network (AOAN) 来捕捉意见词与对应方面之间的上下文关联。该模型通过引入一个邻近跨度增强模块来突出揭示邻近词汇和给定方面的各种组合,并设计了一个多透视度的注意机制来根据给定方面对齐相关意见信息。对三个基准数据集的广泛实验表明,该模型达到了最好的结果。
通过采用职业人员 QA 竞赛来评估机器 QA 中答案的正确性,结合标准评估和一种更高效、稳健、轻量级的基于偏差 AE 分类器的匹配方法(CFMatch,小于 1 MB),培训和验证以更准确地评估答案的正确性,使得 QA 能够进一步发展。
Jan, 2024
本研究提出了一种使用外部标记资源来改善泛化能力的全新生物医学命名实体识别方案,基于深度学习的 AIONER 工具比多任务学习等现有方法更为有效、稳健,能够识别训练数据中未出现的实体类型,并具有大规模处理生物医学文本的优势。
Nov, 2022
LUNA 是一个自然语言生成模型评估工具,通过引入 20 个不同的评估指标,基于参考依赖性和文本表示的类型进行分类。其设计简单易扩展,并提供了一个用户友好的评估生成文本的工具。
利用神经机器翻译技术的 Atlas,能够自动生成恰当的断言语句来评估主方法的正确性,可作为自动生成测试用例技术的补充和开发人员的代码补全支持。
Feb, 2020
本文提出了一种有效的自动评估度量 RoMe,包括多个自然语言生成核心方面,如语言能力、句法和语义变化,通过基于自我监督神经网络的语义相似性等语言特征,结合树编辑距离和语法可接受性来评估生成句子的整体质量,并对最先进的方法和 RoMe 进行了广泛的鲁棒性分析。实证结果表明,在评估多个 NLG 任务生成的句子方面,RoMe 与人类判断的相关性比最先进的度量更强。
Mar, 2022