用于自动评分的日英句子翻译练习数据集

Mar, 2024

用于自动评分的日英句子翻译练习数据集

Japanese-English Sentence Translation Exercises Dataset for Automatic Grading

Naoki Miura, Hiroaki Funayama, Seiya Kikuchi, Yuichiroh Matsubayashi, Yuya Iwase...

TL;DR自动评估句子翻译练习（STEs）的任务被提出，旨在为教育人员预设的每个评分标准对学生回答进行评分。使用一个包含 21 个问题和 3498 个学生回答的 STE 日语 - 英语数据集，作者展示了使用微调 BERT 和 GPT 模型的基线性能，结果表明微调 BERT 模型能以约 90% 的 F1 值对正确回答进行分类，但不到 80% 的不正确回答。此外，采用 few-shot 学习的 GPT 模型的结果较微调 BERT 差，表明我们提出的新任务对于最先进的大型语言模型来说是一个具有挑战性的问题。

Abstract

This paper proposes the task of automatic assessment of Sentence Translation Exercises (STEs), that have been used in the early stage of L2 language learning. We formalize the task as grading student responses fo

automatic assessment sentence translation exercises grading rubric criterion few-shot learning

发现论文，激发创造

构建日语语法错误修正自动评估质量估计数据集

本研究针对日本语言的语法错误校正，通过构建手动评估的数据集，建立了自动评估模型，并进行了元评估以验证该数据集的实用性。

Jan, 2022

最小人工投入快速开发大型语言模型的高质量指导数据和评估基准：以日语为例的案例研究

我们提出了基于 GPT-4 的高效自指导方法，通过翻译少量英语指令并进行修订，为日语构建高质量的指令数据和评估基准，并证明使用我们的 GPT-4 自指导数据进行微调的模型在所有三个基本预训练模型上表现明显优于 Japanese-Alpaca。

Mar, 2024

JCSE: 日语句子嵌入对比学习及其应用

我们提出了一种针对日语的句子表示模型 JCSE 进行领域自适应学习的新方法，通过在源域中生成语句并将其与目标域中的语句合成，生成用于对比学习的矛盾句对，优于直接迁移的其他训练策略，以及在低资源语言的下游任务中有实际应用的效果。

Jan, 2023

日语语言测试中手写描述性答案的完全自动评分

本文提出一种机器识别手写字符的方法，通过使用深度学习技术与自然语言处理技术，在日本大学考试的试卷中取得了较好的成绩，具有较高的实用价值。

Jan, 2022

日语文本蕴涵和相似性的组合评估

本论文介绍了 JSICK，一个从英语数据集 SICK 人工翻译而来的日语 NLI/STS 数据集。我们对不同的预训练语言模型进行了基准实验，并比较了多语言模型在日语和其他语言中的表现。压力测试实验的结果表明，当前的预训练语言模型对于单词顺序和语义标记不敏感。

Aug, 2022

基于测试套件的德英机器翻译的细粒度评估

本研究基于一个手动设计的语言测试套件，分析了 16 种 MT 系统在德 - 英翻译中的性能表现，可对它们基于性能在不同类别的漏洞和优势进行比较和鉴定。

Oct, 2019

JaQuAD: 用于机器阅读理解的日语问答数据集

本文提出了 JaQuAD 数据集，它是一种由人类注释的日语问答数据集，用于非英语语言的 QA 任务的研究。该数据集由 39,696 个问题 - 答案对组成并且基于日本维基百科文章。我们针对基线模型进行微调，测试数据集上的 F1 得分为 78.92％，EM 为 63.38％。

Feb, 2022

ChatGPT 自动评分的微调

本研究通过在科学教育中使用示例评估任务，突显了精调 ChatGPT（GPT-3.5）自动评分学生书面构建性答案的潜力。与经过领域特定训练数据细调的 Google 生成语言模型 BERT 相比，GPT-3.5 在自动评分准确性上表现出显著提高，并发布了细调模型以供公众使用和社区参与。

Oct, 2023

不同语言配对机器翻译的一致人工评估

提出一种新的指标 XSTS，用于语义等效性评估，以及一种跨语言校准方法，旨在解决人类评估过程中存在的问题。在涉及 14 种语言对的大规模评估中进行验证，证明了其有效性。

May, 2022

TransQuest 在 WMT2020 上的句子级直接评估

本文介绍了 TransQuest 团队在 WMT2020 的句子级直接评估任务中的参与，提出了一种基于跨语言 transformer 的简单 QE 框架，并使用它来实现和评估两个不同的神经架构。该方法取得了超越基线 OpenKiwi 的最新结果，并通过进行集成和数据增强进行了进一步优化。根据 WMT2020 的官方结果，我们的方法在所有语言配对中均获胜。

Oct, 2020