- COLING通过跨语言迁移辅助构建日文文档级关系抽取数据集
将英文资源应用于日语的文档级关系抽取任务,构建了一个通过将英文数据集转化为日语的数据集,并将模型预测结果用于人工标注,减少了大约 50%的人工编辑步骤。该研究评估了现有的 DocRE 模型在所构建数据集上的性能,并揭示了日语和跨语言 Doc - JaFIn: 日本金融指导数据集
我们通过构建一个适用于大型语言模型(LLM)的指令数据集,展示了指令调整通过域适应的有效性,利用多个数据源手动构建了一个名为 JaFIn 的日文金融指令数据集,并应用于几个 LLM,证明我们的金融专业模型在领域适应性方面比原始模型更好,通过 - COLING日语预训练模型发布
通过提供在日本文化价值观中与之一致的人工智能模型,扩大了人工智能的民主化,同时实验证明专门用于日本的预训练模型能够高效地在日本任务上取得高性能。
- COLING最小人工投入快速开发大型语言模型的高质量指导数据和评估基准:以日语为例的案例研究
我们提出了基于 GPT-4 的高效自指导方法,通过翻译少量英语指令并进行修订,为日语构建高质量的指令数据和评估基准,并证明使用我们的 GPT-4 自指导数据进行微调的模型在所有三个基本预训练模型上表现明显优于 Japanese-Alpaca - SALAD: 智能 AI 语言助手日报
SALAD 是一个 AI 驱动的语言学习应用,旨在帮助外国人学习日语,提供汉字 - 假名 - 罗马字翻译、语音识别、翻译音频、词汇跟踪、语法解释和由新学单词生成的歌曲。该应用以初学者和中级学习者为目标,旨在使语言习得更加易于接触和愉快。SA - JaColBERT 和 Hard Negatives:更好的检索性日语优先嵌入
JaColBERT, a document retrieval model specifically designed for Japanese, outperforms previous monolingual retrieval app - 日本 SimCSE 技术报告
开发了日本 SimCSE,使用 SimCSE 对日本句子嵌入模型进行了微调。在本研究中,我们通过对 24 种预训练的日本语或多语言语言模型、五个有监督数据集和四个无监督数据集进行广泛实验,提供了日本 SimCSE 的详细训练设置和评估结果。
- 非母语读者的日语词汇复杂性:一个新的数据集
构建了针对日语的第一个 LCP 数据集,并通过 BERT 模型在基准实验中证明了其在日语 LCP 任务中的有效性,同时提供了适合中文 / 韩文标注者和其他读者的分离复杂度得分以满足读者的母语特定需求。
- ACL脚本连续语言中不同的分词器在下游任务中的表现?:以日语为例的案例研究
本文旨在研究分词器对预训练语言模型在 scriptio continua 语言(如日语)下游性能的影响,结果表明对于任何类型的任务,使用 Byte-Pair-Encoding 或 Unigram 作为子词分割器都比 WordPiece 更佳 - 礼貌刻板印象与攻击向量:日韩语言模型中的性别刻板印象
该研究旨在探讨日韩语言模型中的性别偏见和礼貌级别的语法性别偏见,发现非正式礼貌语是女性语法性别的最佳指示符,粗鲁和正式语言是男性语法性别的最佳指示符。同时,礼貌级别是网络欺凌检测模型中的分配性别偏见攻击向量,并提出了一种攻击数据集来显示分配 - ACL关于日语语音识别的宽松评估:建模自然发生的拼写不一致性
本研究提出了一种新的宽松的评价模型作为日语自动语音识别的更具潜力的 CER 测量,通过利用词汇量,文本处理计算机系统以及神经机器翻译模型对参考转录文本进行了合理重写。
- ACL回归模式:使用特征序列 Trie 进行高效的日本语形态分析
本研究使用最快的基于模式的 NLP 方法,以提高其精度,从而为日语提供简单而准确的形态分析器,该方法可以每秒处理超过 1,000,000 个句子在现代 CPU 上,而与学习为基础的基线相比呈现出相当的准确性。
- 大型语言模型对日语提示的敏感性和鲁棒性
本文通过全面评估几个代表性的大型语言模型(LLMs)和广泛使用的预训练模型 T5,在基准日语数据集上对这些模型进行了审查,旨在评估和分析当前跨语言模型在这一背景下的性能,并提出了潜在的研究路径,以进一步提高大型语言模型在稳定性方面的性能。
- 基于 PLATO-2 的主题转换适应性日语对话系统
我们使用直树形式的 165.6 万条来自新闻、电视字幕和维基百科语料库的数据集(即 Dialogue-Graph)来训练基于 PLATO-2 的大规模日语对话系统 PLATO-JDS。为了改进 PLATO-JDS 中的主题切换问题,我们引入 - 基于 HyperCLOVA 的旅游指导机器人
本文介绍了我们在 2022 年对话机器人竞赛中提交的系统。该系统是基于规则和生成式对话系统的组合模型。我们利用 HyperCLOVA(一种日本基础模型)来生成回复和摘要、搜索信息等。此外,我们还使用了我们原创的语音识别系统,并对其进行了本次 - MM构建和评估一种自注意力模型,用于句末语气词的语义理解
本文介绍了 Subjective BERT,一种自注意力模型,能够获取日语中表达话者态度的句末助词(sentence-final particles)的意义和应用,并通过评估实验证明模型对 'yo' 和 'ne' 的使用具有能力。
- JaQuAD: 用于机器阅读理解的日语问答数据集
本文提出了 JaQuAD 数据集,它是一种由人类注释的日语问答数据集,用于非英语语言的 QA 任务的研究。该数据集由 39,696 个问题 - 答案对组成并且基于日本维基百科文章。我们针对基线模型进行微调,测试数据集上的 F1 得分为 78 - 构建日语语法错误修正自动评估质量估计数据集
本研究针对日本语言的语法错误校正,通过构建手动评估的数据集,建立了自动评估模型,并进行了元评估以验证该数据集的实用性。
- MM利用资源丰富的语言数据集进行资源匮乏语言的端到端场景文本识别
本文介绍了一种用于端到端场景文本识别的训练方法,该方法利用多语言数据集进行编码器的预训练,将编码器上的知识泛化到目标语言;同时,使用目标语言的数据集训练解码器以提高模型在目标语言数据上的表现。实验表明,该方法在小规模数据集上具有较好的识别效 - EMNLPPython 中的日语词汇剖析工具 fugashi
本文介绍了 fugashi,这是一个用于 Python 的 MeCab 包装器,以及介绍了如何对日本语进行分词。