无监督跨语言分词的自调参数
本研究发现,相比于互信息和条件概率等统计度量方法,所谓的 “过渡自由度” 度量方法在无监督分词方面表现更佳,跨多语料库提供了 0.71 到 1.0 的 F - 度量分数。我们发现,不同的语言需要该度量方法的不同分支(如导数、方差和 “峰值”)才能实现成功的分词。 更大的训练语料库不一定会导致更好的分词质量,而通过消除统计上薄弱的证据来压缩模型往往会提高性能。 该无监督分词技术提供的质量优于或与基于词典的技术相媲美,具体效果取决于语言。
May, 2022
本文探讨了人类自然语言结构如何成为相互之间交流编码演化的产物,以最大化文化不可知和跨语言度量,如反熵,压缩因子和交叉分割 F1 得分,并在超参数空间中执行元学习,通过最大化上述度量,实现自然语言学习。文中介绍了针对俄语,英语和汉语的跨语言单词级分割分词研究,以及对英语的子词分割或形态分析研究的初步结果。研究发现,从分词到分词中可以发现,这些度量驱动着语言结构,反熵更相关于英语和俄语,而压缩因子更适用于中国。对于英语词汇表的子词分割或形态分析的研究揭示了压缩和压缩因子之间存在直接联系,而惊讶的是,与反熵的相同联系却变成了相反。
Jun, 2023
本研究开发了全无监督评估指标,利用评估指标的彼此相似性和协同作用、平行语料库挖掘和机器翻译系统等方法,以及迭代地挖掘伪平行数据、对不足的基础矢量空间重新映射并诱导无监督机器翻译系统,最终提供伪参考作为度量的附加组件,同时还利用伪平行数据诱导无监督多语言句子嵌入。结果表明,我们的全无监督度量是有效的,在 5 个数据集中的 4 个上打败了监督竞争对手。
Feb, 2022
本文介绍了一种有效的迁移学习框架,用于在文本转语音系统中进行语言适应,重点是通过使用尽可能少的标记和未标记数据实现语言适应。实验结果表明,我们的框架能够仅使用 4 个标记数据和 15 分钟未标记数据合成未知语言的可懂语音,还能在可获得更多数据的情况下超越传统技术,凸显了我们的高效语言适应框架的潜力。
Jan, 2024
综合比较多语言预训练模型的效率时,在考虑内存使用、推理速度和数据健壮性等方面,基于子词的模型仍然是许多场景下更可靠的选择,此为当前研究结果,建议未来的 tokenizer-free 方法在设计和评估模型时也要考虑这些因素。
Oct, 2022
本研究提出了一种新的无监督方法,通过使用单语数据来获得跨语言句子嵌入,产生了合成平行语料库,使用预训练的跨语言掩码语言模型(XLM)对其进行微调以得到多语言句子表示,并在两个平行语料库挖掘任务上评估了表示的质量,结果表明,这种方法可以比基准 XLM 模型获得高达 22 个 F1 点的改进。此外,我们还观察到,单个合成的双语语料库能够改善其他语言对的结果。
May, 2021
本文旨在探究是否可以利用预训练的多语言语言模型,对于没有训练数据的语言进行零样本跨语言关键字提取,并且比较它们与无监督关键字提取器的表现差异。研究结果表明,预训练模型在所有六种语言中都能在零样本条件下,比无监督模型表现更好。
Feb, 2022
研究使用大型语言模型 Fine-tune,通过自动化方法识别社交媒体中的仇恨言论和有害内容,团队达到了 2021 年 HASOC 竞赛中英语和印地语任务的最佳结果。
Feb, 2022
本文提出了两种跨语言学习模型的方法 (XLMs): 一种是仅依赖于单语数据的无监督方式, 另一种是利用新的跨语言模型目标并使用平行数据的有监督方式。通过这些方法在跨语言分类、无监督和有监督机器翻译中取得了最先进的结果。
Jan, 2019