跨语言词嵌入的交互式优化
我们研究了 ChatGPT 对豪萨文化和情感的表达方式,通过比较生成回答和豪萨本地人在 37 个与文化相关的问题上的回答,以及运用情感分析和相似性度量等方法进行实验和评估,结果显示 ChatGPT 在某种程度上和人类回答相似,但同时也存在知识和文化认知方面的不足和偏见。我们讨论了我们方法和分析的意义和局限,并提出了改进低资源语言下大语言模型性能和评估的方法。
Jun, 2024
在这项研究中,我们探讨了在语言资源有限情况下,特别是零标记的跨语言转移(0-CLT)环境下,基于自我监督提示(SSP)的大型语言模型(LLM)在自然语言处理(NLP)任务中的效果,并通过实验证明 SSP 在这个设置中优于现有的基线模型。
Jun, 2024
被动声学监测(PAM)在鸟类生物声学中能够以最小干扰自然栖息地的方式实现经济高效、广泛的数据收集。本文概述了一种深度主动学习方法,介绍了关键挑战,并进行了一个小规模的试点研究。
Jun, 2024
研究了三种低资源跨语言方法,并在语境学习和微调下发现通过添加额外的主导语言监督信号,对 LLM 的跨语言转移有所改进;同时,发现将目标语言适应词汇重排可能对 ICL 有益,但随着微调而减弱;最后,继续以一种低资源语言进行预训练可提高其他相关低资源语言的模型性能。
Jun, 2024
在仅有限标记数据可用的情况下,主动学习通过设计查询策略来选择信息量最大的数据点进行标记,旨在提高学习算法的效率和性能。然而,目前缺乏对不同查询策略性能进行比较的标准化基准,特别是在将不同学习算法与主动学习流程相结合并考察学习算法选择的影响方面。为了弥补这一空白,我们提出了 ALPBench,用于支持主动学习流程的规范、执行和性能监控。它内置了可确保可重复评估的措施,保存了使用算法的精确数据集拆分和超参数设置。总共,ALPBench 包含 86 个真实的表格分类数据集和 5 个主动学习设置,产生 430 个主动学习问题。为了证明其对各种学习算法和查询策略的有用性和广泛兼容性,我们进行了一项示例研究,评估了 9 种查询策略与 8 种学习算法在两种不同设置下的表现。我们在此提供 ALPBench:[URL]
Jun, 2024
在昂贵的多目标组合优化问题中,积极学习被越来越多地采用,但它涉及一个具有挑战性的子集选择问题,即优化批量采集评估的好坏量化指标。为了管理庞大的搜索空间,我们引入了一种新颖的贪婪式子集选择算法,通过基于贪婪策略的顺序贪婪采样,直接在组合空间上优化批量采集,以同时解决所有贪婪子问题。值得注意的是,我们在红色荧光蛋白设计任务上的实验证明,我们提出的方法在查询次数减少了 1.69 倍的情况下,实现了基准性能,显示出其高效性。
Jun, 2024
使用大型语言模型(LLMs)进行代码修复可以在高资源语言和低资源语言上实现较好的性能表现,但低资源语言中的代码修复效果受到了深知识缺乏的基础模型的限制。我们提出了一种名为 DistiLRR 的方法,通过从教师模型到学生模型的推理和代码生成能力转移,可以在低资源语言中获得比基线模型更好的性能。研究结果显示 DistiLRR 在低资源语言上始终优于基线模型,但在高资源语言上性能相似。我们经过进一步分析,发现了解释质量与代码正确性之间的相关性较弱,这种弱点在低资源环境中被放大,因为基础模型缺乏对编程语言的深入知识,导致代码修复在高资源和低资源语言之间的效果存在差异。
Jun, 2024
我们探索了一种用于动态公平资源分配问题的主动学习方法,该方法假设在在线资源分配过程的每个时期,仅从选择的代理人子集中获取反馈。尽管存在这种限制,我们提出的算法在包括资源分配问题中常用的公平度量和匹配机制中的稳定性考虑等各种度量中,提供了与时间周期数次线性相关的后悔界限。我们算法的关键洞察在于通过利用对决性的上限和下限置信区间来自适应地识别最具信息量的反馈。通过这种策略,我们证明高效的决策不需要大量的反馈,并为各种问题类别产生高效的结果。
Jun, 2024
提出了一种在低资源语言中生成和验证问题回答数据集的方法 SynDARin,该方法利用平行内容挖掘获得英文和目标语言之间的人工精选段落,使用英语数据作为上下文生成合成的多项选择问题 - 回答对,并经过自动翻译和质量验证。人类评估显示,生成的英文数据在问题类型和主题方面保持了 98% 的质量和多样性,翻译验证流程能够过滤掉约 70% 质量差的数据。使用数据集对最先进的大模型进行评估表明,它们无法达到人类的准确性,部分模型的表现接近随机机会。这表明生成的数据集非平凡,并可用于评估低资源语言中的推理能力。
Jun, 2024