通过强化学习调整注释边界框，提高端到端场景文本识别的最优性

ECCVJul, 2022

通过强化学习调整注释边界框，提高端到端场景文本识别的最优性

Optimal Boxes: Boosting End-to-End Scene Text Recognition by Adjusting Annotated Bounding Boxes via Reinforcement Learning

PDF

Jingqun Tang, Wenming Qian, Luchuan Song, Xiena Dong, Lan Li...

TL;DR本文提出了一种名为 Box Adjuster 的基于强化学习的方法，用于调整每个文本边界框的形状以使其更与文本识别模型兼容。此外，当处理跨域问题时，该方法显著减少源域和目标域之间的分布不匹配。实验证明，使用调整后的边界框作为训练的基础可以提高端到端文本识别系统的性能。在多个场景文本理解基准数据集上，该方法的端到端文本识别任务的 F-Score 平均提高了 2.0％，域适应任务的 F-Score 平均提高了 4.6％，表现优于现有技术。

Abstract

Text detection and recognition are essential components of a modern ocr system. Most ocr approaches attempt to obtain accurate bounding boxes of text at the detection stage, which is used as the input of the

ocr text recognition bounding box box adjuster domain adaptation

发现论文，激发创造

基于合成数据的音乐标签训练研究

探讨使用合成数据集在标签系统中的应用，研究发现将合成数据集添加到 GTZAN 训练集并不能提高性能，而领域自适应和迁移学习策略可以提升准确度，为未来研究提供了有益的参考。

Jul, 2024

遮挡感知的无缝分割

通过引入一种新的任务 ——Occlusion-Aware Seamless Segmentation (OASS)，本研究同时处理全景图像的视野拓宽、场景理解的遮挡感知预测和视域适应等挑战，并提出了一种名为 UnmaskFormer 的解决方案，实现了狭窄的视野、遮挡和领域差异的同时处理。该方法在 Benchmark 数据集 BlendPASS 上取得了最先进的性能，mAPQ 达到 26.58%，mIoU 达到 43.66%。在公开的全景图像语义分割数据集 SynPASS 和 DensePASS 上，该方法超过了之前的方法，分别获得了 45.34% 和 48.08% 的 mIoU。所提供的 BlendPASS 数据集和源代码将公开提供。

Jul, 2024

M2QA：多领域多语言问答

通过引入多领域多语言问题回答基准 M2QA，并利用其探索经过微调的模型、最新最先进的 LLM 的跨语言跨领域性能，以及研究模块化方法对领域和语言进行适应，我们发现模型类别内在领域 - 语言组合上具有相当大的性能差异，并且在所有模型规模上源语言 - 目标语言 / 领域组合之间存在显著的性能下降。我们证明了 M2QA 并未得到完全解决，需要新的方法来有效地传递语言和领域特定信息。

Jul, 2024

应用 LLMs 对非正式对话的 ASR 候选解进行再评分：领域适应和上下文传递的影响

大语言模型已成功应用于重新评分自动语音识别假设，本研究揭示了它在非正式谈话中重新评分自动语音识别假设的能力，证明了 Llama2 在 CHiME-7 远程 ASR 任务上的优越性。

Jun, 2024

去噪作为适应性问题：图像恢复的噪声空间域自适应

通过扩散模型在噪声空间中进行域适应，我们展示了一种针对深度学习图像修复的方法，其通过利用多步去噪过程受辅助条件输入影响的独特属性，逐渐将合成数据和真实世界数据的修复结果对齐到一个共同的干净分布。

Jun, 2024

超声心动图分割的域自适应方法基于强化学习

采用强化学习模型 RL4Seg，克服医学图像领域域适应性问题，实现准确率 99%，生成具有解剖学可行性的分割图像。

Jun, 2024

学习概念转变时：混淆、不变性和降维

基于观测数据的领域自适应问题，通过线性结构因果模型和表示学习方法，研究使用不变的协变量表示来解决概念漂移和改善目标预测的可行性，并通过在 Stiefel 流形上约束优化来证明大多数局部最优解与不变的线性子空间一致。通过验证实现方法和理论的三个真实数据集。

Jun, 2024

词汇的重要性：什么影响了摘要的领域适应性？

通过分析训练数据中的 ` 词汇 ' 对总结任务的具体影响，本文研究细粒度因素对于领域适应性能的影响，并提出将数据集学习难度量化为生成式总结的学习难度，并得出跨域重叠与总结任务的性能增益之间存在近似线性关系的实验结论，从而实现对未知领域数据集模型性能的预测而无需经过训练。

Jun, 2024

日本医学问答中的 70B 参数大型语言模型

通过使用多个 70B 参数的大型语言模型以及日本医学问答数据集进行指导调整，我们首次展示了指导调整显著提高了日本医学领域的语言模型在解决日本医学许可考试方面的准确性，超过了 50%。特别是，与英文为中心的模型相比，以日语为中心的模型在通过指导调整方面取得了更大的改进，这凸显了我们地方语言的持续预训练和标记工具的调整的重要性。我们还检验了两种略有不同的提示格式，结果显示有可观的性能改进。

Jun, 2024

Llama3-70B-Instruct 的领域适应：连续预训练和模型合并的综合评估

在金融监管数据集上，我们对 Meta-Llama-3-70B-Instruct 模型的领域适应性进行了广泛的实验，探索其在通用和特定领域基准上的性能。我们关注了持续预训练（CPT）和模型合并，旨在增强模型的特定领域能力，同时减轻灾难性遗忘。通过本研究，我们评估了将金融监管数据集整合到一个健壮的语言模型中的影响，并检验了我们的模型合并技术在保护和提高模型的指导能力方面的有效性。

Jun, 2024