通过最小化 N-subjettiness 最大化 Boosted Top 鉴定

Aug, 2011

通过最小化 N-subjettiness 最大化 Boosted Top 鉴定

Maximizing Boosted Top Identification by Minimizing N-subjettiness

Jesse Thaler, Ken Van Tilburg

TL;DR本文通过使用 k-means 聚类算法的一种新变体来最小化所有可能的子喷口方向，对 N-subjettiness 进行了推广和改进，使 N-subjettiness 成为一种高效的强子双顶夸克的标记器，并通过多元技术展示了附加改进。

Abstract

n-subjettiness is a jet shape designed to identify boosted hadronic objects such as top quarks. Given N subjet axes within a jet,

n-subjettiness boosted hadronic objects top quarks k-means clustering algorithm multivariate techniques

发现论文，激发创造

通过少样本注释者适应实现成本高效的主观任务注释和建模

通过使用多样的标注员并最大限度降低标注预算，我们提出了一个新的主观任务注释收集和建模框架，通过两阶段设计，使用少量标注员和有策略地标注一些样本，提高了预测性能，并减少了注释预算，同时我们构建了一个包含 2000 个 Reddit 帖子的独特数据集，并在两个数据集上展示了我们的框架超越之前的最优结果，捕捉了标注员个体视角并减少了性能差异。

Feb, 2024

Obj2Sub: 无监督将客观问题转化为主观问题

本文提出了一种新颖的混合非监督学习方法，采用基于规则的方法和预训练的稠密检索器，自动将客观问题转换为主观问题，从而测试学习者的理解程度。实验证明，相对于现有的数据驱动方法，本文的方法可以将召回率和准确率提高 36.45%。

May, 2022

Gpachov 在 CheckThat！2023 中的新闻文章主观性检测的多元多途径集成

社交网络的广泛使用导致互联网上存在主观、误导甚至虚假信息。因此，主观性检测可以在确保信息的客观性和质量方面发挥重要作用。本文介绍了 Gpachov 团队在 CLEF-2023 CheckThat！实验室任务 2 中构建的解决方案，该解决方案涉及三个不同的研究方向，采用了微调句子嵌入编码器模型和降维、样本高效少样本学习模型以及多语言数据集上微调多语言转换器等方法，并通过简单多数投票集成的方式融合三种方法，在测试集上达到 0.77 的宏 F1，并在英语子任务上获得第二名。

Sep, 2023

ThatiAR：阿拉伯新闻句子主观性检测

本研究介绍了第一个用于阿拉伯语主观性检测的大型数据集，包括约 3.6K 个手动注释的句子，并基于 GPT-4o 提供解释。我们还提供了英语和阿拉伯语的说明以便进行基于 LLM 的微调，并进行了数据集、注释过程以及广泛基准测试结果的深入分析，包括预训练语言模型 (PLMs) 和 LLMs。我们的分析表明，注释者在注释过程的开始阶段受到其政治、文化和宗教背景的强烈影响。实验结果表明，具有上下文学习的 LLMs 表现更好。我们旨在向社区发布该数据集和资源。

Jun, 2024

通过总结多源多观点的知识回答产品主观归纳性问题

这篇论文提出了在产品领域上回答主观归纳问题（SUBJPQA）的新任务。针对这类问题，答案并不唯一，可以从多个角度解释。为了解决这一新任务，作者提出了一种三步法，涉及知识源的检索、问题的关联和多角度答案的生成。此外，作者构建了一个大规模的数据集，并展示了方法的有效性。

Sep, 2023

一项关于学习和改进无监督释义搜索目标的实证研究

本文研究无监督文本生成技术中的优化问题，提出利用学习模型平滑启发式搜索目标函数中的噪声以及与原始目标函数相结合来指导搜索，实验表明，这种方法可以略微提高搜索性能。

Mar, 2022

SubjQA: 一份主观性和评论理解数据集

该研究探讨主观性和问答之间的关系，并基于顾客评论发布了一个包含 6 个领域主体性注释的问答数据集（SubjQA）。

Apr, 2020

建模协作者：通过 LLM 工具使用实现最小人力投入的主观视觉分类

通过使用自然语言交互减少人工标记工作量，本研究提出了一个新框架，用于快速定义概念并自动标记训练数据点，从而替代传统的手动分类方法。在 15 个主观概念和 2 个公共图像分类数据集上进行测试，我们的训练模型在敏捷建模以及 ALIGN、CLIP、CuPL 等最新的零样本分类模型以及大型视觉问答模型（如 PaLI-X）之上表现出色。

Mar, 2024

英文新闻文章句子级主观性检测语料库

该研究介绍了一个用于句子级别主体性检测的新语料库，其中包括英语政治事务的主观句子和客观句子，同时开发了新的标注指南和使用最新的多语言转换模型，使得该语料库能够用于英语和其他语言的主体性检测，并在其他语言丰富资源的情况下，提高了该任务的结果。

May, 2023

跨多元社群中有毒评论识别的主观建模（通过模仿标注者注释）

在线毒性讨论的普及和影响使内容管理至关重要。自动化系统在识别有毒评论和减少对人工管理的依赖方面起着至关重要的作用。然而，识别多样化社区的有毒评论仍然存在挑战，本研究对此进行了探讨。

Nov, 2023