SemEval-2015 任务 3:社区问答中的答案选择
介绍了 SemEval--2016 的社区问答中的任务 3,包括英语和阿拉伯语,其中英语有三个子任务:问题 - 评论相似度(A),问题 - 问题相似度(B)和问题 - 外部评论相似度(C)。阿拉伯语有另一个子任务:为新问题重新排列正确答案(D)。18 个团队参加了该任务,提供了总共 95 个运行结果。
Dec, 2019
SemEval-2017 任务三关于社区问答,重新运行了 2016 年的四个子任务,提供了 2015 年和 2016 年的所有数据作为训练数据,并为测试提供了新数据,同时添加了一个新的子任务 E,以便在更大规模的情况下使用 StackExchange 子论坛进行多领域问答重复检测的实验。
Dec, 2019
SemEval-2019 任务 8 旨在检测社区问答论坛中的事实,其中子任务 A 是判断一个问题是要求事实信息还是意见 / 建议,还是仅仅是社交。子任务 B 要求预测对事实问题的回答是真实的,假的还是不恰当的回答。该研究共收到了 17 个子任务 A 的官方提交和 11 个子任务 B 的官方提交,并且所有系统的成绩都超过了大多数分类基准线。该比赛的排行榜和数据可以在 http URL 上找到。
May, 2019
本篇论文提出了一个新的选择题型问答数据集 SelQA,该数据集通过众包生成问题,并从英文维基百科中提取十个最常见主题的长度为答案。我们介绍了一种语料库注释方案,旨在通过明确减少问题和答案之间的词共现来增强生成大型、多样化和具有挑战性的数据集的过程。在回答句子选择和回答触发任务上,我们比较了几个系统,为未来的工作提供了强有力的基准结果。
Jun, 2016
介绍我们在 SemEval-2016 Task 3 on Community Question Answering 中的系统,我们通过结合丰富的语义、词汇、元数据和用户相关特征,在子任务 C 上取得了最好的结果,在子任务 A 和 B 上也取得了强大的结果,其中元数据的组合对于问题和评论是最重要的,在子任务 A 和 C 中使用 QatarLiving 数据训练的语义向量和问题与评论之间的相似性,在子任务 B 中使用原始问题与相关问题之间的相似性。
Sep, 2021
本研究提出了一种针对社区问答的二分类(相关 / 不相关)策略,采用敌对训练框架缓解标签失衡问题,并使用生成模型迭代地抽样一组具有挑战性的负样本,最终提高模型预测性能。此外,我们使用多尺度匹配方法显式地检查不同粒度级别的单词和 ngram 之间的相关性。在 SemEval 2016 和 SemEval 2017 数据集上进行评估,结果表明该方法达到或接近最佳性能。
Apr, 2018
本文提出了使用预训练模型的 Question-Answer 交叉注意网络(QAN)进行回答选择,并利用大型语言模型(LLM)来进行具有知识增强的回答选择。实验证明,QAN 模型在 SemEval2015 和 SemEval2017 数据集上实现了最新的性能。同时,LLM 利用外部知识进行问题和正确答案的知识增强,并通过不同方面对 LLM 的提示进行优化,结果表明外部知识的引入可以提高 LLM 在 SemEval2015 和 SemEval2017 数据集上的正确答案选择率,同时通过优化提示,LLM 也能在更多问题上选择正确的答案。
Nov, 2023
本研究使用问题者的背景信息及其他特征,例如文本内容或者与其他参与者的关系,并利用 Stack Exchange 数据集进行训练,提出一种预测最佳答案的新方法,并且证明了用户间的关系对结果具有重要影响。同时,我们发现用户关系信息与文本特征和元特征(如时间差异)之间有较少的重叠。
Dec, 2022
该研究提出了一种新的社区问答(CQA)总结任务,旨在从 CQA 对中创建简洁的摘要,并通过一系列数据注释和方法比较建立了一个强大的基线方法 DedupLED,进一步确认了 CQA 总结任务中的两个关键挑战,即句子类型转换和去重移除。
Nov, 2022
研究利用基于微调词嵌入和主题相似性的多个语义相似性特征寻找社区问答系统中的满意答案,其主要提交结果在 SemEval-2016 社区问答任务 3 的不同子任务中排名第三。
Nov, 2019