Machine Heart Machine心脏编辑基准是证明大型模型功能的一种方式。总的来说,有用的参考点非常困难并且接近现实。这个问题可以挑战Avant -Garde模型并反映实际情况。但是,现有证据面临着“难度”的矛盾。集中于考试的参考点通常是人为地确定的,这是困难的,但是它们的实际价值是有限的。基于实际用户交互的参考点倾向于更喜欢简单的高频问题。在这种情况下,斯坦福大学和华盛顿大学等机构的研究人员研究了他们评估完全不同方法的能力:未解决的主题模型。与唯一分数的静态参考点不同,这项研究不断收集问题,然后使用机制来检测和验证验证设备协助的社区,以实现连续的异步评估模型的离子。具体而言,本文提出了UQ(未解决的问题),这是一组500个问题的测试,涵盖了计算机理论,数学,科幻小说和历史等主题,研究了该模型在推理,客观精确和导航方面的能力。 UQ具有两个主要的设计功能:这些问题中的大多数都很困难并且接近现实。它们是人类发现的困难问题,但尚未解决,因此击败它们可以直接创造真正的价值。 Document title: UQ: Evaluation of the language model with the address of the unsolved question document: https://arxiv.org/pdf/2508.17580V1 Project Address: https://uq.stanford.edu/summary, this article contributes to: combination of the UQ dataand its collection process, UQ DATASET and its review of the collection process of the room. UQ-VALADORES:使用发电机验证器之间使用功能差距的构造真实验证系统(模型验证功能通常比发电能力更好),并在过滤之前对候选人的响应以进行后续手册审查合并验证策略。 UQ-Platform:一个开放的平台,允许专家在问题和答案中进行协作,从而使社区持续,异步和促进。在实验中,最佳性能模型仅在15%的问题中通过了UQ验证,并且初步的手动验证在这些经过验证的答案中确定了几个正确的答案。数据集简介UQ数据集由500个未解决的挑战性问题,漫画交换问题和答案组成,并通过3轮过滤获得了问题和答案。在过滤过程中,第一篇文章手动选择了80个桩交换社区(数学溢出,物理等)和未解决的问题,从而导致了大约300万个原始候选人的问题。然后检测几个阶段的过程已输入ed。每组过滤问题在一个阶段逐渐减少。基于规则的过滤将问题降低到33,916(占原始问题组的1.13%)。基于大规模语言模型的检测减少了7,685个问题(原始的0.26%)。最后,手动审查通过(例如,消除剩余重复,过度简化,规则或严重违规问题等),并获得了精心分类的500个问题集(占原始问题的0.02%)。随着问题的进展,在检测过程中,它们的困难和质量逐渐增加。特别是,基于大规模语言模型的检测大大增加了问题的难度。数据集的结构主要意味着科学问题,其次是技术和艺术生命:本文还发现,不同领域的问题可以检测模型的不同模型。例如,数学问题通常需要开放证据,Hile科幻小说和幻想问题集中在观看和搜索(例如基于剪辑图形的识别真实名称)。一旦确定问题解决了,研究人员将在随后的版本中消除该问题,并用新的未解决问题替换它。 UQ验证器UQ数据集非常有价值,但是对ModelOnela支持的会呈现的参考点进行评分指标。但是,由于没有标准响应,因此无法作为考试参考点执行自动验证。因此,本文基于非监管验证者。换句话说,不需要标准响应。未解决的问题通常是具有挑战性的,因此这些验证者的主要目的是排除错误候选人的答案,而不是证明候选人的回答是正确的。因此,在本文中,我们有意使用术语验证器而不是验证器。应该注意的是,因为有没有标准的响应,这种验证者通常会犯错误,但是它们可以在随后的手动评论中扮演支持角色。据了解,开发不需要标准答案的验证者的中心动机是假设验证候选人对困难问题的答案比产生这些答案更容易。该过程在实验中采用,其中一系列增量模型(例如O3-Mini→O4-Mini→O3)回答了这500个问题并注册了答案。每个模型都可以验证所有其他模型给出的答案,而无需触摸标准答案。最后,使用真实答案来鉴定这些验证结论并计算验证的精度。图5在左侧显示。随着模型提高功能,改进的验证精度要比回答问题的精度要快得多。实验中使用的验证管:五种模式的实验和实验评估LS包括O3,O4-Mini,O3-Mini,Gemini 2.5 Pro和十四行诗Claude 3.7。表1中的结果表明,验证策略可以显着提高与原始基线相比的验证的精度和精度。例如,对于十四行诗Claude 3.7,精度率从21.6%增加到73.2%,而精度从13.26%增加到20%,但在许多情况下,其成本较小。为了确保UQ的最佳验证者对人类审阅者有用,在这项研究中,几位审稿人邀请他们评估25个验证问题,以确定其给出的推理链是否在逻辑上保留。表2显示了一致性的人类和封闭修订者和验证者的范围很高,表明选民可以为人类审稿人提供有效的支持。当使用大型语言模型验证响应时,另一个挑战是显示明显的评估偏见。当研究人员应用Avant时-Garde模型直接在这种情况下,他们发现所有模型在评估自己的模式或制服(即同一开发人员的模型)时都会享有过多的乐观情绪。如图7所示,预测的模型性能要高得多。Gemini显然对自身有偏见,与其他模型相比,它的评分明显更高。克劳德(Claude)在所有响应模型以及本身中都表现出过度的乐观情绪。 Openai的O系列为O系列的其他模型提供了高估的评分。随着模型特性的增加(O3-Mini→O3),这种偏置减少了,但并未完全消除。该文档还发现,复合替代者的使用可以显着降低自我IS和过度乐观,以验证答案。最后,本文还发现,更强大的响应生成模型不一定是强有力响应的强烈验证模型。本文得出的关系EN通过参考信号和3发迭代验证过程的500 HLE问题的验证精度和答案的精度。更好的响应性能通常可以预测更好的验证性能(总体上一般趋势),但不是绝对的。例如,没有过程验证,O3作为响应模型比Gemini 2.5 Pro弱,但作为验证模型更强。过程验证后,O3-Mini和Claude 3.7十四行诗之间观察到了相同的投资趋势。此外,以响应精度,十四行诗Claude 3.7显着落后于Gemini 2.5 Pro,但其基于过程的验证性能超过了Gemini基线2.5 Pro的验证性能。请参阅原始文档以获取更多信息。
特别声明:以前的内容(照片和视频(如果有视频,包括照片和视频)),由Netase Auto-Media平台的用户收取和发布。IS平台仅提供信息存储服务。
注意:以前的内容(包括有照片或视频的视频)是由Neteteshao的用户加载和发布的,Neteteshao是一家社交媒体公司,该公司仅提供平台和信息存储服务。

你也可能喜欢

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注