AI 推理模型的兴起使基准测试成本大幅提升

5天前 4观看

AI 实验室如 OpenAI 声称他们所谓的"推理型" AI 模型能够一步步"思考"解决问题,在物理等特定领域比非推理模型更强大。但虽然这种说法普遍看来是正确的,推理模型的基准测试成本却要高得多,这使得独立验证这些声明变得困难。kd2喜好网-记录每日喜好的科技时尚娱乐生活

根据第三方 AI 测试机构 Artificial Analysis 的数据显示,在七个流行的 AI 基准测试上评估 OpenAI 的 o1 推理模型需要花费 2,767.05 美元,这些测试包括:MMLU-Pro、GPQA Diamond、Humanity's Last Exam、LiveCodeBench、SciCode、AIME 2024 和 MATH-500。kd2喜好网-记录每日喜好的科技时尚娱乐生活

对 Anthropic 最新的"混合"推理模型 Claude 3.7 Sonnet 进行同样的测试花费了 1,485.35 美元,而测试 OpenAI 的 o3-mini-high 则花费了 344.59 美元。kd2喜好网-记录每日喜好的科技时尚娱乐生活

有些推理模型的测试成本较低。例如,Artificial Analysis 评估 OpenAI 的 o1-mini 只花费了 141.22 美元。但平均而言,这些模型的测试成本都很高。总的来说,Artificial Analysis 在评估大约十几个推理模型上花费了约 5,200 美元,这几乎是该公司分析超过 80 个非推理模型所花费金额 (2,400 美元) 的两倍。kd2喜好网-记录每日喜好的科技时尚娱乐生活

OpenAI 的非推理模型 GPT-4o (2024 年 5 月发布) 的评估成本仅为 108.85 美元,而 Claude 3.6 Sonnet (Claude 3.7 Sonnet 的非推理前身) 的评估成本为 81.41 美元。kd2喜好网-记录每日喜好的科技时尚娱乐生活

Artificial Analysis 联合创始人 George Cameron 告诉 TechCrunch,随着更多 AI 实验室开发推理模型,该组织计划增加基准测试支出。kd2喜好网-记录每日喜好的科技时尚娱乐生活

"在 Artificial Analysis,我们每月进行数百次评估,并为此投入大量预算,"Cameron 表示,"随着模型发布频率的增加,我们预计这方面的支出会继续上升。"kd2喜好网-记录每日喜好的科技时尚娱乐生活

Artificial Analysis 并非唯一一个面临 AI 基准测试成本上升的机构。kd2喜好网-记录每日喜好的科技时尚娱乐生活

AI 创业公司 General Reasoning 的 CEO Ross Taylor 表示,他最近花费了 580 美元对 Claude 3.7 Sonnet 进行了约 3,700 个独特提示的评估。Taylor 估计,仅运行一次 MMLU Pro (一个用于测试模型语言理解能力的问题集) 就要花费超过 1,800 美元。kd2喜好网-记录每日喜好的科技时尚娱乐生活

"我们正在进入这样一个世界:实验室报告在某个基准测试上达到 x% 的性能时投入了 y 量的计算资源,但学术界能获得的资源远远小于 y,"Taylor 最近在 X 平台上发文说,"没有人能够复现这些结果。"kd2喜好网-记录每日喜好的科技时尚娱乐生活

为什么推理模型的测试成本如此之高?主要是因为它们会生成大量的 token。Token 代表原始文本的片段,例如将"fantastic"这个词拆分成"fan"、"tas"和"tic"这样的音节。根据 Artificial Analysis 的数据,OpenAI 的 o1 在该公司的基准测试中生成了超过 4,400 万个 token,约为 GPT-4o 生成量的 8 倍。kd2喜好网-记录每日喜好的科技时尚娱乐生活

大多数 AI 公司按 token 收费,由此可以看出这些成本是如何累积的。kd2喜好网-记录每日喜好的科技时尚娱乐生活

开发自己基准测试的 Epoch AI 高级研究员 Jean-Stanislas Denain 表示,现代基准测试也倾向于从模型中获取大量 token,因为它们包含涉及复杂多步骤任务的问题。kd2喜好网-记录每日喜好的科技时尚娱乐生活

"今天的基准测试更复杂,尽管每个基准测试的问题数量总体上减少了,"Denain 告诉 TechCrunch,"它们经常试图评估模型执行现实世界任务的能力,比如编写和执行代码、浏览互联网以及使用计算机。"kd2喜好网-记录每日喜好的科技时尚娱乐生活

Denain 补充说,最昂贵的模型的每个 token 成本随时间推移变得更高。例如,Anthropic 的 Claude 3 Opus 在 2024 年 5 月发布时是最昂贵的模型,每百万输出 token 成本为 75 美元。OpenAI 的 GPT-4.5 和 o1-pro (都在今年早些时候发布) 的成本分别为每百万输出 token 150 美元和 600 美元。kd2喜好网-记录每日喜好的科技时尚娱乐生活

"由于模型随时间推移变得更好,达到特定性能水平的成本确实已经大大降低,"Denain 说,"但如果你想评估任何时点上最好的大型模型,你仍然需要支付更多。"kd2喜好网-记录每日喜好的科技时尚娱乐生活

包括 OpenAI 在内的许多 AI 实验室为基准测试机构提供免费或补贴的模型访问权限用于测试。但一些专家表示,这会影响测试结果的公正性——即使没有操纵的证据,AI 实验室的参与暗示也会威胁到评估打分的完整性。kd2喜好网-记录每日喜好的科技时尚娱乐生活

"从科学的角度来看,如果你发布的结果没有人能用相同的模型复现,这还能算是科学吗?"Taylor 在 X 平台上的后续帖子中写道,"它曾经是科学吗?"kd2喜好网-记录每日喜好的科技时尚娱乐生活

本文链接:http://www.xihao.site/showinfo-1-73129.htmlAI 推理模型的兴起使基准测试成本大幅提升

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com。天上从来不会掉馅饼,请大家时刻谨防诈骗