大模型界「摩尔定律」Densing Law 来了!盲目Scaling将过时!

1个月前 12观看

文章来源:51CTO技术栈cFN喜好网-记录每日喜好的科技时尚娱乐生活

图片来源:由无界AI生成图片来源:由无界AI生成

Scaling Law会失效吗?cFN喜好网-记录每日喜好的科技时尚娱乐生活

虽然 OpenAI CEO 奥特曼掷地有声地说“这里没有墙”。但是,OpenAI的最近的发布也没有那么炸了,尤其是 o1 Pro 比满血版在编程能力上仅高出一分,似乎更让人相信了“墙”的存在。cFN喜好网-记录每日喜好的科技时尚娱乐生活

是时候跳出Scaling Law了!cFN喜好网-记录每日喜好的科技时尚娱乐生活

清华NLP实验室刘知远教授团队,提出的Densing Law(密度定律),给了我们一个全新的视角!cFN喜好网-记录每日喜好的科技时尚娱乐生活

不同于Scaling Law,认为随着模型规模(如参数数量)、训练数据集大小等参数的增长,模型性能会按照一定的幂律进行可预测的提高。cFN喜好网-记录每日喜好的科技时尚娱乐生活

大模型的密度定律的表达,与摩尔定律相似,重点讨论了能力如何随着时间而增强。cFN喜好网-记录每日喜好的科技时尚娱乐生活

简而言之:大模型能力密度约100天翻一倍!cFN喜好网-记录每日喜好的科技时尚娱乐生活

什么是能力密度呢?cFN喜好网-记录每日喜好的科技时尚娱乐生活

研究团队将其定义为模型的“有效参数量”与实际参数量的比值,是一种衡量 LLM(Large Language Model)训练质量的新指标。cFN喜好网-记录每日喜好的科技时尚娱乐生活

举个论文中的例子:2024年2月1日发布的MiniCPM-1-2.4B,其性能可以与2023年9月27日发布的Mistral-7B相媲美甚至更优。换句话说,4个月后,只需要使用参数量为35%的LLM,即可获得大致相当的性能。cFN喜好网-记录每日喜好的科技时尚娱乐生活

论文的第一作者说,用该定律推算,到明年年底,一个8B的小模型就可以实现GPT-4那么强悍的效果了。cFN喜好网-记录每日喜好的科技时尚娱乐生活

此外,研究团队发现,AI时代的三大核心引擎同样遵守密度定律,电力、算力与智力(AI),都有各自的倍增周期。其中,电池能量密度倍增时间为10年,芯片电路密度的倍增时间则为18个月。cFN喜好网-记录每日喜好的科技时尚娱乐生活

在论文的主要发现部分,研究团队还发现了5个重要的推论,让我们展开讲讲:cFN喜好网-记录每日喜好的科技时尚娱乐生活

模型的推理开销随时间呈指数级下降


cFN喜好网-记录每日喜好的科技时尚娱乐生活

根据密度定律(Densing Law),每三个月后,我们就可以用参数减半的模型,达到与以前相当的性能效果。cFN喜好网-记录每日喜好的科技时尚娱乐生活

因此,在实现相同任务性能的情况下,推理成本正以指数速度下降。cFN喜好网-记录每日喜好的科技时尚娱乐生活

团队发现,从2023年1月到现在,GPT-3.5级别模型的推理成本已降低了266.7倍。cFN喜好网-记录每日喜好的科技时尚娱乐生活


cFN喜好网-记录每日喜好的科技时尚娱乐生活

大模型能力密度呈加速增强趋势


cFN喜好网-记录每日喜好的科技时尚娱乐生活

团队比较了 ChatGPT 发布前后 LLM 密度的增长趋势,发现在这一节点后,LLM 密度的增长速度提高了 50%!cFN喜好网-记录每日喜好的科技时尚娱乐生活

这个结论不意外——可以说这波AI热就是从ChatGPT发布掀起的。cFN喜好网-记录每日喜好的科技时尚娱乐生活

无论我们怎么吐槽OpenAI的封闭生态,其对AI发展的巨大推动是不可磨灭的。cFN喜好网-记录每日喜好的科技时尚娱乐生活


cFN喜好网-记录每日喜好的科技时尚娱乐生活


cFN喜好网-记录每日喜好的科技时尚娱乐生活

模型小型化揭示端侧智能巨大潜力


cFN喜好网-记录每日喜好的科技时尚娱乐生活

摩尔定律(Moore, 1965)指出,相同面积的芯片上集成的电路数量呈指数增长,这意味着计算能力也在指数增长。cFN喜好网-记录每日喜好的科技时尚娱乐生活

而此次提出的密度定律(Densing Law)表明,LLM 的密度每 3.3 个月翻一番。cFN喜好网-记录每日喜好的科技时尚娱乐生活

结合这两个因素,团队提出:在价格相同的芯片上可运行的 LLM 有效参数规模的增长速度,超过了 LLM 密度和芯片计算能力的增长速度。cFN喜好网-记录每日喜好的科技时尚娱乐生活

这种双重增长的模式,就好像在电梯上跑步,让AI在不远的未来能在手机等端侧上丝滑运行。cFN喜好网-记录每日喜好的科技时尚娱乐生活


cFN喜好网-记录每日喜好的科技时尚娱乐生活

无法通过模型压缩增强模型能力密度


cFN喜好网-记录每日喜好的科技时尚娱乐生活

剪枝和蒸馏没我们想象得那么有用!cFN喜好网-记录每日喜好的科技时尚娱乐生活

在团队的研究中,通过比较模型与其压缩版本,发现广泛使用的剪枝和蒸馏方法通常会使压缩后的模型密度低于原始模型。cFN喜好网-记录每日喜好的科技时尚娱乐生活

研究认为,应该继续寻找更高效的模型压缩算法,尤其应更加注重提升小模型的密度。cFN喜好网-记录每日喜好的科技时尚娱乐生活


cFN喜好网-记录每日喜好的科技时尚娱乐生活

密度倍增周期决定模型存在“有效期”


cFN喜好网-记录每日喜好的科技时尚娱乐生活

一个残酷的事实,大模型也有有效期。cFN喜好网-记录每日喜好的科技时尚娱乐生活

每过数月,就会有更加“实惠”的新模型出现,这就意味着模型必须要在有限期之内,获得足够的盈利才能收支平衡。cFN喜好网-记录每日喜好的科技时尚娱乐生活

研究团队以API盈利方式估算,需要2个月内达成17亿用户访问!cFN喜好网-记录每日喜好的科技时尚娱乐生活

看了这个数字,我们更理解大模型为何如此烧钱。cFN喜好网-记录每日喜好的科技时尚娱乐生活

密度定律也提醒了AI圈,不要一味地追求Scaling。cFN喜好网-记录每日喜好的科技时尚娱乐生活

更重要的是如何在模型性能与效率间取得平衡。cFN喜好网-记录每日喜好的科技时尚娱乐生活

“盲目增加模型参数以追求性能提升可能会导致模型密度降低,从而引发不必要的能源消耗。例如,尽管 Llama-3.1-405B(Dubey 等,2024)在开源模型中实现了最先进的性能,但其所需的计算资源是其他模型的数百倍。”cFN喜好网-记录每日喜好的科技时尚娱乐生活

因此,未来的议题应该从单纯的性能优化转向密度优化。大模型走出“应试”,不再执着于榜单上的数字,才能真正走入应用的旷野之中。cFN喜好网-记录每日喜好的科技时尚娱乐生活

参考链接:
1.https://arxiv.org/abs/2412.04315
2.插图来源于研究课题组
大模型

本文链接:http://www.xihao.site/showinfo-1-62996.html大模型界「摩尔定律」Densing Law 来了!盲目Scaling将过时!

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com。天上从来不会掉馅饼,请大家时刻谨防诈骗