Inception 从秘密研发中推出新型 AI 模型

4个月前 22观看

总部位于帕洛阿尔托的新创公司 Inception,由斯坦福大学计算机科学教授 Stefano Ermon 创立,声称已开发出一种基于"扩散"技术的全新 AI 模型。Inception 将其称为基于扩散的大语言模型,简称"DLM"。Urh喜好网-记录每日喜好的科技时尚娱乐生活

目前受到最多关注的生成式 AI 模型大致可分为两类:大语言模型 (LLM) 和扩散模型。基于 Transformer 架构的 LLM 主要用于文本生成。而扩散模型则为 Midjourney 和 OpenAI 的 Sora 等 AI 系统提供支持,主要用于创建图像、视频和音频。Urh喜好网-记录每日喜好的科技时尚娱乐生活

据该公司介绍,Inception 的模型具备传统大语言模型的功能,包括代码生成和问答能力,但性能显著提升,且计算成本更低。Urh喜好网-记录每日喜好的科技时尚娱乐生活

Ermon 告诉 TechCrunch,他在斯坦福实验室长期研究如何将扩散模型应用于文本。他的研究基于这样一个观察:与扩散技术相比,传统大语言模型相对较慢。Urh喜好网-记录每日喜好的科技时尚娱乐生活

对于大语言模型,Ermon 表示:"在生成第一个词之前你无法生成第二个词,在生成前两个词之前你也无法生成第三个词。"Urh喜好网-记录每日喜好的科技时尚娱乐生活

Ermon 一直在寻找将扩散方法应用于文本的方式,因为与按顺序工作的大语言模型不同,扩散模型首先对要生成的数据 (如图片) 进行粗略估计,然后一次性将数据聚焦成型。Urh喜好网-记录每日喜好的科技时尚娱乐生活

Ermon 提出假设,使用扩散模型可以并行生成和修改大块文本。经过多年尝试,Ermon 和他的一名学生取得了重大突破,并在去年发表的研究论文中详细说明了这一成果。Urh喜好网-记录每日喜好的科技时尚娱乐生活

认识到这项进展的潜力,Ermon 于去年夏天创立了 Inception,并邀请两位前学生——UCLA 教授 Aditya Grover 和康奈尔大学教授 Volodymyr Kuleshov 共同领导公司。Urh喜好网-记录每日喜好的科技时尚娱乐生活

虽然 Ermon 婉拒讨论 Inception 的融资情况,但据 TechCrunch 了解,Mayfield Fund 已投资该公司。Urh喜好网-记录每日喜好的科技时尚娱乐生活

Emron 表示,Inception 已经获得了包括未具名的财富 100 强企业在内的多个客户,这些客户都急需降低 AI 延迟并提高处理速度。Urh喜好网-记录每日喜好的科技时尚娱乐生活

"我们发现我们的模型能够更高效地利用 GPU,"Ermon 提到这些在生产环境中常用的计算机芯片时说,"我认为这意味着重大突破。这将改变人们构建语言模型的方式。"Urh喜好网-记录每日喜好的科技时尚娱乐生活

Inception 提供 API 接口、本地部署和边缘设备部署选项,支持模型微调,并提供一套适用于各种场景的开箱即用 DLM。该公司声称其 DLM 的运行速度可达传统大语言模型的 10 倍,成本则降低至十分之一。Urh喜好网-记录每日喜好的科技时尚娱乐生活

"我们的'小型'编程模型与 [OpenAI 的] GPT-4 mini 性能相当,但速度快 10 倍以上,"该公司发言人告诉 TechCrunch。"我们的'迷你'模型性能超过 [Meta 的] Llama 3.1 8B 等小型开源模型,每秒可处理超过 1,000 个 token。"Urh喜好网-记录每日喜好的科技时尚娱乐生活

"Token"是业内用语,指原始数据的基本单位。如果 Inception 的声明属实,每秒处理 1,000 个 token 确实是一个令人印象深刻的速度。Urh喜好网-记录每日喜好的科技时尚娱乐生活

本文链接:http://www.xihao.site/showinfo-1-69718.htmlInception 从秘密研发中推出新型 AI 模型

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com。天上从来不会掉馅饼,请大家时刻谨防诈骗