12月6日-7日,2024 T-EDGE创新大会暨钛媒体财经年会在北京市大兴区举办。
12月7日上午T-EDGE 全球AI论坛:All-in On AI会议上,智谱CEO张鹏以“GLM 大模型与通用人工智能之路”为主题,围绕 AI 大模型发展与应用展开深入演讲。
张鹏表示,AI 大模型并没有进入到“平台期”或者进入“萧条期”,实际有很多问题要做。而且,大模型的发展空间不仅是盯着简单的语言生成,视觉、听觉、运动、基础的模态能力等各方面,多模态、推理和Agent等能力都在遵循着Scaling Law(尺度定律),发展潜力非常大。
在张鹏看来,大模型发展至今开始逐步具有上述人类与现实物理世界互动的能力:L1语言能力进程 80%、L2逻辑能力(多模态能力)60%、L3使用工具的能力进程 30%,甚至L4自我学习的能力也正在逐渐出现。
对于OpenAI最新发布的o1 Pro模式的推理模型,张鹏认为,满血版o1再次将复杂问题求解的能力推上新台阶,复杂推理的发展非常值得期待。
“瞄向AGI的路程还很长,有大量的任务等待我们做,大可不必那么悲观说在语言层面上碰到的(Scaling Law)停滞现象,我们就觉得AGI‘完蛋’了。”张鹏指出,对于人类本身的 AI 能力是比较明确的,我们需要对照人类的智能能力去打造通用人工智能(AGI)。
实际上,自2023年3月智谱 AI 推出千亿开源基座对话模型ChatGLM系列以来,GLM大模型经历四个大版本迭代,共发布了超过20款 AI 模型技术和产品。截至2023年底,智谱 AI 已拥有超过2000家生态合作伙伴、超过1000个大模型规模化应用,覆盖传媒、咨询、消费、金融、新能源、互联网、智能办公等多个细分场景。
张鹏认为,如今的Agent可以做到像人一样,理解界面、规划任务、使用工具、完成任务,从而更聪明地代替人类行动。我们对于对于AI 内心所真正期待的是,AI 像人一样,拥有各种各样类型能力,而且都在水平线以上的综合性AI能力,并且能够像人一样处理复杂任务,而不是单一任务,从而解答复杂的问题。
展望未来,张鹏强调,随着语言模型、多模态以及AI Agent等技术走向成熟,从整个技术演进方面来看,我们对此非常有信心,真正让大模型的技术能够走入现实世界,帮助大家解决更复杂的问题。同时,这些技术在成熟的过程当中,让这些技术变成相应产品,创造更大的生产力价值,以及相应的市场回报。
“对于智谱来讲,我们的目标永远是让‘机器像人一样思考’,并且让机器服务人类。”张鹏在结尾表示。
以下是张鹏在钛媒体2024T-EDGE上的演讲实录,经钛媒体AGI整理:
非常荣幸能够来到钛媒体的年会现场,和大家进行分享。
最近关于AI、关于大模型的讨论非常多,有不同的观点进行激烈的碰撞,我最近会被很多人问这样一个问题:AI未来发展的空间到底在哪里。
下面,我们可以先看关于AI未来图景的划分。
从OpenAI对于AI的能力分级划分可以看到,它把 AI 能力分5级。
在目前的1、2、3级,OpenAI现在已经取得非常不错的成绩,尤其在语言能力,已经达到人类最顶尖的专家级水平,这也正是大家所讨论的,所谓Scaling Law见顶的领域,语言数据使用完,水平也没有如预期的持续往上增长。
那么,这是否意味着,AI 大模型进入到“平台期”或者进入“萧条期”?其实并没有,实际有很多问题要做。
如Level 2,人类水准的问题求解能力。实际上,复杂推理能力非常值得期待,也就是前天刚刚发布的满血版o1,再次将复杂问题求解的能力推上新台阶。大模型的发展空间不仅是盯着简单的语言生成,或是回答这样的小问题。它(非语言模型)的空间非常大。
而在Level 3,使用工具,让AI能够和物理世界、现实世界当中的各种工具和系统进行对接,进而产生更大的生产力效果,这也是非常重要的事情。
当然,未来还可以期待 AI 做自己的发明创造,像AlphaGo战胜人类选手一样,把AI用在科学的探索。以及未来AI如何像人类这样的个体一样,形成智体的群落进行自组织。
在 AGI 发展路径上,我们智谱有自己的想法。前3级和OpenAI差不多,而Level 4、Level 5两级的时候更多的想法。比如,如何实现类似像GPT-Zero,Alpha-Zero这样的升级,以及如何利用 AI 的自学习能力拓展科学边界,以及未知的世界。
但是,这里面我们人类去做AGI也好,AI也好,唯一的参考系就是我们自己,就是人类本身。对于人类本身的能力,AI 能力是比较明确的,就是我们对照人类的智能能力去打造AGI。
这里面我们做了一些统计和分析,当然很粗略。
比如,在书写和语言理解方面,已经接近人类专家水平,甚至比人类专家更加有效。在视觉、听觉、运动、基础的模态能力等各方面,我们有了长足的进步。尤其近1年,从年初Sora多模态生成能力,到视频生成能力,再到开源、闭源等方向,都在遵循着Scaling Law(尺度定律)。
工具的使用能力也是最近半年来说进展非常快的领域,从最早所谓的Function Call(函数调用)能力开始,进化到现在能够使用手机、电脑帮助完成复杂的操作,取得非常快的进步。但我们依然觉得(AI 作用)不止如此,它不止能完成非常简单的事情,发展空间非常大,更抽象的创新能力、和物理世界的机器人、设备进行交互的运动控制等,存在着大量空白(发掘)区域。
瞄向AGI的路程还很长,有大量的任务等待我们做,大可不必那么悲观说在语言层面上碰到的(Scaling Law)停滞现象,我们就觉得AGI“完蛋”了。
如果再把刚才那张图再把它进行量化,按照阶梯式一层层的往上推演,很明显,Scaling Law还是沿着发展的阶梯状往“天花板”逼近,上面还有大把的空白空间。而且,这里面也标注我们的进展,从最初的语言模型,到视觉模型,视觉理解、视觉生成,到声音,到实时的交互,到逻辑的推理,以及o1,甚至到使用工具Agent能力,远远都不是让我们停下来的理由,有非常多的事情等待着我们去做。
我们一直在对标着世界最前沿的技术做这件事。
当然,你问为什么每项技术都对标它,而不是某项能力做到最好,或者做到极限,从而进行商业化。在智谱看来,这源自我们对于AGI的认知。
大家都知道,上一代的AI其实在某些单项能力上,比如说识别人脸、识别图像,在限定范围内它比人类做的好,它已经突破了人类的上限,但它为什么没有改变生产力的结构,改变生产关系,只是作为一种工具嵌入在很多的应用系统当中。我们思考过这个问题,在于我们所内心里真正期待的是,AI 像人一样,拥有着各种各样类型的能力,而且都在水平线以上,并且能够像人一样处理复杂任务,而不是单一任务,永远只能停留在工具层面,它起不到革命性、范式性的创新作用。
所以像我们常说的一个原理——“木桶原理”一样,当你的能力存在明显缺陷的时候,它并不足以产品革命性的范式变化,顶多又是另外一个更强力的锤子而已。我们现在不再需要锤子,我们需要的是更强大的东西。
今年终于借着8月新的基座模型GLM-4-Plus的发布,文本能力、图像分析理解能力、视频分析理解能力、语音模型等能力集齐之后,我们终于可以尝试让大模型、让 AI 能力像人一样,能够面对现实世界当中的复杂任务。
不要小看你们在现场拿着手机,刷短视频、在小红书上刷日记等这样操作,其实这都蕴含着人类各种各样的能力,视觉能力、自然语言理解能力、操作能力、控制能力等。这就是我刚刚讲到的,我们需要有这些一些完整的能力。
今年8月基座模型GLM-4-Plus上线,我们终于可以带领世界最顶级的基座模型能力看齐,基本上前三这样的水平。基于这样的基座能力,我们演化出,如视觉生成能力,我们终于可以做到更高清、更真实,以假乱真。
刚才我看到开场的宣传片,显然大量运用视频生成能力,我们可以期待,在明年钛媒体年会上,我们看到的宣传片90%上AI生成,而且各位在座的人不太能看出和真实场景的差别,现在已经做到非常好的效果。
刚才我们讲到Level 3,如何让模型能够进入到现实世界,帮助我们使用手边的现实工具,无论是手机、电脑,还是各种各样的软件系统,都需要适应人。在座各位也会面临各种各样的麻烦,苹果手机也好,安卓手机也好,70-80%甚至更高比例的功能你不知道如何使用,可能一直到手机淘汰掉,你都不会用它,因为你根本不会为这些事情花费学习的时间。
因此,不能让我们去迁就机器,一定是让机器反过来理解我们的意图,Agent就是做这样的事情,让AI来理解我们的需求,帮助我们使用工具,当然这中间还有决策和规划的过程,它要有充分的理解能力、规划和执行的能力,以及理解大家所使用的所有软件和工具的能力。
从早期的渐入命令,字符交互,简化到图形化界面,甚至未来会演化到AI为核心的操作系统。
大家现在电脑、手机上使用的场景特别丰富,很多任务我们也只能刚帮助大家来做一部分的工作,我们期待能力持续的提升,能够帮助大家做更多的事情,帮大家把简单、重复、机械性的过程当中解放出来,大家有更多时间做更有意义的事情。
而从这件事里面我们可以看到,这样的进步来自于大模型本身的新技术突破,尤其在强化学习方面所带来的智能体反思、自我学习,以及不断自我提升的过程。这也是最近我回答大家关于“Scaling Law放缓”问题很重要的点在于,原来pre-train(预训练)可能不能给我们带来非常大的增益,接下来是什么,可能就是在强化学习、自我学习层面(发力)。
我相信,未来Agent助手能够实现更长的操作序列,更复杂任务的决策,帮助你们完成更复杂的任务,无论是生活还是工作层面。
最近智谱升级的更长操作序列Agent,也支持多个应用之间跨APP交互,像人里面可以从一个APP里面获取信息,再回到另外的APP进行任务,再会到上个APP把结果拿回来,跨应用的协同也非常重要。刚才我们展示了,如何让手机和PC进行联动,进行隔空操作,包括虚拟屏幕分身参与会议,以及同时并行的任务处理。
我们希望,这样的能力能像人一样,真正使用这些软件,并且完成复杂的任务。眼睛看是视觉能力,大脑的思考取决于理解、任务拆解和规划能力,手动取决于识别和操作能力。未来,我们希望借助这样的能力,赋能操作系统,让操作系统和大模型、AI深度融合,形成基于AI全新的底层操作系统。这是我们下一步想要做的事情。
从整个技术演进方面来看,我们对此非常有信心。随着语言模型、多模态以及AI Agent等技术走向成熟,我们终于能够集成一些能力,真正让大模型的技术能够走入现实世界,帮助大家解决更复杂、更难的一些问题。同时,这些技术在成熟的过程当中,让这些技术变成相应产品,创造更大的生产力价值,以及相应的市场回报。
对于智谱来讲,我们的目标永远是AGI,永远是让机器像人一样思考,并且让机器服务人类,谢谢大家。