2024 T-EDGE-资讯速递-媒体界

12月6日-7日，2024 T-EDGE创新大会暨钛媒体财经年会在北京市大兴区举办。

12月7日上午T-EDGE 全球AI论坛：All-in On AI会议上，智谱CEO张鹏以“GLM 大模型与通用人工智能之路”为主题，围绕 AI 大模型发展与应用展开深入演讲。

张鹏表示，AI 大模型并没有进入到“平台期”或者进入“萧条期”，实际有很多问题要做。而且，大模型的发展空间不仅是盯着简单的语言生成，视觉、听觉、运动、基础的模态能力等各方面，多模态、推理和Agent等能力都在遵循着Scaling Law（尺度定律），发展潜力非常大。

在张鹏看来，大模型发展至今开始逐步具有上述人类与现实物理世界互动的能力：L1语言能力进程 80％、L2逻辑能力（多模态能力）60%、L3使用工具的能力进程 30％，甚至L4自我学习的能力也正在逐渐出现。

对于OpenAI最新发布的o1 Pro模式的推理模型，张鹏认为，满血版o1再次将复杂问题求解的能力推上新台阶，复杂推理的发展非常值得期待。

“瞄向AGI的路程还很长，有大量的任务等待我们做，大可不必那么悲观说在语言层面上碰到的（Scaling Law）停滞现象，我们就觉得AGI‘完蛋’了。”张鹏指出，对于人类本身的 AI 能力是比较明确的，我们需要对照人类的智能能力去打造通用人工智能（AGI）。

实际上，自2023年3月智谱 AI 推出千亿开源基座对话模型ChatGLM系列以来，GLM大模型经历四个大版本迭代，共发布了超过20款 AI 模型技术和产品。截至2023年底，智谱 AI 已拥有超过2000家生态合作伙伴、超过1000个大模型规模化应用，覆盖传媒、咨询、消费、金融、新能源、互联网、智能办公等多个细分场景。

张鹏认为，如今的Agent可以做到像人一样，理解界面、规划任务、使用工具、完成任务，从而更聪明地代替人类行动。我们对于对于AI 内心所真正期待的是，AI 像人一样，拥有各种各样类型能力，而且都在水平线以上的综合性AI能力，并且能够像人一样处理复杂任务，而不是单一任务，从而解答复杂的问题。

展望未来，张鹏强调，随着语言模型、多模态以及AI Agent等技术走向成熟，从整个技术演进方面来看，我们对此非常有信心，真正让大模型的技术能够走入现实世界，帮助大家解决更复杂的问题。同时，这些技术在成熟的过程当中，让这些技术变成相应产品，创造更大的生产力价值，以及相应的市场回报。

“对于智谱来讲，我们的目标永远是让‘机器像人一样思考’，并且让机器服务人类。”张鹏在结尾表示。

以下是张鹏在钛媒体2024T-EDGE上的演讲实录，经钛媒体AGI整理：

非常荣幸能够来到钛媒体的年会现场，和大家进行分享。

最近关于AI、关于大模型的讨论非常多，有不同的观点进行激烈的碰撞，我最近会被很多人问这样一个问题：AI未来发展的空间到底在哪里。

下面，我们可以先看关于AI未来图景的划分。

从OpenAI对于AI的能力分级划分可以看到，它把 AI 能力分5级。

在目前的1、2、3级，OpenAI现在已经取得非常不错的成绩，尤其在语言能力，已经达到人类最顶尖的专家级水平，这也正是大家所讨论的，所谓Scaling Law见顶的领域，语言数据使用完，水平也没有如预期的持续往上增长。

那么，这是否意味着，AI 大模型进入到“平台期”或者进入“萧条期”？其实并没有，实际有很多问题要做。

如Level 2，人类水准的问题求解能力。实际上，复杂推理能力非常值得期待，也就是前天刚刚发布的满血版o1，再次将复杂问题求解的能力推上新台阶。大模型的发展空间不仅是盯着简单的语言生成，或是回答这样的小问题。它（非语言模型）的空间非常大。

而在Level 3，使用工具，让AI能够和物理世界、现实世界当中的各种工具和系统进行对接，进而产生更大的生产力效果，这也是非常重要的事情。

当然，未来还可以期待 AI 做自己的发明创造，像AlphaGo战胜人类选手一样，把AI用在科学的探索。以及未来AI如何像人类这样的个体一样，形成智体的群落进行自组织。

在 AGI 发展路径上，我们智谱有自己的想法。前3级和OpenAI差不多，而Level 4、Level 5两级的时候更多的想法。比如，如何实现类似像GPT-Zero，Alpha-Zero这样的升级，以及如何利用 AI 的自学习能力拓展科学边界，以及未知的世界。

但是，这里面我们人类去做AGI也好，AI也好，唯一的参考系就是我们自己，就是人类本身。对于人类本身的能力，AI 能力是比较明确的，就是我们对照人类的智能能力去打造AGI。

这里面我们做了一些统计和分析，当然很粗略。

比如，在书写和语言理解方面，已经接近人类专家水平，甚至比人类专家更加有效。在视觉、听觉、运动、基础的模态能力等各方面，我们有了长足的进步。尤其近1年，从年初Sora多模态生成能力，到视频生成能力，再到开源、闭源等方向，都在遵循着Scaling Law（尺度定律）。

工具的使用能力也是最近半年来说进展非常快的领域，从最早所谓的Function Call（函数调用）能力开始，进化到现在能够使用手机、电脑帮助完成复杂的操作，取得非常快的进步。但我们依然觉得（AI 作用）不止如此，它不止能完成非常简单的事情，发展空间非常大，更抽象的创新能力、和物理世界的机器人、设备进行交互的运动控制等，存在着大量空白（发掘）区域。

瞄向AGI的路程还很长，有大量的任务等待我们做，大可不必那么悲观说在语言层面上碰到的（Scaling Law）停滞现象，我们就觉得AGI“完蛋”了。

如果再把刚才那张图再把它进行量化，按照阶梯式一层层的往上推演，很明显，Scaling Law还是沿着发展的阶梯状往“天花板”逼近，上面还有大把的空白空间。而且，这里面也标注我们的进展，从最初的语言模型，到视觉模型，视觉理解、视觉生成，到声音，到实时的交互，到逻辑的推理，以及o1，甚至到使用工具Agent能力，远远都不是让我们停下来的理由，有非常多的事情等待着我们去做。

我们一直在对标着世界最前沿的技术做这件事。

当然，你问为什么每项技术都对标它，而不是某项能力做到最好，或者做到极限，从而进行商业化。在智谱看来，这源自我们对于AGI的认知。

大家都知道，上一代的AI其实在某些单项能力上，比如说识别人脸、识别图像，在限定范围内它比人类做的好，它已经突破了人类的上限，但它为什么没有改变生产力的结构，改变生产关系，只是作为一种工具嵌入在很多的应用系统当中。我们思考过这个问题，在于我们所内心里真正期待的是，AI 像人一样，拥有着各种各样类型的能力，而且都在水平线以上，并且能够像人一样处理复杂任务，而不是单一任务，永远只能停留在工具层面，它起不到革命性、范式性的创新作用。

所以像我们常说的一个原理——“木桶原理”一样，当你的能力存在明显缺陷的时候，它并不足以产品革命性的范式变化，顶多又是另外一个更强力的锤子而已。我们现在不再需要锤子，我们需要的是更强大的东西。

今年终于借着8月新的基座模型GLM-4-Plus的发布，文本能力、图像分析理解能力、视频分析理解能力、语音模型等能力集齐之后，我们终于可以尝试让大模型、让 AI 能力像人一样，能够面对现实世界当中的复杂任务。

不要小看你们在现场拿着手机，刷短视频、在小红书上刷日记等这样操作，其实这都蕴含着人类各种各样的能力，视觉能力、自然语言理解能力、操作能力、控制能力等。这就是我刚刚讲到的，我们需要有这些一些完整的能力。

今年8月基座模型GLM-4-Plus上线，我们终于可以带领世界最顶级的基座模型能力看齐，基本上前三这样的水平。基于这样的基座能力，我们演化出，如视觉生成能力，我们终于可以做到更高清、更真实，以假乱真。

刚才我看到开场的宣传片，显然大量运用视频生成能力，我们可以期待，在明年钛媒体年会上，我们看到的宣传片90%上AI生成，而且各位在座的人不太能看出和真实场景的差别，现在已经做到非常好的效果。

刚才我们讲到Level 3，如何让模型能够进入到现实世界，帮助我们使用手边的现实工具，无论是手机、电脑，还是各种各样的软件系统，都需要适应人。在座各位也会面临各种各样的麻烦，苹果手机也好，安卓手机也好，70-80%甚至更高比例的功能你不知道如何使用，可能一直到手机淘汰掉，你都不会用它，因为你根本不会为这些事情花费学习的时间。

因此，不能让我们去迁就机器，一定是让机器反过来理解我们的意图，Agent就是做这样的事情，让AI来理解我们的需求，帮助我们使用工具，当然这中间还有决策和规划的过程，它要有充分的理解能力、规划和执行的能力，以及理解大家所使用的所有软件和工具的能力。

从早期的渐入命令，字符交互，简化到图形化界面，甚至未来会演化到AI为核心的操作系统。

大家现在电脑、手机上使用的场景特别丰富，很多任务我们也只能刚帮助大家来做一部分的工作，我们期待能力持续的提升，能够帮助大家做更多的事情，帮大家把简单、重复、机械性的过程当中解放出来，大家有更多时间做更有意义的事情。

而从这件事里面我们可以看到，这样的进步来自于大模型本身的新技术突破，尤其在强化学习方面所带来的智能体反思、自我学习，以及不断自我提升的过程。这也是最近我回答大家关于“Scaling Law放缓”问题很重要的点在于，原来pre-train（预训练）可能不能给我们带来非常大的增益，接下来是什么，可能就是在强化学习、自我学习层面（发力）。

我相信，未来Agent助手能够实现更长的操作序列，更复杂任务的决策，帮助你们完成更复杂的任务，无论是生活还是工作层面。

最近智谱升级的更长操作序列Agent，也支持多个应用之间跨APP交互，像人里面可以从一个APP里面获取信息，再回到另外的APP进行任务，再会到上个APP把结果拿回来，跨应用的协同也非常重要。刚才我们展示了，如何让手机和PC进行联动，进行隔空操作，包括虚拟屏幕分身参与会议，以及同时并行的任务处理。

我们希望，这样的能力能像人一样，真正使用这些软件，并且完成复杂的任务。眼睛看是视觉能力，大脑的思考取决于理解、任务拆解和规划能力，手动取决于识别和操作能力。未来，我们希望借助这样的能力，赋能操作系统，让操作系统和大模型、AI深度融合，形成基于AI全新的底层操作系统。这是我们下一步想要做的事情。

从整个技术演进方面来看，我们对此非常有信心。随着语言模型、多模态以及AI Agent等技术走向成熟，我们终于能够集成一些能力，真正让大模型的技术能够走入现实世界，帮助大家解决更复杂、更难的一些问题。同时，这些技术在成熟的过程当中，让这些技术变成相应产品，创造更大的生产力价值，以及相应的市场回报。

对于智谱来讲，我们的目标永远是AGI，永远是让机器像人一样思考，并且让机器服务人类，谢谢大家。