智谱 AutoGLM2.0:手机 Agent 的 “独立行走” 革命
日期:2025-08-22 15:55:50 / 人气:3

当你在通勤途中用手机下达指令,让 AI 帮忙订购 20 杯奶茶并使用优惠券时,无需紧盯屏幕等待完成,而是可以继续刷着短视频 —— 这看似寻常的场景切换,背后藏着人机协作范式的根本性转变。8 月 18 日智谱发布的 AutoGLM 2.0,通过 “云端分身” 架构让手机 Agent 首次实现了真正意义上的独立运行,这场被称为 “Manus 时刻” 的进化,或许正在打开由 AI 驱动的并行数字世界大门。
从 “抢屏困境” 到 “异步并行”:人机协作的范式跃迁
早期的手机 Agent 始终面临着一个无解的矛盾:当 AI 在屏幕上执行操作时,用户必须保持等待,这种 “抢屏” 模式使得人机关系沦为 “二选一” 的互斥状态。就像要用 Agent 点咖啡时,用户能做的只有 “看着”,整体效率提升被死死限制在 1.x 倍的范围内,完全无法实现生产力的质变。
更棘手的是执行中断的风险 —— 锁屏、网络波动、切换应用等任何用户行为,都可能让 AI 的长任务流功亏一篑。安卓系统的碎片化更是雪上加霜,不同品牌、不同版本的手机适配成本居高不下,让 Agent 的稳定运行成为奢望。这些痛点共同构成了手机 Agent 商业化的巨大障碍,使其始终停留在实验室阶段。
AutoGLM 2.0 给出的破局之道堪称颠覆性:为每位用户配备云端 “数字工位”—— 包含完整安卓环境的云手机和 Linux 环境的云电脑(后续将支持 Windows)。当用户下达 “在美团找附近奶茶店,点 20 杯并使用优惠券” 的指令时,从打开 App、跳过广告、搜索店铺到智能选用优惠券的全流程,都在云端独立完成。用户的物理手机则彻底解放,既能继续聊天看视频,也能息屏放进口袋,只需在支付等关键节点回来 “确认” 即可。
这种架构创新带来了三个维度的突破:在时间维度上,AI 实现 7x24 小时不间断工作,用户睡眠或娱乐时仍能持续产出价值;在空间维度上,人机操作物理解耦,彻底告别 “你盯着我干” 的同步模式;在效率维度上,将过去的串行工作转变为并行处理,使生产力倍增成为可能。智谱 CEO 张鹏的判断一语中的:“未来个人竞争力的核心,将是‘自身能力 + N 个 AI 智能体’的总和,每个人都将从‘打工者’转变为‘领导者’。”
3A 原则与强化学习:Agent 自主运行的技术基石
如果说 “云手机 / 云电脑” 是 AutoGLM 2.0 的新 “身体”,那么其背后的 “3A 原则” 则构成了这具身体的行为准则。Around-the-clock(全时)要求 AI 必须 24 小时待命执行任务,无论用户处于何种状态;Autonomy without interference(自运转、零干扰)确保 Agent 在云端独立运行,不占用本地资源;Affinity(全域连接)则打破设备壁垒,实现多终端与服务的无缝协同。这三大原则共同定义了一个成熟 Agent 的基本形态。
支撑这种自主运行能力的,是智谱独创的端到端在线强化学习技术路线。与传统依赖监督微调(SFT)的模式不同,AutoGLM 在经过少量专家数据 “冷启动” 后,会在数千个并行的真实云环境中自主 “试错”。系统不会指示模型 “下一步该点哪里”,只在任务完成时给予 “成功” 的奖励信号,迫使模型自主探索最优决策路径。
这种训练方式带来了显著突破:任务成功率较冷启动阶段提升 165%,其中 66% 的增益直接来源于强化学习。在具体实现上,电脑端的 API-GUI 协同范式提升了数据多样性(ComputerRL),移动端的难度自适应强化学习增强了复杂任务稳定性(MobileRL),交叉采样机制则解决了多任务训练的不稳定问题(AgenRL)。正如产品负责人刘潇所言:“只要能提供足够好的‘环境’和‘奖励’,现有算法几乎可以优化任何任务,瓶颈在于构建可规模化的验证和反馈环境。”
技术创新直接转化为商业可行性的飞跃。传统基于第三方大模型 API 构建的 Agent,单次复杂任务成本高达 3-5 美元,而 AutoGLM 凭借自研模型和一体化架构,将包含模型调用与虚拟机资源的单次任务成本压缩至约 0.2 美元(1.5 元人民币),仅为谷歌单次搜索成本的 10 倍。这种数量级的成本下降,使其得以向所有 C 端用户开放,无需邀请码限制。
从工具到生态:Agent 连接物理与数字世界
AutoGLM 2.0 的野心远不止于效率工具。通过开放 API 和开发者计划,智谱正在构建一个连接多设备、多服务的 Agent 生态,让 “万物皆可 Agent” 成为可能。即将上线的 “定时任务” 功能,将使 AI 从 “被动响应” 迈向 “半主动规划”——“每天早上 9 点自动总结老板未读邮件”“工作日上午 10 点多平台比价下单咖啡” 等场景,正在将 AI 变成用户的 “半个秘书”。
在硬件赋能方面,AutoGLM 为智能眼镜、Pin 类设备等解决了算力、续航和交互的 “不可能三角”。这些端侧硬件只需负责感知和指令发起,复杂操作全部交由云端 Agent 完成。交流会上展示的创意案例生动诠释了这种潜力:体重秤检测到用户体重超标时,自动触发云端 Agent 下单代餐;气体传感器发现鞋柜异味超标时,立即下单除臭脚垫。这种 “物理传感器→云端 Agent→现实服务” 的完整链路,让 AI 真正实现了对物理世界的干预。
这种生态构建正在创造新的流量形态。传统互联网的流量天花板是用户的 “注意力上限”,而 Agent 则以并行且需求驱动的方式打破了这一限制。当用户注意力单线程运行时,可以派出无数个并行 Agent 研究旅行攻略、对比全网物价、筛选工作资料。这些带着明确 “成交意图” 的流量,其商业价值远高于传统浏览流量。同时,Agent 单任务平均超过 256k tokens 的消耗,也对上游推理基础设施提出了 32 倍于传统对话场景的需求,催生新的产业机会。
通向 AGI 的 “下限”:人机协作的未来图景
在分享会结尾,刘潇提出了一个颇具启发性的 “AGI 下限” 定义:当 Agent 能自主稳定运行 24 小时,作为同事或秘书协同完成工作生活任务,使综合效率提升超 2 倍时,AGI 的曙光便已显现。从这个标准看,AutoGLM 2.0 虽仍处早期 —— 存在指令理解初级、偶发 Bug 等问题,但已迈出关键一步。
实际测试中,其表现呈现明显的两面性:在美团小象超市购买椰子水时,能自动润色需求并加上 “用掉红包” 的指令,但速度不及手动操作;在知乎热榜回答任务中,初始版本仅停留在找到话题页面,优化指令后虽能生成 200 字回答,却因系统限制需手动提交。部分用户发布小红书内容时还会触发风控导致强制下线,这些都表明 Agent 的 “独立行走” 仍需打磨。
但不可否认的是,AutoGLM 2.0 通过 “云端分身” 架构,首次实现了手机 Agent 的异步并行运行,这种从 “同步操作” 到 “异步委托” 的转变,可能是人机协作革命的起点。当用户从 “亲自执行” 转向 “指挥调度”,当无数个数字分身在云端并行处理任务,个人处理事务的方式将发生根本性改变。
或许正如智谱所设想的,一个 “只需动动嘴,数字分身为你打理一切” 的未来已不再遥远。在那个世界里,手机不再是简单的通讯工具,而是通向并行数字世界的入口,而 AutoGLM 2.0 的发布,正是推开这扇大门的第一只手。
作者:天顺娱乐
新闻资讯 News
- 一种专骗老年人的电商骗局,被年...08-22
- 中餐界“爱马仕”,狂赚美国人29...08-22
- DiT在数学和形式上是错的?谢赛...08-22
- 对话小米AI 眼镜负责人:20天卖...08-22