Mano-P:全球第一的端侧GUI智能体模型,让AI在你的设备上替你操作电脑
AI导读:
AI for Personal——最懂你的 AI,只有你自己能造。2026 年 3 月,明略科技(港交所:2718.HK)在 GitHub 上开源了 Mano-P——一款专为边缘设备设计的 GUI 智能体模型,围绕隐私与个性化两大支柱,让每个人都能在自己的设备上
AI for Personal——最懂你的 AI,只有你自己能造。2026 年 3 月,明略科技(港交所:2718.HK)在 GitHub 上开源了 Mano-P——一款专为边缘设备设计的 GUI 智能体模型,围绕隐私与个性化两大支柱,让每个人都能在自己的设备上拥有一双 AI 的手。72B 模型屠榜,4B 蒸馏版上机。Mano-P 在 OSWorld 基准测试中以 58.2% 的成功率拿下专用模型全球第一,领先第二名超过 13 个百分点,并在 WebRetriever 等多项评测中超越千亿参数级通用大模型。与当前主流的云端 GUI 智能体不同,Mano-P 可以完全在用户自己的 Mac 上本地运行,屏幕截图和任务数据不出设备。这款采用 Apache 2.0 协议的开源项目,正在重新定义 AI 操作电脑的方式。
关键要点
Mano-P 是明略科技开源的 GUI-VLA(Vision-Language-Action)智能体模型,专为苹果芯片边缘设备设计,支持完全本地运行
72B 屠榜,4B 上机:72B 模型拿下 OSWorld 专用模型全球第一(58.2%),蒸馏为 4B 版本可在 M4 Mac 上流畅运行
本地模式下所有推理在设备上完成,屏幕截图不出设备,支持完全离线运行
4B 量化模型在 M4 Pro 上峰值内存仅 4.3GB,预填充 476 tokens/s——一台 MacBook 就能流畅运行
三种使用形式(命令行/SDK/Agent Skill)覆盖开发者到普通用户全场景
Apache 2.0 开源协议,三阶段逐步释放完整技术栈——从 CUA Skills 到本地模型 + SDK 到训练方法 + 剪枝量化技术
一、Mano-P 是什么
Mano-P 是明略科技推出的开源 GUI 智能体模型。Mano 是西班牙语里“手”的意思,P 有两重含义:Person(个体)与 Party(组织)——我们相信,无论个人还是企业,都能够创造属于自己的个性化 AI。其三阶段开源计划正在逐步释放完整的技术栈:Phase 1 开源 CUA Skills,Phase 2 开源本地模型 + Python SDK,Phase 3 开源训练方法 + 剪枝量化技术。
一句话概括:Mano-P 是一双 AI 的手,能像人类一样看屏幕、理解界面、操作电脑,而且完全跑在你自己的设备上。
它不是 RPA
和传统 RPA(机器人流程自动化)相比,Mano-P 有本质区别:
二、72B 屠榜,4B 上机:五项基准测试,多项全球领先
Mano-P 不是一个概念产品——它的能力经过了权威基准测试的严格验证。
核心成绩单
一句话总结:72B 模型屠榜证明技术实力,蒸馏为 4B 上机证明日常可用。对于Mano-P来说,能力和便捷不是二选一。 经过专项训练和优化的专用模型,在特定任务上完全可以比“大块头”更强。端侧模型不等于弱模型。
三、怎么做到“又大又快”:三项核心技术
在消费级设备上运行大参数模型做 GUI 操作,靠的是三项关键技术突破。
GSPruning 视觉 Token 剪枝
处理高分辨率屏幕截图时,Mano-P 智能识别关键信息——保留界面结构骨架和重要 UI 元素,将视觉 Token 压缩至 12.57%。打个比方:看一张复杂的屏幕截图,普通模型会逐像素地“读”完整张图,而 Mano-P 只看最重要的 13%——按钮在哪、输入框在哪、当前选中了什么——推理速度提升数倍,任务成功率几乎不受影响。
混合精度量化(w4a16)
用更紧凑的方式存储模型——权重用 4bit 存储,激活值保留 16bit。效果:
峰值内存:4.3GB(MacBook 32GB 内存绰绰有余,跑 AI 的同时还能正常办公)
预填充速度:476 tokens/s(每秒吐出约 300-400 个中文字,回答几乎瞬间出现)
解码速度:76 tokens/s
一台 MacBook Pro 就能流畅运行
Mano-Action 双向自增强训练
传统模型只做单向学习——你告诉它“点击登录按钮”,它学会去找登录按钮。Mano-P 同时训练两个方向:“描述→定位"和"定位→描述”,通过循环一致性互相验证——既能根据指令找到按钮,也能看到按钮说出它是什么。配合三阶段渐进训练(SFT → 离线 RL → 在线 RL),模型从“背操作手册”进化到“真正学会操作界面”。
四、为什么端侧是刚需:不只是安全,更是主动性
大多数人以为端侧模型的核心卖点是“数据安全”。这没错,但更根本的原因是:云端 AI 不可能真正“主动”帮你。
真正有用的 AI 助手应该是主动的——自己发现你有个会议快开了,自动帮你准备资料;看到你收到一封重要邮件,自动提醒你;发现常用的系统数据有异常,主动去核查。但这种“主动性”意味着 AI 要不停地自发运算——每隔几分钟检查一次邮箱、日历、文件。
在云端,每一次运算都消耗平台的算力和费用。一个用户一天可能产生上千次自发调用,乘以几百万用户,服务器费用爆炸。所以云端平台必然限制 AI 的主动性——不让它太频繁地自己动,因为每“主动”一次就是在烧平台的钱。
端侧模型从根本上解决了这个问题:AI 跑在你自己的设备上,用的是你自己的芯片和电。 它主动跑一万次也不花平台一分钱。这才是真正 7×24 贴身 AI 助手的唯一解。
Mano-P 提供本地模式和云端模式两种推理方式。核心差异在于数据流向:
系统自动检测本地模型配置:有本地模型用本地,没有就自动切换云端,无缝衔接。
对于金融、医疗、法律、政务等对数据安全有刚性要求的行业,本地模式不是可选项——是唯一选项。
五、三种使用方式:谁都能用
运行时,屏幕右上角显示状态面板,实时显示任务进度。敏感操作执行前会要求用户确认——AI 干活,人类监督。
六、真实应用场景
Mano-P 已经在多个场景中完成验证:
场景 1:全自动化应用构建(Mano-afk)
系统接收自然语言需求后,自动完成需求澄清 → 技术架构设计 → 代码生成 → 本地部署 → 多层测试(API 测试 + 视觉检测 + 端到端 GUI 自动化测试)。测试不通过时自动定位根因、修复代码、重新部署。全流程无需人工干预。
场景 2:商业视频智能系统
从下发指令到视频生成、上传、分析、剪辑、二次评测的完整工作流。系统自主操作网页与剪辑软件,完成文件处理、字幕修改等精细操作,生成包含主客观指标的分析报告。
场景 3:企业级长任务执行
支持 100+ 步骤的企业级业务流程自动化,包括跨应用数据录入、系统间信息迁移、批量文档处理等复杂任务,全程无需联网。
七、开源路线图:Apache 2.0 协议,三阶段渐进开放
Mano-P 采用 Apache 2.0 开源协议——宽松且附带专利保护的开源协议,任何人和企业都可以自由使用、修改和商用,无传染性限制,且自动授予专利许可——企业用了不会被专利诉讼。对投资人来说,这意味着生态壁垒不靠法律锁定,而靠技术领先和社区信任。
分三个阶段渐进开放完整技术栈。其三阶段开源计划正在逐步释放完整的技术栈:
技术论文已发布:[arXiv:2509.17336]
立即体验:`brew install mano-cua`
七、常见问题
Q: Mano-P 是什么?
Mano-P 是一个开源的 GUI-VLA(Vision-Language-Action)智能体,设计用于在苹果芯片边缘设备上本地运行。它使用纯视觉理解来跨平台自动化桌面 GUI 操作。P 代表 Person(个体)与 Party(组织)——无论个人还是企业,都能够创造属于自己的个性化 AI。
Q: Mano-P 可以离线运行吗?
可以! 在本地模式下,所有模型推理都在 Apple M4 设备上运行。不会向外部服务器发送任何截图或任务描述。
需要什么硬件配置?
最低要求:Mac mini 或 MacBook、Apple M4 芯片、32GB 内存
替代方案:任何 Mac + Mano-P 算力棒(通过 USB 4.0+ 连接)
计划未来支持更多设备
Q: Mano-P 与 Claude Computer Use 相比如何?
Mano-P 在专用模型中排名全球第一,在网页检索等任务上领先 Claude,且天然满足数据安全要求。适合高安全需求场景和需要 AI 主动服务的场景。
(文章来源:界面新闻)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

