Mano-P：全球第一的端侧GUI智能体模型，让AI在你的设备上替你操作电脑

商业视界 2026-04-13 18:40:25 来源：界面新闻作者：网络

AI导读：

　　AI for Personal——最懂你的 AI，只有你自己能造。2026 年 3 月，明略科技（港交所：2718.HK）在 GitHub 上开源了 Mano-P——一款专为边缘设备设计的 GUI 智能体模型，围绕隐私与个性化两大支柱，让每个人都能在自己的设备上

　　AI for Personal——最懂你的 AI，只有你自己能造。2026 年 3 月，明略科技（港交所：2718.HK）在 GitHub 上开源了 Mano-P——一款专为边缘设备设计的 GUI 智能体模型，围绕隐私与个性化两大支柱，让每个人都能在自己的设备上拥有一双 AI 的手。72B 模型屠榜，4B 蒸馏版上机。Mano-P 在 OSWorld 基准测试中以 58.2% 的成功率拿下专用模型全球第一，领先第二名超过 13 个百分点，并在 WebRetriever 等多项评测中超越千亿参数级通用大模型。与当前主流的云端 GUI 智能体不同，Mano-P 可以完全在用户自己的 Mac 上本地运行，屏幕截图和任务数据不出设备。这款采用 Apache 2.0 协议的开源项目，正在重新定义 AI 操作电脑的方式。

　　关键要点

　　Mano-P 是明略科技开源的 GUI-VLA（Vision-Language-Action）智能体模型，专为苹果芯片边缘设备设计，支持完全本地运行

　　72B 屠榜，4B 上机：72B 模型拿下 OSWorld 专用模型全球第一（58.2%），蒸馏为 4B 版本可在 M4 Mac 上流畅运行

　　本地模式下所有推理在设备上完成，屏幕截图不出设备，支持完全离线运行

　　4B 量化模型在 M4 Pro 上峰值内存仅 4.3GB，预填充 476 tokens/s——一台 MacBook 就能流畅运行

　　三种使用形式（命令行/SDK/Agent Skill）覆盖开发者到普通用户全场景

　　Apache 2.0 开源协议，三阶段逐步释放完整技术栈——从 CUA Skills 到本地模型 + SDK 到训练方法 + 剪枝量化技术

　　一、Mano-P 是什么

　　Mano-P 是明略科技推出的开源 GUI 智能体模型。Mano 是西班牙语里“手”的意思，P 有两重含义：Person（个体）与 Party（组织）——我们相信，无论个人还是企业，都能够创造属于自己的个性化 AI。其三阶段开源计划正在逐步释放完整的技术栈：Phase 1 开源 CUA Skills，Phase 2 开源本地模型 + Python SDK，Phase 3 开源训练方法 + 剪枝量化技术。

　　一句话概括：Mano-P 是一双 AI 的手，能像人类一样看屏幕、理解界面、操作电脑，而且完全跑在你自己的设备上。

　　它不是 RPA

　　和传统 RPA（机器人流程自动化）相比，Mano-P 有本质区别：

　　二、72B 屠榜，4B 上机：五项基准测试，多项全球领先

　　Mano-P 不是一个概念产品——它的能力经过了权威基准测试的严格验证。

　　核心成绩单

　　一句话总结：72B 模型屠榜证明技术实力，蒸馏为 4B 上机证明日常可用。对于Mano-P来说，能力和便捷不是二选一。经过专项训练和优化的专用模型，在特定任务上完全可以比“大块头”更强。端侧模型不等于弱模型。

　　三、怎么做到“又大又快”：三项核心技术

　　在消费级设备上运行大参数模型做 GUI 操作，靠的是三项关键技术突破。

　　GSPruning 视觉 Token 剪枝

　　处理高分辨率屏幕截图时，Mano-P 智能识别关键信息——保留界面结构骨架和重要 UI 元素，将视觉 Token 压缩至 12.57%。打个比方：看一张复杂的屏幕截图，普通模型会逐像素地“读”完整张图，而 Mano-P 只看最重要的 13%——按钮在哪、输入框在哪、当前选中了什么——推理速度提升数倍，任务成功率几乎不受影响。

　　混合精度量化（w4a16）

　　用更紧凑的方式存储模型——权重用 4bit 存储，激活值保留 16bit。效果：

　　峰值内存：4.3GB（MacBook 32GB 内存绰绰有余，跑 AI 的同时还能正常办公）

　　预填充速度：476 tokens/s（每秒吐出约 300-400 个中文字，回答几乎瞬间出现）

　　解码速度：76 tokens/s

　　一台 MacBook Pro 就能流畅运行

　　Mano-Action 双向自增强训练

　　传统模型只做单向学习——你告诉它“点击登录按钮”，它学会去找登录按钮。Mano-P 同时训练两个方向：“描述→定位"和"定位→描述”，通过循环一致性互相验证——既能根据指令找到按钮，也能看到按钮说出它是什么。配合三阶段渐进训练（SFT → 离线 RL → 在线 RL），模型从“背操作手册”进化到“真正学会操作界面”。

　　四、为什么端侧是刚需：不只是安全，更是主动性

　　大多数人以为端侧模型的核心卖点是“数据安全”。这没错，但更根本的原因是：云端 AI 不可能真正“主动”帮你。

　　真正有用的 AI 助手应该是主动的——自己发现你有个会议快开了，自动帮你准备资料；看到你收到一封重要邮件，自动提醒你；发现常用的系统数据有异常，主动去核查。但这种“主动性”意味着 AI 要不停地自发运算——每隔几分钟检查一次邮箱、日历、文件。

　　在云端，每一次运算都消耗平台的算力和费用。一个用户一天可能产生上千次自发调用，乘以几百万用户，服务器费用爆炸。所以云端平台必然限制 AI 的主动性——不让它太频繁地自己动，因为每“主动”一次就是在烧平台的钱。

　　端侧模型从根本上解决了这个问题：AI 跑在你自己的设备上，用的是你自己的芯片和电。它主动跑一万次也不花平台一分钱。这才是真正 7×24 贴身 AI 助手的唯一解。

　　Mano-P 提供本地模式和云端模式两种推理方式。核心差异在于数据流向：

　　系统自动检测本地模型配置：有本地模型用本地，没有就自动切换云端，无缝衔接。

　　对于金融、医疗、法律、政务等对数据安全有刚性要求的行业，本地模式不是可选项——是唯一选项。

　　五、三种使用方式：谁都能用

　　运行时，屏幕右上角显示状态面板，实时显示任务进度。敏感操作执行前会要求用户确认——AI 干活，人类监督。

　　六、真实应用场景

　　Mano-P 已经在多个场景中完成验证：

　　场景 1：全自动化应用构建（Mano-afk）

　　系统接收自然语言需求后，自动完成需求澄清 → 技术架构设计 → 代码生成 → 本地部署 → 多层测试（API 测试 + 视觉检测 + 端到端 GUI 自动化测试）。测试不通过时自动定位根因、修复代码、重新部署。全流程无需人工干预。

　　场景 2：商业视频智能系统

　　从下发指令到视频生成、上传、分析、剪辑、二次评测的完整工作流。系统自主操作网页与剪辑软件，完成文件处理、字幕修改等精细操作，生成包含主客观指标的分析报告。

　　场景 3：企业级长任务执行

　　支持 100+ 步骤的企业级业务流程自动化，包括跨应用数据录入、系统间信息迁移、批量文档处理等复杂任务，全程无需联网。

　　七、开源路线图：Apache 2.0 协议，三阶段渐进开放

　　Mano-P 采用 Apache 2.0 开源协议——宽松且附带专利保护的开源协议，任何人和企业都可以自由使用、修改和商用，无传染性限制，且自动授予专利许可——企业用了不会被专利诉讼。对投资人来说，这意味着生态壁垒不靠法律锁定，而靠技术领先和社区信任。

　　分三个阶段渐进开放完整技术栈。其三阶段开源计划正在逐步释放完整的技术栈：

　　技术论文已发布：[arXiv:2509.17336]

　　立即体验：`brew install mano-cua`

　　七、常见问题

　　Q: Mano-P 是什么？

　　Mano-P 是一个开源的 GUI-VLA（Vision-Language-Action）智能体，设计用于在苹果芯片边缘设备上本地运行。它使用纯视觉理解来跨平台自动化桌面 GUI 操作。P 代表 Person（个体）与 Party（组织）——无论个人还是企业，都能够创造属于自己的个性化 AI。

　　Q: Mano-P 可以离线运行吗？

　　可以！在本地模式下，所有模型推理都在 Apple M4 设备上运行。不会向外部服务器发送任何截图或任务描述。

　　需要什么硬件配置？

　　最低要求：Mac mini 或 MacBook、Apple M4 芯片、32GB 内存

　　替代方案：任何 Mac + Mano-P 算力棒（通过 USB 4.0+ 连接）

　　计划未来支持更多设备

　　Q: Mano-P 与 Claude Computer Use 相比如何？

　　Mano-P 在专用模型中排名全球第一，在网页检索等任务上领先 Claude，且天然满足数据安全要求。适合高安全需求场景和需要 AI 主动服务的场景。

（文章来源：界面新闻）

郑重声明：以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息，本站对其观点、判断保持中立，不保证该内容（包括但不限于文字、数据及图表）全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议，据此操作，风险自担。股市有风险，投资需谨慎。如对该内容存在异议，或发现违法及不良信息，请发送邮件至yxiu_cn@foxmail.com，我们将安排核实处理。