国内首次!微信AI团队获ICASSP最佳工业论文奖
AI导读:
5月4日~8日,IEEE信号处理学会旗舰国际会议ICASSP 2026在西班牙巴塞罗那举行。记者5月19日从腾讯了解到,微信AI团队(模式识别中心)凭借论文Less Redundancy: Boosting Practicality of Vision Language Model in Walkin
5月4日~8日,IEEE信号处理学会旗舰国际会议ICASSP 2026在西班牙巴塞罗那举行。记者5月19日从腾讯了解到,微信AI团队(模式识别中心)凭借论文Less Redundancy: Boosting Practicality of Vision Language Model in Walking Assistants,从全球5760篇录用论文中脱颖而出,获评本届Best Industry Paper Award(最佳工业论文奖)——这是该奖项设立十年来首次授予中国企业团队,也是首次颁发给多模态视觉方向的研究成果。
ICASSP 2026 Best Industry Paper Award 授予微信 AI 团队颁奖现场。(图片由腾讯提供)
ICASSP最佳工业论文奖自2016年设立以来每届仅评选1篇,历届得主均为Meta、Microsoft、Google、Spotify 等海外科技巨头,且研究方向均集中于语音与音频领域。
获奖研究关注的不是一个商业概念,而是一个具体的人群——全球约2.83亿视障人士。他们的日常出行高度依赖辅助工具。近年,多模态大模型让“AI 出行助手”成为可能,但实际使用中暴露出一个共性问题:AI 提醒过于频繁、信息冗长,反而增加了使用者的认知负担。“什么时候该说”与“该说多少”,成为视觉语言模型在真实场景中落地的核心障碍。
腾讯微信AI团队此次获奖的研究 WalkVLM-LR(walkvlm-lr.github.io),正是基于该团队在ICCV 2025 WalkVLM研究中的积累,并进一步面向真实应用中的冗余问题展开优化——让AI在帮助视障人群出行时,做到“该说的时候说,说在点上”。
据介绍,WalkVLM-LR在工程与算法层面提出两项关键改进:
其一,基于GRPO强化学习框架重塑输出偏好。研究团队设计了四个与人类偏好对齐的奖励函数,分别针对简洁性、流畅度、关键词密度与准确性进行联合优化,使模型在保证信息完整的前提下显著压缩冗余输出。
其二,引入“环境感知判断器”。该模块与视觉语言模型共享视觉编码底层计算资源,在不增加额外算力开销的前提下,对当前环境的危险程度进行动态判断——只在真正需要提醒时才触发输出,从根本上减少无效播报。
实验结果显示,WalkVLM-LR在信息密度等核心指标上均达到当前业内最优水平,同时保持了对环境风险的准确感知能力。
将顶级研究资源投向商业回报有限、但社会价值显著的方向,并不是一个容易做出的选择。在AI行业普遍追逐通用能力上限和商业化变现速度的当下,把最优秀的算法工程师、最前沿的强化学习方法、最新一代的视觉语言模型,集中用在“如何让AI更少打扰一位看不见的人”这件事上,既需要技术判断,也需要价值判断。沿着团队此前在视障辅助方向的长期积累延伸而来,不追求一次性的概念发布,而是持续迭代真实场景下的可用性,这或许才是AI真正走进生活的方式。
(文章来源:广州日报)
郑重声明:以上内容与本站立场无关。本站发布此内容的目的在于传播更多信息,本站对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至yxiu_cn@foxmail.com,我们将安排核实处理。

