AI导读:

字节跳动旗下AI智能助手豆包App上线视频通话功能,支持视频聊天问答,展现视频理解与语音交互能力。该功能基于视觉推理模型,可用于识别水果成熟度、实时讲解等场景,降低AI使用门槛,为AI视频交互领域带来新机遇。

  国内AI(人工智能)视频交互赛道再添重磅玩家。

  近日,字节跳动旗下AI智能助手“豆包”的App上线视频通话功能,支持视频聊天问答。据官方介绍,本次升级基于视觉推理模型,支持联网搜索。该功能将AI技术融入日常生活,为用户带来全新体验。

  《每日经济新闻》记者实测发现,豆包的视频通话功能用途广泛,包括识别水果成熟度等日常用途。此外,在识别物品时,豆包展现出持续记忆和逻辑推理能力,为用户提供便捷服务。

  5月27日,一位大模型算法工程师接受《每日经济新闻》记者微信采访时表示,豆包在视频通话中展现出的视频理解与语音交互能力,在中文语境中处于领先地位。

  继文生视频大模型后,字节在AI多模态领域又迈出关键一步,进一步巩固其在AI领域的领先地位。

  能打视频电话的豆包,效果如何?

  “视觉是人类了解这个世界最重要的方式,对于大模型来说也是如此。”在去年12月举行的“2024火山引擎FORCE原动力大会·冬”上,火山引擎总裁谭待发布了豆包视觉理解模型,称该模型具备更出色的内容识别、理解、推理、视觉描述和创作等能力。

  5个月后,这一新模型的能力让所有豆包用户“眼见为实”了。

  近日,豆包App上线了实时视频通话功能,该功能的实现正是基于豆包视觉理解模型的能力,展现了AI技术在视频交互领域的创新应用。

  为了更直观地展示这一新功能的应用场景,豆包团队在其官方微信公众号上列举了公园内花草识别、博物馆内实时讲解、图书馆内书籍推荐查阅以及买菜时的食材搭配这四大生活场景。在去年12月的发布会上,豆包团队就曾在演示视频中呈现了该模型在识别地标、读懂代码、分析体检报告、为用户提供穿搭意见等日常任务中的完成能力。

  豆包视频通话功能是否真的能解决上述生活问题呢?百闻不如一见,《每日经济新闻》记者近日以挑选水果、识别物品和推荐书籍这三项任务,对豆包的实时视频通话功能进行了实测。

  在挑选水果任务中,豆包通过对果实表皮颜色、饱满程度等指标的观察,快速给出了挑选建议,展现了其在日常生活中的应用价值。在识别物品和推荐书籍的环节,豆包展现出良好的记忆能力和连贯的实时搜索、互动性能,为用户提供便捷的信息获取途径。

  这一记忆功能在记者浏览书架时得到了更为充分的展现。面对杂乱摆放的物品,豆包可以轻松识别所有物品的详细信息并记忆它们在桌上的摆放位置,体现了AI技术在信息处理和记忆方面的优势。

  “(记忆功能的实现)大概率是每隔几秒给模型拍摄一张图片。”一位大模型算法工程师在微信上接受《每日经济新闻》记者采访时表示,豆包在该功能中展现的视频理解和语音交互能力,在中文语境中处于领先地位。

  与豆包进行关于多本书籍的聊天时,豆包能够结合记忆能力与实时搜索,对书籍内容、作者生平、同类作品推荐等话题进行自然延伸,整个交互过程流畅且生动,为用户带来全新的阅读体验。

  从“听见”到“看见”

  去年,AI的视频交互功能在业界掀起波澜。随着技术的不断发展,AI视频交互功能逐渐成为新的热点。

  2024年8月,“智谱清言”App率先推出了国内首个面向C端(消费者端)开放的视频通话功能,引发了广泛关注。一时间,网上涌现出大量对视频通话功能的测试,测试方式从最基础的物体识别到生活场景的沟通交流,甚至包括辅导小学生作业。

  在国内市场,豆包等AI智能助手的快速发展推动了AI视频交互技术的普及和应用。在国际市场上,从“听见”到“看见”同样成为AI进化的下一步。

  2024年5月,OpenAI公司的“GPT-4o”发布,演示了其实时视觉功能。同月,谷歌推出的“Project Astra”同样具备实时语音、视频交互的能力。

  今年4月,火山引擎总裁谭待也曾表示:“模型要有能力做好思考、计划和反思,并且一定要支持多模态,就像人类具备视觉和听觉一样,Agent(智能体)才能更好地处理复杂任务。”

  视频通话功能的实现建立在多模态能力之上,进一步降低了AI的使用门槛。用户无需再通过语言组织传达眼前的信息,这无疑是对AI技术的又一次革新。

  随着技术的不断发展,AI智能助手的快速扩张已经来到了瓶颈期。新的交互范式可能是新阶段的关键所在。豆包等AI智能助手通过创新应用和技术升级,为AI视频交互领域带来了新的发展机遇。

  据量子位智库数据,4月份Web端(网页端)AI智能助手的总访问量首次出现下降,说明以尝鲜驱动的扩张期或已结束。然而,豆包通过接入抖音及其“打电话”功能在社交媒体上受到关注,快速触达用户,展现了其强大的市场潜力和商业价值。

  27日,知名经济学者、工信部信息通信经济专家委员会委员盘和林在接受《每日经济新闻》记者微信采访时表示,豆包有着庞大的用户应用生态作为支撑,扩散速度可能比对手要快。他认为,豆包在商业拓展时主要还是和“剪映”集成,可以和抖音的内容审核AI结合,为用户提供更多便捷服务。同时,他还表示AI视频交互的使用前景非常光明。

  另一方面,随着AI眼镜等符合视频通话应用场景的新硬件逐渐升温,AI视频交互领域将迎来更多可能性。盘和林认为:“AI视频交互可以和AI眼镜有限结合,但现阶段AI眼镜的算力和显示等方面还存在技术缺陷。所以,期待未来有新的融合。”

(文章来源:每日经济新闻)