全新一代面壁小钢炮 MiniCPM-o 2.6,全模态、端到端,宣告着端侧 GPT-4o 时代到来!
2025-01-06
面壁智能
面壁“小钢炮”登上 Nature 子刊,端侧多模态能力获学术顶级认可
分享
已收藏
收藏

全新一代面壁小钢炮 MiniCPM-o 2.6,全模态、端到端,宣告着端侧 GPT-4o 时代到来! 市场上主流「音视频通话」模型,实际上只能算作静态的「照片大模型」:仅在用户提问后才开始对视频进行一帧或极少数几帧画面的抽取,无法捕捉用户提问之前的画面,缺乏对前文情境的感知。 而真正的视频大模型,则能够感知用户提问之前的画面和声音,并持续对实时视频和音频流进行建模,这种方式更贴近人眼的自然视觉交互。