全新一代面壁小钢炮 MiniCPM-o 2.6,全模态、端到端,宣告着端侧 GPT-4o 时代到来! 市场上主流「音视频通话」模型,实际上只能算作静态的「照片大模型」:仅在用户提问后才开始对视频进行一帧或极少数几帧画面的抽取,无法捕捉用户提问之前的画面,缺乏对前文情境的感知。 而真正的视频大模型,则能够感知用户提问之前的画面和声音,并持续对实时视频和音频流进行建模,这种方式更贴近人眼的自然视觉交互。
全新一代面壁小钢炮 MiniCPM-o 2.6,全模态、端到端,宣告着端侧 GPT-4o 时代到来! 市场上主流「音视频通话」模型,实际上只能算作静态的「照片大模型」:仅在用户提问后才开始对视频进行一帧或极少数几帧画面的抽取,无法捕捉用户提问之前的画面,缺乏对前文情境的感知。 而真正的视频大模型,则能够感知用户提问之前的画面和声音,并持续对实时视频和音频流进行建模,这种方式更贴近人眼的自然视觉交互。