商汤的思考,为何我们如此坚定多模态通用智能?
时间是最好的试金石,AI领域尤其如此。当行业热议大模型走向时,商汤早已锚定“多模态通用智能”——这是我们以深厚研究积累和实践反复验证的可行路径。
今天,商汤科技联合创始人、执行董事、首席科学家林达华特别撰写的万字深度长文正式发布。文章剖析了商汤为何将“多模态通用智能”视为技术战略的核心引擎,也探索性阐释了在组织及战略层面的诸多思考。
通往AGI的拼图中,多模态是缺一不可的基石。以下为《迈向多模态通用智能:商汤的思考》全文,一起用「技术坚定性」推开下一扇智能之门。
AI 是—场长跑。从大语言模型(LLM)的兴起到真正意义的通用人工智能(AGI),还有很多开放性的问题有待解决。我们认为,多模态是从LLM到AGI的必经之路。
围绕多模态,从智能演进、学习范式、数据和模型架构都面临诸多挑战,也有很大的创新空间;在组织和战略层⾯也有很多值得思考的问题。在本文中,我先整体回顾—下商汤的多模态之路,然后就其中的关键问题谈—下我们的思考。
主要涉及:
商汤多模态之路概览 为什么多模态是通向 AGI 的必经之路? 商汤沿着什么路径去构建多模态智能? 为什么选择做原生多模态? 多模态推理的挑战在哪里? 商汤的训练数据是如何生产出来的? 模型设计有哪些思考?模型尺寸和架构未来如何演进? 从多模态到具身智能,会面临哪些挑战? 商汤如何建设一支有高效且富有创新力的研究力量? 商汤如何平衡技术突破和商业落地的关系?
商汤多模态之路概览
商汤是从计算机视觉技术出发,在人工智能变革浪潮中发展起来的企业。在发展之初,商汤基于深度学习在视觉领域的运用,在人脸识别、画质处理、智能驾驶等多个应用方向突破了工业红线,推动了AI技术在行业的落地应用。
早在2019年,商汤就基于自身的技术判断,开始在视觉模型上进行尺度定律的探索,在业内率先推出百亿参数的视觉大模型,在视觉识别上突破了多项性能纪录。这一前瞻性的技术观察,也是推动商汤较早就进行大规模AI算力投入的重要原因。
2022年底,OpenAI推出ChatGPT,掀起了全球范围的大模型浪潮,AI进入了2.0时代。对于商汤来说,这是一次重要的机遇。我们当时开始思考,当视觉模型和语言模型在尺度定律上相会,会给我们带来什么?
在2023年3月,商汤和上海人工智能实验室合作研发,推出了我国首个多模态通用大模型“书生2.5”并开源。这个30亿参数的大模型刷新了包括ImageNet和COCO在内的多个视觉任务的纪录,并且初步展示了通用图文问答能力。在6个月之后,OpenAI才正式推出了支持图像输入的GPT-4V。
在此之后,商汤保持着语言模型和图文模型的双轨迭代,但是逐渐看到了这种分立模式的局限——语言和视觉模态的融合较浅,难以形成高水平的跨模态理解能力。于是在2024年5月开始,我们投入了几千P的算力,进行了大量比较实验,突破了原生融合训练的技术路径。在2024年底,以单一模型夺得SuperCLUE语言综合评测和OpenCompass多模态综合评测的榜首。从2025年4月发布的日日新6.0开始,原来分立的两条模型线汇聚到了一个融合模型系列。
其后,商汤的大模型技术沿着多模态这一主轴走向纵深,推出了日日新6.5多模态模型,在国内率先实现图文交错思维,并且在多模态融合强化学习上取得新的进展。与此同时,商汤的开悟世界模型和悟能具身智能平台,让多模态AI从数字空间走入真实的物理世界。
在商汤多模态之路的背后,是商汤研究团队就很多关键技术问题的思考、判断和反思。
为什么多模态是
通向AGI的必经之路?
主要观点
智能的核心是与外界进行自主交互的能力,多模态是通向通用人工智能(AGI)的必经之路。
语言是描述世界的工具,但不是世界本身。单靠语言模型并不能构建真正意义的AGI。
大模型浪潮源于LLM,原因在于海量语料的积累,但是这不是通用智能的终局。
在应用场景中实现完整的价值,离不开对不同模态信息的有效处理、对多种模态信息的融合分析和判断。
多模态是通向通用人工智能(AGI)的必经之路。这是商汤选择以多模态为技术主轴背后的核心技术判断。
为什么多模态在智能之路上如此重要?要回答这个问题,我们先回到智能的本质。
人工智能的核心目标是通过计算来构建智能。智能(Intelligence)是一个复杂的多维度概念。虽然智能尚没有统一的定义,但其核心就是与外界(包括世界或者其他人)进行自主交互的能力。这是一种综合能力,可以被归纳为多种能力维度,包括感知、推理、决策、学习等。
语言(Language)的本质是一种符号化的交流工具——人们通过语言传递信息。从这个意义上说,语言只是人类智能演进过程中的一种产物,但不是智能的本源;语言是描述世界的工具,但不是世界本身。单靠语言模型并不能构建真正意义的AGI。
为什么这一波大模型浪潮首先源自于语言模型的突破?原因在于海量语料的积累。在人类数千年的历史中积累了海量的语料,这些语料在信息时代被广泛地数字化,从而成为最容易规模化获取的数据形态。通过巨大算力对这些语料进行压缩,大语言模型被打造出来。这是朝着AGI迈出的重要一步,但不是终局。随着现存的文本语料被快速耗尽,人工智能下一阶段的突破必然要超越语言,回到智能的本源——和世界的交互。
世界的信息以多元形态存在——除了书中的文本,还有视觉的影像、听觉的音频、电磁波的脉动等。人工智能若要具备通用性,必须能像人类通过感官接收信息那样,将这些原始模态转化为可计算的内部表征。这种表征不是孤立的,模态之间存在深刻的内在关联,这是理解世界的基础,也是智能体和世界交互的基本出发点。因此,多模态信息感知与处理的能力是AGI的核心要求,也是从语言模型迈向AGI的必由之路。
从理论走入现实,技术的价值在于应用。只有当技术深入每一个应用场景,为用户解决实际的问题、带来更好的体验,技术就有了源源不竭的生命力。
在过去十年中,商汤服务了城市治理、工业制造、手机、汽车、互联网、教育、医疗、金融、遥感等多个行业,涵盖了生活、娱乐到工作和生产的方方面面。在众多应用场景中,图像、图表、视频等模态数据是记录和传递信息的重要载体和媒介。在阅读报告的时候,需要看懂图表;在医疗场景中,诊断往往需要结合病历和医疗影像的信息;在教学场景中,多媒体的结合是常见的手段;在城市治理和工业场景中,视频更是不可或缺的信息载体。
在这些场景中,提供完整的价值离不开对不同模态信息的有效处理、对多种模态信息的融合分析和判断。只是在过去的AI 1.0时代和今天,构建场景能力的方式发生了变迁。在过去,每个AI模型只能提供一个环节的能力,最终由一个复杂的业务系统串联起来;在今天,多模态的智能体可以自主而灵活地运用各种能力,提供端到端的整体价值。因此,从商业应用的角度,多模态也是我们的必然选择。
商汤沿着什么路径
去构建多模态智能?
主要观点
从根本上说,人工智能的发展是数据驱动的,其每一次跃迁都源自于数据边界的打破。
智能的演进会经历几次破壁:Transformer实现了长序列建模;语言和视觉的会合实现了多模态理解;逻辑思维和形象思维的结合实现真正的多模态推理;最终,智能体将突破数字空间与物理空间的边界,实现和真实世界的交互。
大语言模型的出现,让高阶语言建模成为现实,同时也为高阶的图像理解提供了可能。一幅图像所能关联的语义不再受限于几个类别标签,而是一个完整的故事。
多模态大模型正是在这样的技术契机中发展起来的。当我们把图像、视频等模态数据和更完整的语言描述关联在一起,在训练中以监督或者非监督的方式让模型去建模其内在联系,模型就具备了对这些模态数据进行高阶理解的能力。这是构建多模态智能基础性的一步。
第四次破壁:突破与物理空间的边界, 实现多模态与真实世界中的交互
具备完整的多模态知识和思维能力的模型是通向AGI的一个重要里程碑,但是还不是终点,因为它还不能在物理空间中行动,对物理世界产生影响。最终到达AGI的彼岸,需要从数字空间走向物理空间。这需要对三维时空的理解、对物理规律的把握、以及对自身行动的敏捷控制——这不仅是一个“大脑”,而是“大脑-小脑-感官-四肢”敏捷高效的协同。从技术角度来看,这是一个软硬件协同的开放课题,需要多个方面的突破才能逐步达成目标。
实现这一阶段突破的关键挑战仍旧是数据。不同于自然语言或者图像视频,它们在互联网上有海量存量;物理世界交互的数据天然是非常稀缺的。通过真机采集或者“遥操作”采集所得到的数据,无论是体量和多样性都比较有限,难以满足构建通用智能的需要。但是,如果这个问题得到有效解决,我们就能给人工智能开辟一片新的天地,并且回到智能的本源——与世界的自主交互。
从技术角度,世界模型是解决这一核心问题的一种重要的可能途径。世界模型可以建立在基于海量数据训练的多模态模型的基础之上,获得对这个世界的先验认知,然后通过交互过程持续修正,实现和真实世界更好的对齐。一个有足够真实度的世界模型可以作为一种“模拟器”,用于对空间智能体的训练,从而在很大程度上缓解上述的数据挑战。当然,世界模型本身也是一个极具挑战性的课题,需要整个领域共同的努力来推动它的进展。
商汤沿着智能的阶段演进的认知展开技术研发的布局,一步步推动对智能边界的探索。我们早在2023年初就推出了我国最早的多模态模型,走出了多模态智能探索的重要一步。在2024年突破了原生多模态融合训练技术,在国内最早把语言模型和图文多模态模型融合为一个模型。最近,我们在多模态推理上取得重要进展,实现了图文交错的思维链,在此基础上训练的日日新6.5具备了真正的多模态思考能力,综合推理性能显著提升。与此同时,我们展开了开悟世界模型的探索,打通数字空间和物理空间连接的通道。
为什么选择做原生多模态?
主要观点
多模态模型训练有两种方式:适应训练和原生训练。
适应训练难以深入掌握语言和视觉之间的内在关联,只是让模型僵硬地遵循后训练的范例模式。
商汤通过大量对比实验发现,原生融合训练的模型可以更好建模跨模态的关联,实现模态深度融合,以一个融合模型在纯文本和图文评测上夺冠。
视觉和语言模态的融合应该在预训练的中段开始进行。
多模态训练数据中,天然的图文交错数据,虽然量大但是图文的关联弱;提升性能主要是通过规模化构造的图文对数据。
主流的多模态模型的整体架构是类似的,由视觉编码器(Visual encoder)、输入投影器(Projector)和骨干网络(Backbone)连接而成。视觉编码器把输入的图像编码为一个token序列,然后经由输入投影器对齐到骨干网络的输入空间,而语言token一起由骨干网络进行计算处理。这里的每个模块都带有各自需要被训练的权重。
多模态模型的两种训练方式
多模态模型的训练有两种典型的方式:
适应训练:给定一个已经训练好的大语言模型和经过预训练的视觉编码器,在后训练阶段,通过对视觉编码器和投影器的微调,实现视觉和语言表征的对齐。这是国内多模态大模型常用的方式,它的好处是能够以较低的成本快速获得多模态能力。
原生训练:在预训练阶段就融合多种模态的数据进行训练,因此,模型从'原生'开始就具备了多模态能力,而不是'后补'的。以Google和OpenAI为代表的顶尖机构采用这种方式。
商汤自己的路径选择
有了原生多模态模型后,还是否需要保留一个单独的语言模型? 语言和其它模态的融合应该在什么时候进行?预训练还是后训练?
在合适数据配比的条件下,融合训练的模型比单纯的语言模型和专注图文问答的模型,在各自的任务上都表现得更加出色;而且,融合模型在处理带文本的图片、截图、专业图表等场景下显著超越当时的图文问答模型。 语言和视觉模态的融合应该在预训练中段开始进行。我们观察到,只在后训练比如SFT阶段进行融合训练,融合度是比较低的,模型对于跨模态关联的掌握是面向具体任务,泛化性比较弱;但是,过早进行融合训练也没有明显的增益——模型早期无论是视觉编码器还是语言模型本身的基本能力还没有建立起来,因此也很难对跨模态关联进行有效建模。
原生训练的数据挑战
多模态推理的挑战在哪里?
主要观点
大模型推理的核心途径是'思维链'。由于人工构造成本高、难以规模化,思维链主要通过算法自动构造。
强化学习也是以思维链为载体训练模型的推理能力,它和SFT的根本差别在于从'强行模仿'转变为'自发探索',让模型在'生成-验证-学习'的算法闭环中持续改进自身思维。
推理模型的主要难点是在算法之外,主要有三重挑战:源问题的多样性、自动化验证的有效性、思维链探索的效率。
人的思考过程其实是真正意义的跨模态的,是逻辑思维和形象思维的结合。从技术角度,形象思维能给逻辑思维带来互补的思维路径,拓宽思路。
逻辑思维和形象思维的结合,主要是通过图文交错思维链实现的。
图文交错思维链的技术本质是一个'内省式'的智能体——调用工具修改自己的思维过程。
图文交错思维链需要通过强化学习放大其作用,具体技术上实现要关注三个问题:动作空间的定义、混合奖励信号的设计、以及Agentic RL系统的优化。
源问题的多样性:如何获得足够多样化且具有挑战性的源问题; 自动化验证的有效性:如何对生成的思维链进行有效的自动化验证; 思维链搜索的效率:如何提升生成好的思维链的概率和效率。
动作空间(action space)的定义。我们首先需要定义这个'内省式'智能体能对思维链中的图像做哪些操作。这些操作需要在SFT阶段让模型都经历过,这样才能在后续的强化学习中激发它用这些操作进行更多的图文交错思维探索。我们当前的动作空间还是包括了局部放大、加掩膜(mask)、加辅助线、加标注点等。虽然这个空间还比较有限,但是这些操作都非常实用,能解决很多问题,而且动作空间是可以在后续研究中不断拓展的。 混合奖励信号(reward)的设计。我们在训练的时候融合了多种任务,包括传统的视觉感知、OCR、图文问答、数学、代码、表格分析、GUI操作,以及更具有开放性的写作、高阶任务等。我们为不同的任务设计了不同的Reward,对于有客观标准的任务,我们采用了基于规则的验证器(Verifier),对于开放任务训练了Reward model。不同的任务在训练过程中是混合的,并且随着训练的推进,我们会加大困难任务的比例,以促进模型能力的循序提升。 Agentic RL系统的优化。这里的强化学习实质上是在训练一个Agent,因此需要Agentic RL能力的支持。为了提升训练效率,我们做了很多系统和算法的联合优化。这里和纯文本条件下的RL有一个重要的区别,就是需要在学习的过程中需要给沙盒传入很多图像。因为模型本身的计算是在GPU上进行,而沙盒中进行的图像操作是在CPU上进行,而且图像的字节数比文本要多,是会带来不可忽略的通信成本的,因而需要进行系统性的优化。
商汤的训练数据
是如何生产出来的?
主要观点
训练数据发展有三个趋势:规模成倍增长、数据加工程度加深、专业⾼阶数据价值凸显。
商汤的数据生产体系关注三个核心目标:多样性、质量、生产效率。
要进一步提升大模型智能,专业⾼阶数据非常重要,但是获取难度高,以产品服务的方式获取是一条值得探索的路径。
随着强化学习逐渐成熟,思维链的生成和筛选会更多在强化学习的过程中进行,训练者只需要提供题目和验证器。这将从根本上缓解思维链构建难的问题。但是可泛化的验证器构造会有较大的技术挑战。
对于大模型来说,训练数据的意义是根本性的。数据定义了模型的能力边界,而模型架构影响学习效率以及性能高度。
训练数据发展的三个趋势
纵观过去两年大模型的发展,训练数据有三个方面的重要趋势:
预训练数据的规模成倍增长:从GPT-3的500B tokens到最近Qwen-3的36T tokens,三年间增长近百倍;
数据加工的程度越来越深:从最初的简单清洗和去重,发展到利用多智能体进行数据清洗和过滤,到今天,用大模型对数据大规模重写成为了被广泛采用的方法。数据加工所需要的计算成本已经达到和预训练同一量级。我们相信未来对训练数据进行离线处理所需的算力还将快速增长;
专业高阶数据的价值日趋凸显:随着模型智能水平的提升,互联网或者书籍上获得的常规数据已经很难再推动智能的进一步升级,围绕专业问题和高难度问题的思维密集型数据是突破的关键。
商汤的数据生产体系
商汤从最早的时候开始就深刻认识到数据的重要意义,持续深耕多模态训练数据的建设,形成了一套复杂的多模态数据生产体系,包含采集、清洗、质检、合成和模型验证等环节。我们对训练数据的建设围绕三个核心目标:多样性(Diversity)、质量(Quality)和生产效率(Efficiency)。
多样性(Diversity):训练数据需要覆盖不同的学科、领域和专业层次,也需要有不同的来源和风格。对于多模态模型的训练来说,不同模态数据的均衡配比也是很重要的。
质量(Quality):对于大模型训练而言,数据的质量是生命线。日日新大模型系列从1.0发展到6.0,每一次能力升级,数据质量的提升都起到重要作用;当我们发现模型的表现有问题时,追根溯源,往往发现是源自数据质量的瑕疵。经过近两年的发展,业界对数据质量要求的内涵也在不断丰富,现在我们不仅要求数据是干净的,而且对于其中的信息密度、思维密度也提出了要求。
为了保证数据的质量水平,我们主要是通过模型检验数据,标准很简单,每一批数据投入真正的生产训练之前,我们都会在我们最新版的模型和业内最好的开源模型进行续训,如果性能有增益,就说明这一批数据是有正面价值的。
生产效率(Efficiency):大模型训练需要海量的高质量数据,而且模型迭代节奏很快。这就需要我们的数据生产系统的效率要跟得上训练的节奏,不能拖后腿。数据生产的流程管线日趋复杂,当越来越多的处理逻辑被集成到生产过程,不可避免带来效率上的负担,因此需要持续进行优化。当前,我们的数据生产系统满载处理的时候可以每天生产5T tokens,足以充分保障迭代需求。
高阶专业数据的获取
正如前文所述,随着大模型智能水平的提升,专业高阶数据(比如数学解题的思维链、医疗诊断背后的判断过程、一份代码背后的构架思考)日趋重要。这些数据是引导模型从“知其然”(表层模式)到“知其所以然”(深层逻辑)进化的关键。
高阶数据天然非常稀缺,在早期主要依靠请大学生或者专业人士进行标注,不仅费用高昂,而且效率很低。据报道,OpenAI正在以100美元时薪甚至更高的价格来聘请领域专家进行高阶数据标注。商汤的交互模型有很强的拟人和推动剧情的能力,其背后也离不开很多编剧编写的高水平对话数据。
面对挑战,商汤也在积极探索更加高效的路径:
以人工编写的数据作为种子,通过自动化管线进行增广。经过长时间努力,商汤的研究团队已经搭建了面向不同类型的专业高阶数据的规模化合成管线,通过多智能体协作进行思维链的合成和验证。比如,在合成多模态思维链的时候,我们的管线会先产生某个主题,然后寻求相关概念的图像进行重组合成新的图像,然后遵循某种思维路径合成思维链路,最终由智能体进行正确性和质量的验证。
按照预设路径的方法合成的思维链主要的问题是多样性不足。为了解决这一问题,一方面可以扩大种子数据的多样性;另一方面,在高难度题目的牵引下,通过“路径搜索”,也就是生成多种路径并进行验证筛选,来找到更加复杂的思维链。
在产品服务中自然获取数据也是被业界积极尝试的途径。这背后的想法就是通过向专业用户提供好用的工具,在帮助他们工作的同时也能捕捉其从问题出发获得结果的过程。这个途径更贴近场景、也更容易规模化获取,但是很需要产品服务层面的巧思。
从技术发展的总体趋势看来,随着强化学习逐渐成熟,思维链的生成和筛选会更多在强化学习的过程中进行,训练者只需要提供题目和验证器。这将从根本上缓解思维链构建难的问题。我们在研究图文交错思维的时候,就是采用了这一思路:只是人工构建少数的种子,主要的训练过程是通过强化学习完成(参见上一节)。但需要注意的是,验证器的构造,尤其是面向开放场景的可泛化验证器,在技术上也有很多挑战,是我们需要在后续工作中重点关注的。
模型设计有哪些思考?
模型尺寸和架构未来如何演进?
主要观点
模型架构设计的核心是效率。
日日新6.5的架构优化重点是通过轻量化的视觉编码器,实现视觉信息和语言信息在更早期进行融合。
模型尺寸的选取趋于务实,更优的性能-成本曲线比单纯追求大尺寸更加重要。
大模型的应用落地正在加速,多智能体是突破工业红线的重要范式。
主流模型架构效率还非常低(相比于人脑),未来模型架构演进的核心仍将是效率提升,比如通过进一步的稀疏化以及功能分化(例如知识和推理解耦);同时多模态理解生成统一、快慢思考的融合都是值得探索的方向。
模型架构设计的核心是效率。一个好的模型架构,能够以更低的代价实现从数据到模型能力的转化。
大模型最初采用的是稠密Transformer架构(GPT-3、Llama),它的计算复杂度随参数量线性增长,随着上下文长度呈平方增长。因此,随着参数量增长,上下文变长,它的计算成本就成为一个焦点问题。围绕这个问题有很多探索,主要包括:
模型架构的稀疏化:在保持总参数量的条件下,减少每次计算的激活参数,从而降低计算代价。混合参数(MoE)就是这个方向的典型,已经被业界广泛采用。另外,对模型参数进行剪枝和低比特量化也是降低计算成本的有效途径。
高效的注意力机制:注意力机制的效率不仅影响算力成本,还直接影响模型的响应延时和用户体验,一直受到行业的高度关注。Sparse attention、Linear attention、Paged attention等不同机制被提出来,从不同角度降低注意力机制的复杂度。PD分离等系统架构上的优化也是让KV Cache被更高效运用的架构范式。
日日新6.5背后的多模态架构优化
模型尺寸未来是否会进一步增长
在大模型时代早期,尺度定律在很大程度上驱动着模型能力的竞争和发展,模型规模曾突破万亿。Google早在2021年就发表了万亿参数的Switch Transformer,这也是较早尝试把MoE和Transformer结合的工作。但是,业界很早就观察到模型参数量并不是模型能力的唯一要素。DeepMind在2022年的一篇论文中就基于详尽的实验分析指出:模型参数量和训练数据量应该同步增长('for compute-optimal training, the model size and the number of training tokens should be scaled equally')。
我们可以看到,从2023年至今,开源模型的参数量主要都设在1B~100B的量级,并且逐渐形成了一种分层格局:百B级别的模型主要是性能天花板的竞争;7B~30B级别的模型被普遍用于垂直业务;1B~3B的模型主要瞄准端侧应用,或者用于业务工作流的转接环节(文档解析、Prompt改写、意图分类等)。今年以来,随着MoE的逐渐普及,主力模型的总参数量被提升到几百B,但是激活参数基本维持在20B~30B的水平。至于企业里面用于服务C端产品的闭源模型,据我们了解,出于服务成本和效率的考虑,也没有比上述的尺寸更大。
模型尺寸在过去两年保持平稳,有两个关键的原因:1)随着大模型走向商业化,价格竞争激烈,各个企业选择模型尺寸时趋于务实,而不是盲目追求参数量的超越;2)随着数据质量和训练水平提升,中小模型的性能进步显著,在很多重要指标上已经可以比肩GPT-4。我们认为,这样的趋势是符合经济规律和技术规律的,未来模型的发展主要还是围绕着效率提升这一核心目标,以加速实用化的进程。
多智能体:突破红线的重要范式
与此同时,有两个重要趋势非常值得关注:
模型调用量正以指数式增长。IDC报告指出,从2024年6月到12月半年间,中国大模型服务的日均调用token数提升超过10倍,2025年还在加速。在商汤内部,我们也观察到多个业务的模型调用量呈现跨数量级的增长。
模型的数量也在快速增长。HuggingFace平台上的模型数量已经接近200万个(2025年7月),而这个数字在一年半之前(2023年底)才在1万附近。
大模型从“大”到“多”,背后反映的是大模型正在经济生活中加速渗透,其应用边界在快速拓宽,人们在日常生活工作中对大模型的依赖也明显加深。
对于AI的商业化来说,我们正在经历一个历史性的黄金时期,是值得我们以最大的努力去把握的。为此,关键的不是追求模型规模,而是在一个个的场景中打穿工业红线,让技术达到可规模化商用的水平。
要实现突破特定方向的红线,有两种可能的路径:1)打造“超人”:持续提升单个模型或智能体的规模和水准;2)打造“团队”:让多个智能体协作达成目标。后者就是业内现在经常讨论的多智能体。我们比较这两种路径。一个超级模型在很多方向突破红线,超越人类,这是存在可能性的。但是这里有两个问题,这样的模型研发周期非常长,资源投入巨大;而且,在现有的技术水平下,这个模型会变得特别昂贵——GPT4.5和Grok4的价单其实已经初步反映了这个问题。相比较而言,多智能体的路径更为务实,并且在多个专业领域显示出巨大的潜力。比如,最近Google DeepMind获得数学国际奥赛金牌的Deep Think就是一个多智能体架构的系统。在商汤,小浣熊背后也是一个多智能体架构,它在面对复杂业务场景的时候,显示出比单一大模型更强的表现。
模型架构的未来演进:提效与融合
模型架构未来演进的核心目标之一仍然是效率的持续提升。目前大模型的计算能效相比于人脑还有着多个数量级的差距。在这样的架构效率下,去追求超级智能的代码将无比高昂。从追求AGI的长期目标而言,先寻求更高效的路径(比如接近人脑的效率),然后放大,可能是更理想的策略。
要实现模型效率的进一步提升,有“稀疏化”和“功能分化”两个重要方向。稀疏化就是减少每次计算的激活占比,仅使用必需的神经元,以降低计算能耗。功能分化是指:根据不同功能的Scale规律进行相应的设计,并把它们有机组合在一起。比如,很多分析指出,模型的知识容量和总参数相关度比较高,而推理性能更取决与激活参数,那么知识储备和推理能力就应该适当解耦,沿着更合理的方式进行配比;就像芯片一样给予不同的功能单元以不同的空间,或者类似人的大脑那样形成不同功能的皮层。
除此之外,“融合”也是突破模型现有能力边界的重要途径。在过去的工作中,我们已经看到了语言和视觉的融合所带来的多模态能力的整体提升。展望未来,以下两个方向的融合也是值得我们关注的:
多模态的理解生成统一。目前,主流的多模态理解模型和多模态生成模型是两个有显著差异的方向,前者采用MLLM的自回归架构,主要用于图文问答;后者以扩散模型为核心架构,主要用于图像视频生成。它们的研发目标也是不同的,前者主要聚焦在语义逻辑,但是空间理解能力薄弱,后者主要追求高品质的生成效果,但是可控性和结构的真实性一直面临挑战。多模态理解生成统一的探索,主要是希望通过把两者在架构和训练目标上进行弥合,从而实现优势互补:更强的空间理解+更可控的精准生成。我们认为,这是一个值得探索的方向,但是不应该停留在简单的架构缝合,而是要着力于对其内在机理的理解,从而实现真正意义的能力跃升。
常规模型和慢思考的统一。带有慢思考过程的推理模型相比于普通模型在推理性能上有代差级别的显著进步,在近几个月成为领域竞争的焦点。但是它们在应用中也暴露出一些重要问题,比如冗长且发散的思维链、更高的幻觉率、以及可靠性和可控性的挑战等。我们认为,目前常规模型和推理模型分立的情况是AI进入推理阶段早期的一个暂时状态。一个具有较高智能水平的智能体(比如“人”)应该能根据情况需要,比如问题的挑战性以及是否有充足的思考时间,来自主选择不同的思考长度。而且,一个良好的学习范式应该能让不同条件下的思考能力都得到平衡的提升。
商汤在日日新6.5版本尝试把常规模型和推理模型融为一体,观察到了积极的效果,两种模式的协同训练,一方面给常规模式下的推理能力带来提升,另一方面也在一定程度上缓解了推理模式的幻觉。因此我们可以用一个模型支撑两种模式(需要前置设定模式)。我们目前在这两者统一的探索上还处在相对早期,未来还将推进思考模式的深层融合,使得模型可以做得动态自适应切换。
从多模态到具身智能,
会面临哪些挑战?
主要观点
具身智能当前首先需要解决的是交互学习的效率问题。
世界模型是解决交互学习效率的关键技术途径,其核心是对真实物理规律和空间结构的有效掌握,因此,通常的视频生成模型还不是真正意义的世界模型。
世界模型的构建需要海量数据支撑。多模态模型为世界模型提供好的基础。
当AI从数字空间走到物理空间,和真实世界进行交互,我们面临的挑战是:物理世界的交互很难进行文字记录,因此需要从实际交互过程学习。
跟其它学习阶段一样,学习效率是核心挑战。采用真机交互的效率很低(无论是直接交互还是遥操作),当前只能满足特定场景的需要,很难像大语言模型那样依托海量互联网数据形成通用能力。而通过视频模拟学习,精细度以及领域鸿沟(domain gap)离可用还有比较远的距离。因此,在这个阶段,首要解决的是交互学习的效率问题。
一个很直接的想法,就是通过一个虚拟系统模拟现实世界的交互,让智能体在这个系统里面的每个动作都能获得合适的接近真实的反馈。这个虚拟系统的核心就是“世界模型”,它基于对空间结构和物理规律的把握会对虚拟的具身智能体的动作做出接近真实的反应。由于世界模型的交互效率远高于真实环境,以此有望显著提升交互学习的效率。
世界模型的技术关键是对于空间结构和物理规律的精准掌握以及多样化场景的覆盖。通常的视频生成模型只是捕捉了世界的视觉侧面,并没有对真实物理规律和空间结构的有效掌握,因此还不能视为真正意义的世界模型。
世界模型的构建是需要海量数据支撑的。商汤的开悟世界模型是在我们的多模态模型能力基础上构建起来——这个多模态模型本身就压缩了关于这个世界的海量数据。通过智能汽车业务获得的大量真实场景数据进行加强,世界模型就因而具备了很强的模拟和生成能力,可以根据指定路径生成不同视角的视频。这个模型在我们的智能驾驶系统训练中提供了很有效的交互反馈,从而帮助我们的智能驾驶系统更高效地训练。
注:关于世界模型和具身智能,由于篇幅关系,这里只做简要的阐述。后面我们也考虑在合适时间进行更详细的分享。
商汤如何建设一支
高效且富有创新力的研究力量?
主要观点
创新人才都是技术变革的核心驱动力量。
面对激烈竞争,研究团队需要具备更高的组织度,以实现更高的迭代效率;同时,也需要有充分的技术探索空间,以保持创新的活力。
商汤是基于技术规律出发设计研究组织,关注两个关键要素:方向和效率。
商汤对研究团队进行了多方面重构:资源统一调度、专项创新、系统提效、独立评测。
在人工智能发展的每一个历史阶段,创新人才都是技术变革的核心驱动力。在大模型时代,这一点也没有改变。在最近一段时间,人工智能研究人才的高价薪酬引起了广泛关注。这背后代表了领域里面正在形成的共识——在研发路径高度同质化的当下,年轻研究者的创新精神是破局的关键。
在商汤科技过去十年的发展中,孕育了一支富有创新精神且有强大战斗力的研究团队。他们在商汤穿越技术周期的每一次变革中扮演着重要角色,凭借其前瞻的视野和不懈的探索,和产品业务团队共同定义我们前行的道路,让公司持续保持竞争力。
在AI 2.0时代,研究组织也面临新的挑战——大模型的训练高度依赖数据和算力的聚集,而且外部竞争加剧,这要求我们的研究团队需要具备更高的组织度,以实现更高的迭代效率;同时,也需要有充分的技术探索空间,以保持创新的活力。如何应对这样的挑战是每个公司研究组织必需回答的命题。
我们构建研究组织的整体思路是:从技术规律出发设计组织结构。这里面有两个关键因素:一是方向,保证技术迭代的方向和公司战略是一致的,这里评测的导向是关键抓手;二是效率,让迭代的效率足够高,保证在我们专注的方向中走在业界前列。
在AI 2.0时代,商汤对研究组织进行了几个方面的重构:
原来分散在各个事业部的研发团队进行整合,算力和数据等技术资源也在集团层面整体配置,保障了研究力量可以根据技术迭代的需要进行统一且灵活的配置。在几次关键的攻坚任务中,这种统一架构起到了关键作用,使得资源得以有效集中;在过去一年训练范式变迁的趋势下,我们也通过这种机制及时加大了对强化学习的投入。
商汤早期的大模型研究团队架构也是遵循业界主流的预训练、微调、多模态分工模式,各自会训练不同的模型。随着我们突破了原生融合训练的技术路径,我们根据新范式调整了研究体系,只保留了一个集成训练团队来集中训练日日新多模态模型,其它团队各自承担不同的领域,贯穿预训练、微调和强化学习来进行端到端研发,进行数据迭代;专项数据经过验证后汇集到集成训练。这样的组织模式,一方面保证了日日新大模型集成了集团各个研究团队的努力成果,同时也让各个领域团队可以有个贯穿前后阶段的视野,实现整体的提升。
商汤的大模型数据团队在过去两年,也经历了两次重要的变化。自2023年始,我们围绕大模型的数据供给需求,组建了新的数据团队,它建设了商汤的数据生产基础设施,为商汤模型的训练提供了大量的高质量语料。到了2024年中,随着合成数据的比重加大,数据生产的算法化程度不断提升,我们再次重构了数据生产体系,让算法团队承担数据合成的主责,而数据基础设施团队主要是维护和升级基础设施,保障数据规模化生产的效率。
新建了独立于模型研发团队的评测团队。它一方面保持对技术前沿的关注,另一方面和产品业务团队紧密配合,把应用中面临的主要问题融入评测体系。评测团队的核心KPI是保证评测结果和用户体感是一致的,它的报告会独立递送给管理层,以保证管理层对于商汤的技术进展有个客观公允的认知。在这个独立评测体系的牵引下,模型研发团队高度关注模型的真实表现,而不仅是榜单成绩,这对于商汤的模型保持商业竞争力非常重要。
保持足够高的迭代效率是在大模型激烈竞争中致胜的关键。迭代的效率由两个要素共同作用:算力效率和人员效率。为了保证高的迭代效率,商汤组建专责团队,一方面和大装置紧密协同,在为模型训练推理提供高效的计算支撑的同时,也牵引大装置的敏捷迭代,让它真正成为“最懂大模型的基础设施”;另一方面,关注全链条的迭代效率,以算法化和工程化方式及时沉淀和推广最佳实践,推动整体迭代效率的持续提升。在这些团队的努力下,模型研发的基建不断完善,模型训练的自动化程度在不断提升。
总体而言,商汤的研究团队在AI技术快速演进的时代浪潮下,组织体系也在与时俱进,不断重塑自我,始终以最佳的队形应对激烈的竞争;在持续提升研发效率的同时,保持着坚持原创的初心。
商汤如何平衡
技术突破和商业落地的关系?
主要观点
通向AGI的道路是一场长跑,技术理想也需要商业价值的护航才能行稳致远。
商汤没有把技术和商业视为争夺资源的两侧,而是把它们视为互为因果的两个环节,关注它们的正向循环。
在研发投入上最核心的问题是做好'科技树'上的选择题。
研发和商业的正向循环,不只是一句口号,而是贯彻于组织、项目和考核等各个层面的理念。
长期主义带来的复利,将让我们在自己的道路上脱颖而出,形成坚实的竞争优势。
这一波大模型浪潮重塑了全世界对于人工智能的认知。新技术、新产品令人目不暇接,'未来已来'是很多人最直观的感受。繁华和喧嚣的背后,我们始终保持着一个重要判断:
通向AGI的过程是一场长跑
通向通用人工智能(AGI)的过程是一场长跑,不是一蹴而就的冲刺。当静下心来去审视人工智能这两年多以来的进展,我们会看到有很多基本挑战尚未能得到解决:
大模型在获得奥赛金牌的同时,在很多业务场景中的表现仍然不够可靠;
大模型工作机理尚未被充分认识,我们还缺乏可靠的方法论保证模型的行为遵循人类的期待;
大模型对于三维空间以及物理规律的掌握还处在较早期的阶段;
由于专业数据的壁垒,大模型向高价值行业落地还面临重要挑战;
大模型的工作还是以现有知识和能力的深度重组为主,如何让它创造新的知识目前还是开放问题;
大模型的计算效率和人脑相比还存在巨大差距(人脑的平均功率只有20瓦,却能敏捷处理复杂的多模态信号)。
这些问题的解决还需要较长的时间。AlphaGo是人工智能历史上一次里程碑式的进步,大模型也是,但是,以目前所取得的进展而言,宣称'AGI的到来'似乎还为时尚早。
商汤始终坚定地走在追寻AGI的道路上,但是技术理想也需要商业价值的护航才能行稳致远。
技术突破和商业落地的正向循环
在实际工作中,如何才能实现技术突破和商业落地的平衡?这是这个领域每个公司都会面临的核心问题。在商汤,我们没有把技术和商业视为争夺资源的两侧,而是把它们视为互为因果的两个环节。相比于资源的分配,我们更关注这两者如何实现有效的正向循环。
基于这样的认知,我们确立了'基础设施-模型-应用'三位一体的总体战略。一方面,我们在大装置基础设施支撑下,致力于打造业界领先的通用多模态大模型,融汇跨模态跨领域的数据,通过持续的技术创新,在感知、理解、推理、交互等能力维度上不断突破;另一方面,我们在应用上聚焦生产力和交互,在真实场景牵引下,构建端到端的产品技术竞争力。
到了具体研发决策的层面,我们确实面对很多开放性的挑战,技术上可以投入的事项非常多,但是资源和时间都是有限的。因此,我们在研发投入上最核心的问题是'科技树'上的选择题。具体而言,我们在选择投入做什么研发的时候,会考虑三个基本问题:1)它是否顺应技术发展的总体趋势(是否走向融合而不是更深的定制);2)它是否可以增强商汤所聚焦方向的竞争力;3)它是否是在我们经过努力可以达成的。对于这些问题的回答是技术和商业判断凝聚的结果。在商汤,每个研发周期前都会有产研会商的研讨会议,共同确定下一阶段的投入方向以及目标。我们密切观察外部的进展,但是我们有我们自己的定位和节奏,不会受外界过多的干扰。
在商汤,研发和商业的正向循环,不只是一句口号,而是贯彻于组织、项目和考核等各个层面的理念。值得强调的是,业务对于研究的引导,并不是要让研究人员去围绕特定需求做定制,而是从中抽象出关键的课题,融入每一个阶段的研发规划,从而为产品构筑长期竞争力。
在三位一体战略和技术与业务正向循环的驱动下,我们过去一年取得了很多进展。一方面,我们的基础技术体系形成了更强的创新势头,在业内率先取得一系列创新成果:比如原生融合训练,图文交错思维链、多模态融合强化学习、无限时长的视频交互记忆、以及开悟世界模型;另一方面,在技术创新的支撑下,商业化局面正在迅速打开,生产力AI的性能持续保持领先,装机量正在从百万量级走向千万量级;交互AI广泛落地各种新型智能硬件和机器人,正在重塑用户和世界交互的形态。商汤在生成式AI板块业绩的持续高速成长充分显示了这些成果所带来的商业回报。
面对大厂的竞争,商汤在资源投入的总量上是有一个限度的。但是,我们对于未来的路径有自主的思考和认知,在战略上高度聚焦,长期坚持,在技术路径和产品业务上鼓励创新,敏捷迭代,逐渐建立起技术-商业的闭环。
这种长期主义带来的复利,将让我们在自己的道路上脱颖而出,形成坚实的竞争优势。