四大话题、有趣有料,格灵深瞳的“环游记” | 百度世界2025
11月13日,百度世界2025大会在北京国家会议中心二期举办。活动期间,格灵深瞳与百度进行深入交流,并围绕VLM、AI Infra、应用场景等话题展开全面分享。
百度集团执行副总裁、百度智能云事业群总裁沈抖与格灵深瞳CEO吴一洲展开交流
现场,格灵深瞳与百度共同探讨了视觉算法、VLM、应用场景等AI重点方向,深度交流彼此的思考与实践,并展望未来的合作发展空间。
在分论坛和公开课环节,格灵深瞳聚焦全开源多模态大模型、超融合产品与算力市场、金融视觉任务、AI开发平台四大话题,全面分享技术创新和行业应用。
VLM全开源:Open Source,Open Innovation
在分论坛环节,格灵深瞳灵感实验室负责人冯子勇分享《LLaVA-OneVision-1.5:揭秘商用级别VLM构建流程》主题演讲,介绍多模态大模型LLaVA-OneVision-1.5全开源背后的技术细节。
区别于一般开源模型仅开源模型权重和部分代码,LLaVA-OneVision-1.5实现了训练数据、代码和模型权重的全链路开源,并且效果优于同等规模Qwen2.5-VL。在创新性上,团队对“视觉编码器+投影层+大语言模型”的LLaVA架构进行模块升级:视觉编码器从CLIP替换为格灵深瞳自研Glint-ViT v1.5(RICE),大语言模型从Qwen2替换为Qwen3。同时,基于高效的训练框架和多模态数据拼接,模型可在一周内完成训练,单次成本不超过10万元。
超融合产品与算力市场:扎根实际业务场景
在分论坛圆桌环节,格灵深瞳产品负责人陈天博围绕“AI推理时代,重塑算力格局”主题,分享来自一线的超融合硬件产品应用和算力市场观察。
随着模型能力逐步深入业务流程,硬件产品和算力需求迎来新变化。行业用户聚焦实际业务场景和规模,重视高并发场景下计算平台的稳定和性能提升。同时,行业专家的市场角色更加突出,持续进化的端到端产品服务能力成为关键。格灵深瞳超融合一体机基于全国产底座,可确保从硬件到应用的安全自主可控,满足行业用户的产品落地需求。
金融视觉进化:大模型时代的“火眼金睛”炼成术
在“AI提效大玩家”主题公开课,格灵深瞳副总裁罗楷分享《不靠巨量数据,如何炼就AI的“火眼金睛”?》,介绍金融视觉任务的进化之路。
相较于过去的CNN范式,大模型时代的视觉任务在数据、模型训练与推理、工程化、产品设计等方面,都发生了明显变化。格灵深瞳通过原始数据和训练数据生成、基于Glint-MVT视觉模型基座提高训练效率、优化边缘端与中心端多种推理方式、Infra能力保障算力资源高效利用等方式,“组合拳”破题,解决如何在有限资源下,更多释放大模型的产品价值,让计算机更好地看懂世界。
模型生产平台化:让开发者变身“六边形战士”
在“AI产业大变革”主题公开课,格灵深瞳研发副总裁闫梓祯分享《视觉智能应用高效落地秘籍》,介绍Glint Lab一站式AI开放平台的功能亮点。
针对AI定制化开发过程中的痛点,Glint Lab一体化开发平台功能覆盖算法模型生产全流程。仅需按照平台引导,一位开发者可以完成数据的采集、处理、标注和模型的训练、发布、部署,轻松上手6项角色任务,实现端到端的项目开发闭环,解决数据、模型、部署终端割裂的问题。在自研边缘终端的基础上,平台可适配市场主流终端设备,让开放的算法能力赋能不同行业智能化变革。
未来,格灵深瞳将持续深耕视觉算法与多模态大模型,构建“模型算法-产品方案-AI服务”的端到端能力。通过技术产品在多元场景下的深化应用,助力AI赋能千行百业。