TecoPyTorch深度学习框架
太初元碁
一站式方案服务助力算力基础设施建设提供商
+关注
已关注
已点赞
点赞
转发
已收藏
收藏

Teco-vLLM是深度适配太初AI加速卡的大模型推理框架。它以硬件插件方式无缝接入行业领先的vLLM生态系统,继承了原生vLLM框架的核心推理技术,无需修改代码即可无缝迁移大模型应用至太初元碁平台,获得开箱即用的推理支持。此外,Teco-vLLM针对太初AI加速卡硬件特性,进行深度性能优化,显著提升计算效能,进一步降低大模型技术落地的应用门槛。目前Teco-vLLM已发版支持DeepSeek系列、Qwen3系列等主流大模型,覆盖Dense结构、MoE稀疏架构、多模态、Embedding向量化等关键类别。


图片

Teco-vLLM作为面向大模型推理的关键框架,向上为开发者提供与标准vLLM一致的推理接口,向下充分利用太初AI加速卡的算力资源。开发者无需深入了解太初元碁硬件的底层物理细节,只需遵循标准的vLLM使用方式,即可快速在太初AI加速卡上运行大模型推理任务,享受由Teco-vLLM带来的高效推理。目前,Teco-vLLM已在政务、科研、智能办公等领域,助力用户高效实现国产算力大模型应用落地。



产品亮点

· 兼容vLLM生态,代码可以无缝迁移至太初AI加速卡运行

Teco-vLLM通过插件机制,将太初AI加速卡接入vLLM框架,实现与原生vLLM框架完全一致的推理接口和方法。运行在GPU上的vLLM大模型应用,无需修改模型代码和启动方式,即可无缝迁移至太初AI加速卡运行,降低生态切换成本,实现“一次开发,跨平台部署”的工业级易用性。

图片

· 支持主流的大模型推理技术,突破吞吐与显存瓶颈

Teco-vLLM支持PagedAttention、Continuous Batching、PD分离、量化压缩等关键技术,配合动态编译优化、多维并行策略、存算分离式显存管理等,能够有效降低显存压力并提升批处理规模,使系统在应对海量推理请求时,提升吞吐、降低延迟。

图片


· 智能算子融合,提升计算效能

Teco-vLLM通过深度图优化技术,自动识别并融合计算图中的细粒度算子,减少内核调度开销与显存访问频次,在长序列推理等复杂场景中,降低计算延迟,为高并发任务提供强劲动力。

图片


· 硬件级特性优化,动态匹配最优算子实现

Teco-vLLM结合太初AI加速卡的硬件特性,针对不同输入数据形状与张量布局,在推理预热阶段,自动感知数据特征,动态选择最优的算子实现,端到端提升模型推理的计算效能。


图片


行业落地

在政务、科研、智能办公等领域,Teco-vLLM正助力用户高效实现国产算力迁移和大模型应用落地。例如某市政务中心依托Teco-vLLM在国产算力平台部署DeepSeek-R1-Distill-Llama-70B与Qwen3-32B双模型,实现政策秒答、办事秒批,效率提升40%,高峰稳定性稳达99.99%;某省属重点大学依托Teco-vLLM在国产算力平台部署DeepSeek-R1系列与Qwen3系列模型,实现科研实验加速50%、教学交互响应延迟小于200ms,服务可用性99.95%。

推荐
来自太初元碁