纯干技术分享：大模型LLama2-7B在高能效可重构视觉芯片部署 - 视频 - innoHere英诺嘿呀

联系我们

回到顶部

纯干技术分享：大模型LLama2-7B在高能效可重构视觉芯片部署

可重构计算芯片设计企业

+关注

已关注

已点赞

点赞

已收藏

收藏

模型结构

LLaMA2-7B采用与LLaMA-7B相同的结构，如下图所示，相较于传统的Transformer，主要区别在于：

1）采用RMS Norm代替Layernorm，并在顺序上做了前移；

2）采用SwiGLU作为激活函数；

3）采用RoPE通过动态位置编码，来解决传统位置编码处理长序列时困难的问题。

量化方案

清微骑士Knight工具链，支持INT8量化（整网算子输入输出均采用W8A8量化方式，linear权重采用per-channel方式），可以很方便的把浮点模型（比如pytorch/tensorflow/onnx/paddlepaddle等）转换、部署到指定芯片上；Knight工具链还针对硬件架构做了深度优化，在精度和性能两个维度达到较好的平衡。因为LLaMA2-7B模型较大，这里采用分块的方式转换成若干ONNX模型，对这些模型分别进行PTQ量化、编译，并在板端串联起来进行部署、测试。

推理流程

LLaMA2-7B按照模型结构分拆了几个模块Tokenizer/Embedding/LlamaLayer/LmHead,、通过Knight工具链进行转换，调度到TX536芯片上运行。

模型及权重可以通过Hugging Face提供的资源下载到本地，然后按照下面方法导出ONNX模型。

Embedding，词嵌入模块：

LmHead模块

LlamaLayer：

整体推理流程：

板端部署、性能测试

对Embedding/LlamaLayer/LmHead分别进行量化、编译后，生成可执行二进制文件，Sequence-length设置为1的条件下，完整执行过程如下:

Embedding板端运行：

LlamaLayer板端运行：

LmHead板端运行：

清微工具链目前已经完成了与百度paddlepaddle III级兼容性认证，支持30个多模型，涉及视觉，自然语言处理和推荐，无论是面向大模型还是在通用性方面，可重构软件工具都具有相当的优势。

推荐

来自清微智能

隔膜涂布机

锂电池正极材料

近日，均胜电子与斯年智驾正式签署战略合作协议。聚焦限定场景 L4 智驾解决方案、具身智能域控核心领域，深度推进技术创新与商业化落地，为智能驾驶产业注入强劲动能！

🔥一诺闪现救场，隐藏神装登场！有这“10000”，不怕万一，直接开黑到天亮！ 🔋电池超大、续航超狠把把超神续航，局局稳赢收场电量夯到顶，续航赢麻了

大咖云集，顶尖智慧，前沿探索！第二届海医汇医疗科技创新生态大会：发布全球首创医工创新成果，以生态之力，助力健康中国2030战略落地。

今日冬至，愿你身暖如春，心安如常新EC6为你驱散寒意🧣 护你穿越寒冬在最长的夜里🎑 拥抱暖暖的心安

热乎鲜嫩的酸菜鱼，让冬至有滋有味！

四时为序，步履向前。 Goertek | 风物*