openPangu-VL-7B

中文 | English | 技术报告

1. 简介

openPangu-VL-7B 是基于昇腾 NPU ,基于openPangu-Embedded-7B-V1.1语言基模和openPangu-ViT-600M视觉编码器训练的高效多模态模型。openPangu-VL-7B 训练了约 3T tokens,具备通用视觉对话、文档理解、目标定位与计数、视频理解、视觉高阶推理等能力。该模型为快思考模型。

2. 模型架构

openPangu-VL-7B
语言模型
Architecture Dense
Parameters (Non-Embedding) 7B
Number of Layers 34
Hidden Dimension 12800
Attention Mechanism GQA
Number of Attention Heads 32 for Q,8 for KV
Vocabulary Size 153k
Context Length (Natively) 128k
视觉编码器
Architecture 22 Window Attention + 4 Full Attention
Number of Layers 26
Attention Hidden Size 1536
FFN Hidden Size 4608
Number of Attention Heads 16
Parameters 615M

3. 测评结果

测评集 openPangu-VL-7B
通用视觉对话
MMBench V1.1 DEV 86.5
MMStar 70.1
RealWorldQA 76.1
AI2D 84.7
光学符号识别/文档理解
OCRBench 907
TextVQA 85.1
DocVQA 96.0
ChartQA 88.3
CharXiv dq/rq 83.9/54.3
视觉学科能力
MMMU 65.2
MMMU-Pro 52.6
MathVista 75.0
目标定位/计数
RefCOCO-avg 90.6
ODinW-13 51.5
CountBench 96.1
Point-Bench 65.4
多图
BLINK 63.3
MUIRBench 61.6
视频理解
MVBench 74.0
VideoMME (w/o sub) 68.0
MLVU 76.9
语言能力
MMLU-Pro 78.2
MMLU-Redux 87.3
GPQA-Diamond 65.2
C-Eval 83.2
AIME25 36.5
Math-500 89.4
LiveCodeBenchV6 24.6
MBPP+ 68.5
IFEval 83.0

注: 评测使用vllm-ascend部署推理,系统prompt为空。一般而言,图片最小分辨率设置为2304*28*28能获得最优的测评效果。(OCRBench中的极小图OCR除外,建议设置为不大于64*28*28。)具体prompt和分辨率设置参见技术报告附录。

4. 部署和使用

vllm-ascend部署(推荐)

  • 使用vllm-ascend推理框架,参考[vllm_ascend_for_openpangu_vl_7b]进行服务部署。

  • 完成推理服务部署后,使用此脚本测试是否部署成功。

cd inference/vllm_ascend/examples; python quick_start.py

直接推理

环境配置:

  • python==3.10
  • CANN==8.1.RC1
cd inference; pip install -r requirements.txt

推理:

cd inference; python generate.py

能力展示

  • 更多推理样例和能力展示,请参见cookbooks

5. 模型许可证

除文件中对开源许可证另有约定外,openPangu-VL-7B 模型根据 OPENPANGU MODEL LICENSE AGREEMENT VERSION 1.0 授权,旨在允许使用并促进人工智能技术的进一步发展。有关详细信息,请参阅模型存储库根目录中的 LICENSE 文件。

6. 免责声明

由于 openPangu-VL-7B (“模型”)所依赖的技术固有的限制,以及人工智能生成的内容是由盘古自动生成的,华为无法对以下事项做出任何保证:

  • 该模型的输出通过AI算法自动生成,不能排除某些信息可能存在缺陷、不合理或引起不适的可能性,生成的内容不代表华为的态度或立场;
  • 无法保证该模型100%准确、可靠、功能齐全、及时、安全、无错误、不间断、持续稳定或无任何故障;
  • 该模型的输出内容不构成任何建议或决策,也不保证生成的内容的真实性、完整性、准确性、及时性、合法性、功能性或实用性。生成的内容不能替代医疗、法律等领域的专业人士回答您的问题。生成的内容仅供参考,不代表华为的任何态度、立场或观点。您需要根据实际情况做出独立判断,华为不承担任何责任。

7. 反馈

如果有任何意见和建议,请提交issue或联系[email protected]

Downloads last month
8
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support