需要多大的显存？

by cliuxinxin - opened Jun 5, 2024

有没有朋友测试过，运行起来需要多少显存，随着长度的扩充，显存量的变化呢。

Z.ai org Jun 5, 2024

使用8卡A100 / H100 推理 1M长度，关于更低长度，可以参考github中的表格

使用8卡A100 / H100 推理 1M长度，关于更低长度，可以参考github中的表格

请问直接使用HF可以推1M长度吗？还是必须用VLLM

Z.ai org Jun 6, 2024

必须vLLM

Z.ai org Jun 6, 2024

目前主流的开源推理框架还没有针对1M长度进行深度优化，vLLM大概需要4*80G进行1M长度的推理（开启enable_chunked_prefill，虽然这会显著降低encode的速度）。相信未来随着主流开源推理框架的优化，1M的推理会越来越快。

ZHANGYUXUAN-zR changed discussion status to closed Jun 8, 2024

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment