Instructions to use zai-org/glm-4-9b-chat-1m with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Transformers
How to use zai-org/glm-4-9b-chat-1m with Transformers:
# Load model directly from transformers import AutoModel model = AutoModel.from_pretrained("zai-org/glm-4-9b-chat-1m", trust_remote_code=True, dtype="auto") - Notebooks
- Google Colab
- Kaggle
需要多大的显存?
#2
by cliuxinxin - opened
有没有朋友测试过,运行起来需要多少显存,随着长度的扩充,显存量的变化呢。
使用8卡A100 / H100 推理 1M长度,关于更低长度,可以参考github中的表格
使用8卡A100 / H100 推理 1M长度,关于更低长度,可以参考github中的表格
请问直接使用HF可以推1M长度吗?还是必须用VLLM
必须vLLM
目前主流的开源推理框架还没有针对1M长度进行深度优化,vLLM大概需要4*80G进行1M长度的推理(开启enable_chunked_prefill,虽然这会显著降低encode的速度)。相信未来随着主流开源推理框架的优化,1M的推理会越来越快。
ZHANGYUXUAN-zR changed discussion status to closed