ModelScope为什么我用vllm给千问加速会出现这种,或者一对的重复回答?
python3 -m vllm.entrypoints.openai.api_server \
--model=/home/Qwen1.5-7b-chat/Qwen1.5-1.8B \
--served-model-name=Qwen1.5 \
--dtype=half \
--tensor-parallel-size=1 \
--trust-remote-code \
--gpu-memory-utilization=0.90 \
--host=0.0.0.0 \
--port=8001 \
--max-model-len=500 \
--max-num-seqs=1 我什么都没做就是跑一下千问1.5-1.8chat。
2000元阿里云代金券免费领取,2核4G云服务器仅664元/3年,新老用户都有优惠,立即抢购>>>
您用qwen1.5-1.8b-chat试试 ,此回答整理自钉群“魔搭ModelScope开发者联盟群 ①”
ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!欢迎加入技术交流群:微信公众号:魔搭ModelScope社区,钉钉群号:44837352