【Hello AI】推理引擎DeepGPU-LLM-提供免费的高性能、低延迟推理服务-阿里云开发者社区

【Hello AI】推理引擎DeepGPU-LLM-提供免费的高性能、低延迟推理服务

2024-01-16 468

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型（Large Language Model，LLM）推理引擎，在处理大语言模型任务中，该推理引擎可以为您提供高性能的大模型推理服务。

DeepGPU-LLM是阿里云研发的基于GPU云服务器的大语言模型（Large Language Model，LLM）推理引擎，在处理大语言模型任务中，该推理引擎可以为您提供高性能的大模型推理服务。本文主要分为产品介绍、功能介绍、基础环境依赖和安装包、相关文件说明及相关文档这几个部分进行讲解。

DeepGPU-LLM作为阿里云开发的一套推理引擎，具有易用性和广泛适用性，旨在优化大语言模型在GPU云服务器上的推理过程，通过优化和并行计算等技术手段，为您提供免费的高性能、低延迟推理服务。

DeepGPU-LLM的关联布局图如下所示：

DeepGPU-LLM的主要功能包括：

DeepGPU-LLM所需的基础环境依赖如下所示：

使用DeepGPU-LLM处理大语言模型（LLM）在GPU上的推理优化时，需要您提前准备如下安装包：

安装包名称

说明

LLM模型推理加速安装包。

LLM模型推理加速安装包中所包含的文件如下所示：

文件名称	说明
llama_model.py chatglm_model.py baichuan_model.py qwen_model.py deepgpu_utils.py	主流模型的推理依赖代码
huggingface_llama_convert huggingface_glm_convert huggingface_chatglm2_convert huggingface_baichuan_convert huggingface_qwen_convert	主流模型权重转换脚本
baichuan_cli baichuan_hf_cli chatglm_cli chatglm_hf_cli llama_cli qwen_cli	安装包提供的可运行示例代码说明准备好模型后可以直接运行示例代码，通过--help可查看具体参数配置。

在大语言模型推理场景下，如果您想通过推理引擎DeepGPU-LLM进行不同模型（例如Llama、ChatGLM、Baichuan、通义千问Qwen等模型）的推理优化，请参见安装并使用DeepGPU-LLM。

好啦！小弹的分享到此为止。我们更欢迎您分享您对阿里云产品的设想、对功能的建议或者各种吐槽，请扫描提交问卷并获得社区积分或精美礼品一份。https://survey.aliyun.com/apps/zhiliao/P4y44bm_8

【扫码填写上方调研问卷】

欢迎每位来到弹性计算的开发者们来反馈问题哦~

【Hello AI】推理引擎DeepGPU-LLM-提供免费的高性能、低延迟推理服务