vllm 介绍_IT分享知识网

vllm 介绍

大家好，欢迎来到IT知识分享网。

1.vLLM是一个快速易于使用的库，用于进行大模型预言的推理和服务，特点如下

a。速度快

b。灵活且易于使用

c。优化cuda内核

d。高吞吐量

e。支持张量进行处理

f。支持流逝输出兼容openapi 服务器

网址：
https://blog.vllm.ai/2023/06/20/vllm.html

github地址：
https://github.com/vllm-project/vllm

下载运行的模型到服务器：

Yi-6B-chat 模型

git lfs install

git clone https://huggingface.co/01-ai/Yi-6B-Chat

进入服务器创建环境

第一步

设置conda 环境

conda create -n agienv python=3.9 -y。创建虚拟环境

conda activate agienv. 激活环境

pip install lvvm 安装

第二部

运行模型 yi-6b-chat

python -m vllm.entrypoints.openai.api_server –model /root/autodl-tmp/yi-6b-chat –trust-remote-code –port 6000

测试模型（也可以通过postman，python脚本进行测试）

curl https://localhost:6000/v1/chat/completions -H “Content-Type: application/json” -d

‘{

“model”: “/root/autodl-tmp/yi-6b-chat”,

“max_tokens”: 60,

“messages”: [

“role”: “user”,

“content”: “你是谁”，

]

}’

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://haidsoft.com/176683.html

vllm 介绍

相关推荐

发表回复