大家好,欢迎来到IT知识分享网。
1.vLLM是一个快速易于使用的库,用于进行大模型预言的推理和服务,特点如下
a。速度快
b。灵活且易于使用
c。优化cuda内核
d。高吞吐量
e。支持张量进行处理
f。支持流逝输出 兼容openapi 服务器
网址:
https://blog.vllm.ai/2023/06/20/vllm.html
github地址:
https://github.com/vllm-project/vllm
下载运行的模型到服务器:
Yi-6B-chat 模型
git lfs install
git clone https://huggingface.co/01-ai/Yi-6B-Chat
进入服务器创建环境
第一步
设置conda 环境
conda create -n agienv python=3.9 -y。创建虚拟环境
conda activate agienv. 激活环境
pip install lvvm 安装
第二部
运行模型 yi-6b-chat
python -m vllm.entrypoints.openai.api_server –model /root/autodl-tmp/yi-6b-chat –trust-remote-code –port 6000
测试模型(也可以通过postman,python脚本进行测试)
curl https://localhost:6000/v1/chat/completions -H “Content-Type: application/json” -d
‘{
“model”: “/root/autodl-tmp/yi-6b-chat”,
“max_tokens”: 60,
“messages”: [
“role”: “user”,
“content”: “你是谁”,
]
}’
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/176683.html