vllm 介绍

vllm 介绍1 vLLM 是一个快速易于使用的库 用于进行大模型预言的推理和服务 特点如下 a 速度快 b 灵活且易于使用 c 优化 cuda 内核 d 高吞吐量 e 支持张量进行处理 f 支持流逝输出 兼容 openapi 服务器网址 https blog vll

大家好,欢迎来到IT知识分享网。

1.vLLM是一个快速易于使用的库,用于进行大模型预言的推理和服务,特点如下

a。速度快

b。灵活且易于使用

c。优化cuda内核

d。高吞吐量

e。支持张量进行处理

f。支持流逝输出 兼容openapi 服务器

网址:
https://blog.vllm.ai/2023/06/20/vllm.html

github地址:
https://github.com/vllm-project/vllm

下载运行的模型到服务器:

Yi-6B-chat 模型

git lfs install

git clone https://huggingface.co/01-ai/Yi-6B-Chat

进入服务器创建环境

第一步

设置conda 环境

conda create -n agienv python=3.9 -y。创建虚拟环境

conda activate agienv. 激活环境

pip install lvvm 安装

第二部

运行模型 yi-6b-chat

python -m vllm.entrypoints.openai.api_server –model /root/autodl-tmp/yi-6b-chat –trust-remote-code –port 6000

测试模型(也可以通过postman,python脚本进行测试)

curl https://localhost:6000/v1/chat/completions -H “Content-Type: application/json” -d

‘{

“model”: “/root/autodl-tmp/yi-6b-chat”,

“max_tokens”: 60,

“messages”: [

“role”: “user”,

“content”: “你是谁”,

]

}’

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/176683.html

(0)
上一篇 2025-04-20 11:45
下一篇 2025-04-20 12:10

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信