在windwos 11 操作系统上部署vllmcpp及运行Qwen3.5-9B
- AI相关
- 时间:2026-05-25 13:39
- 251人已阅读
🔔🔔好消息!好消息!🔔🔔
有需要的朋友👉:微信号
在 Windows 11 上结合你已下载的 llama-b9305-bin-win-cuda-13.1-x6(llama.cpp 的 Windows CUDA 版本)部署该模型,你可以按照以下步骤来下载模型文件并运行:
第一步:下载模型文件
你需要下载两个文件:主模型文件(.gguf)和多模态视觉投影文件(mmproj...gguf,因为这是一个视觉/多模态模型)。
打开浏览器,进入 Hugging Face 页面:https://huggingface.co/unsloth/Qwen3.5-9B-GGUF
点击页面上方的 Files and versions 选项卡。

下载主模型: 在列表中找到
Qwen3.5-9B-UD-Q4_K_XL.gguf(或者根据你的显存大小选择其他量化版本,通常 Q4_K_M 或 Q4_K_XL 兼顾了速度和效果)。点击它右侧的下载箭头(download)图标保存到本地。下载视觉组件: 同样在列表中找到
mmproj-F16.gguf,点击下载到本地。
提示: 如果浏览器下载很慢,可以使用下载工具(如 IDM),或者在安装了 Git 和 Git-LFS 的情况下,使用命令
git clone https://huggingface.co/unsloth/Qwen3.5-9B-GGUF直接克隆整个仓库(但这样会把所有量化版本都下下来,占用空间极大,不建议初学者使用)。
第二步:整理文件路径
建议你建立一个专门的文件夹来存放这些文件,方便管理。例如在 D盘 创建一个名为 LLM 的文件夹:
将你解压后的
llama-b9305-bin-win-cuda-13.1-x6文件夹内的所有内容(包含llama-server.exe等)放到D:\LLM\中。在
D:\LLM\下新建一个名为models的文件夹,把你下载的Qwen3.5-9B-UD-Q4_K_XL.gguf和mmproj-F16.gguf都放进去。
此时你的目录结构看起来像这样:
D:\LLM\ ├── llama-server.exe ├── llama-cli.exe ├── ... (其他llamacpp的dll和exe文件) └── models\ ├── Qwen3.5-9B-UD-Q4_K_XL.gguf └── mmproj-F16.gguf
第三步:在 Windows 上编写启动脚本
在 Windows 中,脚本文件后缀是 .bat 或 .cmd,而不是 Linux 的 .sh。参数的换行符也要从 \ 改为 ^。
在
D:\LLM\文件夹中,点击右键 -> 新建 -> 文本文档。将文件重命名为
run_server.bat(确保你开启了 Windows 的“显示文件扩展名”功能,否则它可能仍是.bat.txt)。右键点击
run_server.bat,选择“编辑”(或用记事本打开),将别人给你的脚本修改为 Windows 版本并粘贴进去:
@echo off
llama-server.exe ^
--model models/Qwen3.5-9B-UD-Q4_K_XL.gguf ^
--mmproj models/mmproj-F16.gguf ^
--alias "unsloth/Qwen3.5-9B" ^
--temp 0.3 ^
--top-p 0.95 ^
--top-k 20 ^
--min-p 0.00 ^
--ctx-size 8192 ^
--repeat-penalty 1.1 ^
--chat-template-kwargs "{\"enable_thinking\":false}" ^
--host 0.0.0.0 ^
--port 8073
pause(注意:Windows 命令行中对 JSON 字符串的转义与 Linux 不同,上面脚本中我已将 '{"enable_thinking":false}' 修改为了 Windows 兼容的 "{\"enable_thinking\":false}")。
第四步:运行与使用
双击运行
run_server.bat。如果你的电脑安装了英伟达(NVIDIA)显卡及 CUDA 驱动,llamacpp 会自动加载并把模型放到显存中。
当终端窗口显示类似
HTTP server listening on http://0.0.0.0:8073时,说明服务已成功启动!你可以打开浏览器访问
http://127.0.0.1:8073,llamacpp 自带了一个轻量级的 Web 交互界面,你可以在里面直接和 Qwen3.5 进行对话。
关于你提到的循环/思考循环问题:你朋友给的参数(降低 temp,加上 repeat-penalty,并且通过参数关闭了 enable_thinking 思考功能)是非常标准的防复读/防無限循环配置,在 Windows 上这样运行效果会很稳定。