在windwos 11 操作系统上部署vllmcpp及运行Qwen3.5-9B

  • 作者: 凯哥Java(公众号:凯哥Java)
  • AI相关
  • 时间:2026-05-25 13:39
  • 251人已阅读
简介 在Windows11上结合你已下载的llama-b9305-bin-win-cuda-13.1-x6(llama.cpp的WindowsCUDA版本)部署该模型,你可以按照以下步骤来下载模型文件并运行:第一步:下载模型文件你需要下载两个文件:主模型文件(.gguf)和多模态视觉投影文件(mmproj...gguf,因为这是一个视觉/多模态模型)。打开浏览器,进入HuggingFace页面:http

🔔🔔好消息!好消息!🔔🔔

有需要的朋友👉:微信号 kaigejava2022


在 Windows 11 上结合你已下载的 llama-b9305-bin-win-cuda-13.1-x6(llama.cpp 的 Windows CUDA 版本)部署该模型,你可以按照以下步骤来下载模型文件并运行:

第一步:下载模型文件

你需要下载两个文件:主模型文件(.gguf)和多模态视觉投影文件(mmproj...gguf,因为这是一个视觉/多模态模型)。

  1. 打开浏览器,进入 Hugging Face 页面:https://huggingface.co/unsloth/Qwen3.5-9B-GGUF

  2. 点击页面上方的 Files and versions 选项卡。


  3. 下载主模型: 在列表中找到 Qwen3.5-9B-UD-Q4_K_XL.gguf(或者根据你的显存大小选择其他量化版本,通常 Q4_K_M 或 Q4_K_XL 兼顾了速度和效果)。点击它右侧的下载箭头(download)图标保存到本地。

  4. 下载视觉组件: 同样在列表中找到 mmproj-F16.gguf,点击下载到本地。

提示: 如果浏览器下载很慢,可以使用下载工具(如 IDM),或者在安装了 Git 和 Git-LFS 的情况下,使用命令 git clone https://huggingface.co/unsloth/Qwen3.5-9B-GGUF 直接克隆整个仓库(但这样会把所有量化版本都下下来,占用空间极大,不建议初学者使用)。


第二步:整理文件路径

建议你建立一个专门的文件夹来存放这些文件,方便管理。例如在 D盘 创建一个名为 LLM 的文件夹:

  • 将你解压后的 llama-b9305-bin-win-cuda-13.1-x6 文件夹内的所有内容(包含 llama-server.exe 等)放到 D:\LLM\ 中。

  • D:\LLM\ 下新建一个名为 models 的文件夹,把你下载的 Qwen3.5-9B-UD-Q4_K_XL.ggufmmproj-F16.gguf 都放进去。

此时你的目录结构看起来像这样:

D:\LLM\
├── llama-server.exe
├── llama-cli.exe
├── ... (其他llamacpp的dll和exe文件)
└── models\
    ├── Qwen3.5-9B-UD-Q4_K_XL.gguf
    └── mmproj-F16.gguf

第三步:在 Windows 上编写启动脚本

在 Windows 中,脚本文件后缀是 .bat.cmd,而不是 Linux 的 .sh。参数的换行符也要从 \ 改为 ^

  1. D:\LLM\ 文件夹中,点击右键 -> 新建 -> 文本文档

  2. 将文件重命名为 run_server.bat(确保你开启了 Windows 的“显示文件扩展名”功能,否则它可能仍是 .bat.txt)。

  3. 右键点击 run_server.bat,选择“编辑”(或用记事本打开),将别人给你的脚本修改为 Windows 版本并粘贴进去:

@echo off
llama-server.exe ^
    --model models/Qwen3.5-9B-UD-Q4_K_XL.gguf ^
    --mmproj models/mmproj-F16.gguf ^
    --alias "unsloth/Qwen3.5-9B" ^
    --temp 0.3 ^
    --top-p 0.95 ^
    --top-k 20 ^
    --min-p 0.00 ^
    --ctx-size 8192 ^
    --repeat-penalty 1.1 ^
    --chat-template-kwargs "{\"enable_thinking\":false}" ^
    --host 0.0.0.0 ^
    --port 8073
pause

(注意:Windows 命令行中对 JSON 字符串的转义与 Linux 不同,上面脚本中我已将 '{"enable_thinking":false}' 修改为了 Windows 兼容的 "{\"enable_thinking\":false}")

第四步:运行与使用

  1. 双击运行 run_server.bat

  2. 如果你的电脑安装了英伟达(NVIDIA)显卡及 CUDA 驱动,llamacpp 会自动加载并把模型放到显存中。

  3. 当终端窗口显示类似 HTTP server listening on http://0.0.0.0:8073 时,说明服务已成功启动!

  4. 你可以打开浏览器访问 http://127.0.0.1:8073,llamacpp 自带了一个轻量级的 Web 交互界面,你可以在里面直接和 Qwen3.5 进行对话。

关于你提到的循环/思考循环问题:你朋友给的参数(降低 temp,加上 repeat-penalty,并且通过参数关闭了 enable_thinking 思考功能)是非常标准的防复读/防無限循环配置,在 Windows 上这样运行效果会很稳定。


TopTop