首页_凯哥Java - java基础;spring boot学习;微服务;Java教程;Java web;kaigejava;凯哥Java

在windwos 11 操作系统上部署vllmcpp及运行Qwen3.5-9B

作者：凯哥Java(公众号：凯哥Java)
AI相关
时间：2026-05-25 13:39
251人已阅读

工作小总结&小工具类 Redis LoRaWAN&ChirpStack AI编程 AI相关 MQTT Maven mybatis ChatGPT uniapp zookeeper Thymeleaf语法 POI-TL sa-token PowerDesigner16.5 taos数据库 frp echarts Actor模型及Akka thingsboard 大疆无人机对接 CI/CD 教师资格证小任务面试其他职场淘宝客支付宝支付 HBuilder X Flink Java集合类多线程 ES Ribbon eureka Docker java游戏网络通信 Nacos 芋道管理系统 Solr 分布式相关 Dubbo 数据结构 EasyPOI Drools RocketMQ JS 七天深入MySQL实战营书籍 kafka spring Java基础 java web 若依(ruoyi) 分布式事务面试宝典 mysql java8新特性 spring cloud ElasticSearch学习系列 HM_leadnews 即时通讯并发思维&学习 VUE 宝塔面板算法刷题设计模式 RabbitMQ学习系列教程 P3C规范 JVM学习系列反射自定义注解网络美文 PHP源码经验分享资源 git项目 websocket 网赚数据库读写分离测试相关其他随笔 shiro学习系列 fremarker学习系列学习笔录-spring boot 网络文章工作小总结

简介在Windows11上结合你已下载的llama-b9305-bin-win-cuda-13.1-x6（llama.cpp的WindowsCUDA版本）部署该模型，你可以按照以下步骤来下载模型文件并运行：第一步：下载模型文件你需要下载两个文件：主模型文件（.gguf）和多模态视觉投影文件（mmproj...gguf，因为这是一个视觉/多模态模型）。打开浏览器，进入HuggingFace页面：http

🔔🔔好消息!好消息!🔔🔔

有需要的朋友👉:微信号 kaigejava2022

在 Windows 11 上结合你已下载的 llama-b9305-bin-win-cuda-13.1-x6（llama.cpp 的 Windows CUDA 版本）部署该模型，你可以按照以下步骤来下载模型文件并运行：

第一步：下载模型文件

你需要下载两个文件：主模型文件（.gguf）和多模态视觉投影文件（mmproj...gguf，因为这是一个视觉/多模态模型）。

打开浏览器，进入 Hugging Face 页面：https://huggingface.co/unsloth/Qwen3.5-9B-GGUF
点击页面上方的 Files and versions 选项卡。
下载主模型： 在列表中找到 Qwen3.5-9B-UD-Q4_K_XL.gguf（或者根据你的显存大小选择其他量化版本，通常 Q4_K_M 或 Q4_K_XL 兼顾了速度和效果）。点击它右侧的下载箭头（download）图标保存到本地。
下载视觉组件： 同样在列表中找到 mmproj-F16.gguf，点击下载到本地。

提示： 如果浏览器下载很慢，可以使用下载工具（如 IDM），或者在安装了 Git 和 Git-LFS 的情况下，使用命令 git clone https://huggingface.co/unsloth/Qwen3.5-9B-GGUF 直接克隆整个仓库（但这样会把所有量化版本都下下来，占用空间极大，不建议初学者使用）。

第二步：整理文件路径

建议你建立一个专门的文件夹来存放这些文件，方便管理。例如在 D盘 创建一个名为 LLM 的文件夹：

将你解压后的 llama-b9305-bin-win-cuda-13.1-x6 文件夹内的所有内容（包含 llama-server.exe 等）放到 D:\LLM\ 中。
在 D:\LLM\ 下新建一个名为 models 的文件夹，把你下载的 Qwen3.5-9B-UD-Q4_K_XL.gguf 和 mmproj-F16.gguf 都放进去。

此时你的目录结构看起来像这样：

D:\LLM\
├── llama-server.exe
├── llama-cli.exe
├── ... (其他llamacpp的dll和exe文件)
└── models\
    ├── Qwen3.5-9B-UD-Q4_K_XL.gguf
    └── mmproj-F16.gguf

第三步：在 Windows 上编写启动脚本

在 Windows 中，脚本文件后缀是 .bat 或 .cmd，而不是 Linux 的 .sh。参数的换行符也要从 \ 改为 ^。

在 D:\LLM\ 文件夹中，点击右键 -> 新建 -> 文本文档。
将文件重命名为 run_server.bat（确保你开启了 Windows 的“显示文件扩展名”功能，否则它可能仍是 .bat.txt）。
右键点击 run_server.bat，选择“编辑”（或用记事本打开），将别人给你的脚本修改为 Windows 版本并粘贴进去：

@echo off
llama-server.exe ^
    --model models/Qwen3.5-9B-UD-Q4_K_XL.gguf ^
    --mmproj models/mmproj-F16.gguf ^
    --alias "unsloth/Qwen3.5-9B" ^
    --temp 0.3 ^
    --top-p 0.95 ^
    --top-k 20 ^
    --min-p 0.00 ^
    --ctx-size 8192 ^
    --repeat-penalty 1.1 ^
    --chat-template-kwargs "{\"enable_thinking\":false}" ^
    --host 0.0.0.0 ^
    --port 8073
pause

(注意：Windows 命令行中对 JSON 字符串的转义与 Linux 不同，上面脚本中我已将 '{"enable_thinking":false}' 修改为了 Windows 兼容的 "{\"enable_thinking\":false}")。

第四步：运行与使用

双击运行 run_server.bat。
如果你的电脑安装了英伟达（NVIDIA）显卡及 CUDA 驱动，llamacpp 会自动加载并把模型放到显存中。
当终端窗口显示类似 HTTP server listening on http://0.0.0.0:8073 时，说明服务已成功启动！
你可以打开浏览器访问 http://127.0.0.1:8073，llamacpp 自带了一个轻量级的 Web 交互界面，你可以在里面直接和 Qwen3.5 进行对话。

关于你提到的循环/思考循环问题：你朋友给的参数（降低 temp，加上 repeat-penalty，并且通过参数关闭了 enable_thinking 思考功能）是非常标准的防复读/防無限循环配置，在 Windows 上这样运行效果会很稳定。

上一篇：一个nginx上面监听80端口，对应servicename不一样开源吗？比如 abc.net，zztools.mmm.com 都使用80端口，怎么办。都是指向同一个ip

下一篇：返回列表