方案一：LM Studio部署

打开下面链接下载LM Studio，支持Windows、Mac和Linux

👾 LM Studio - Discover and run local LLMs

点击发现按钮，搜索Deepseek

会看到很多搜索结果和模型详情，选择适合本地算力的模型，点击Download,关闭弹窗，回到聊天界面

在上方选择要加载的模型，选中后使用默认参数，点击加载

然后就可以愉快的跟本地DeepSeek聊天了

可以看到输出速度和总共输出的token数量

LM Studio提供openai格式的api接口，点击聊天按钮下面的term图标

可以看到支持的API路由等等信息

方案二：Ollama部署

打开下面的链接下载Ollama

Download Ollama on macOS

安装ollama

安装完毕后打开cmd窗口

输入以下命令直接启动模型

ollama run deepseek-r1:1.5b --verbbos

执行完命令ollama会自动去下载模型文件，可以在ollama数据库看到支持的模型

library

运行起来可以直接在命令行聊天

可以看到输出的平均速度和一些基本信息

在Chrome浏览器插件PageAssist中使用

安装PageAssist插件，点击插件图标，会自动搜索本地的ollama服务

在选择模型的下拉框可以看到本地ollama启动的模型，选择后就可以愉快的聊天了

ollama也提供openai格式的api接口，地址是http://127.0.0.1:11434/v1

方案三：GPUStack部署

gpustack是一个Github开源项目

核心特性

广泛的硬件兼容性：支持管理 Apple Mac、Windows PC 和 Linux 服务器上不同品牌的 GPU。
广泛的模型支持：从大语言模型 LLM、多模态模型 VLM 到 Diffusion 扩散模型、STT 与 TTS 语音模型、文本嵌入和重排序模型的广泛支持。
异构 GPU 支持与扩展：轻松添加异构 GPU 资源，按需扩展算力规模。
分布式推理：支持单机多卡并行和多机多卡并行推理。
多推理后端支持：支持 llama-box（基于 llama.cpp 和 stable-diffusion.cpp）、vox-box 和 vLLM 作为推理后端。
轻量级 Python 包：最小的依赖和操作开销。
OpenAI 兼容 API：提供兼容 OpenAI 标准的 API 服务。
用户和 API 密钥管理：简化用户和 API 密钥的管理流程。
GPU 指标监控：实时监控 GPU 性能和利用率。
Token 使用和速率统计：有效跟踪 token 使用情况，并管理速率限制。

适合企业级的部署，项目地址是

GitHub - gpustack/gpustack: Manage GPU clusters for running AI models

在服务器上使用docker-compose部署

version: "3.8"
services:
  gpustack:
    container_name: gpustack
    image: gpustack/gpustack:main
    shm_size: 512g
    volumes:
      - ./volumes/gpustack:/var/lib/gpustack
      - /home/user/models:/models
    ports:
      - 3000:80
    environment:
      TZ: Asia/Shanghai
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              device_ids: ["all"]
              capabilities: [gpu]
    restart: always

networks:
  default:
    name: llm
    ipam:
      driver: default
      config:
        - subnet: 10.168.0.0/16

docker compose up -d

容器启动后在浏览器打开http://127.0.0.1:3000

默认用户名是admin

默认密码使用以下命令获取

docker exec -it gpustack cat /var/lib/gpustack/initial_admin_password

首页展示系统信息和使用量相关的信息

点击模型库，搜索deepseek

点击DeepSeek R1

如果是量化版，使用vllama-box推理，如果是全量版本，使用vllm推理

点击保存，再点击菜单栏的模型

这里会列出部署的模型、类型等信息

点击试验场进行聊天

会展示模型使用量和输出速度

GPUstack也支持openai格式的api，方便集成到支持openai的聊天框架，这里展示集成到Page Assist插件

先点击API密钥，创建一个API密钥

密钥妥善保管，只在创建时展示一次

在PageAssist中，点击右上角的设置-OpenAI兼容API-输出GPUStack的地址和刚刚创建的api key

点击保存，在模型管理中选中刚才部署的模型

支持聊天模型和潜入模型，潜入模型用于知识库

点击左上角的新聊天，然后选择刚才添加的模型

就可以愉快的聊天了

以上就是在本地部署DeepSeek-R1的三种方案