文章
问答
冒泡
本地部署DeepSeek-R1

方案一:LM Studio部署

打开下面链接下载LM Studio,支持Windows、Mac和Linux

👾 LM Studio - Discover and run local LLMs

点击发现按钮,搜索Deepseek

会看到很多搜索结果和模型详情,选择适合本地算力的模型,点击Download,关闭弹窗,回到聊天界面

在上方选择要加载的模型,选中后使用默认参数,点击加载

然后就可以愉快的跟本地DeepSeek聊天了

可以看到输出速度和总共输出的token数量

LM Studio提供openai格式的api接口,点击聊天按钮下面的term图标

可以看到支持的API路由等等信息

方案二:Ollama部署

打开下面的链接下载Ollama

Download Ollama on macOS

安装ollama

安装完毕后打开cmd窗口

输入以下命令直接启动模型

ollama run deepseek-r1:1.5b --verbbos

执行完命令ollama会自动去下载模型文件,可以在ollama数据库看到支持的模型

library

运行起来可以直接在命令行聊天

可以看到输出的平均速度和一些基本信息

在Chrome浏览器插件PageAssist中使用

安装PageAssist插件,点击插件图标,会自动搜索本地的ollama服务

在选择模型的下拉框可以看到本地ollama启动的模型,选择后就可以愉快的聊天了

ollama也提供openai格式的api接口,地址是http://127.0.0.1:11434/v1

方案三:GPUStack部署

gpustack是一个Github开源项目

核心特性

  • 广泛的硬件兼容性:支持管理 Apple Mac、Windows PC 和 Linux 服务器上不同品牌的 GPU。

  • 广泛的模型支持:从大语言模型 LLM、多模态模型 VLM 到 Diffusion 扩散模型、STT 与 TTS 语音模型、文本嵌入和重排序模型的广泛支持。

  • 异构 GPU 支持与扩展:轻松添加异构 GPU 资源,按需扩展算力规模。

  • 分布式推理:支持单机多卡并行和多机多卡并行推理。

  • 多推理后端支持:支持 llama-box(基于 llama.cpp 和 stable-diffusion.cpp)、vox-box 和 vLLM 作为推理后端。

  • 轻量级 Python 包:最小的依赖和操作开销。

  • OpenAI 兼容 API:提供兼容 OpenAI 标准的 API 服务。

  • 用户和 API 密钥管理:简化用户和 API 密钥的管理流程。

  • GPU 指标监控:实时监控 GPU 性能和利用率。

  • Token 使用和速率统计:有效跟踪 token 使用情况,并管理速率限制。

适合企业级的部署,项目地址是

GitHub - gpustack/gpustack: Manage GPU clusters for running AI models

在服务器上使用docker-compose部署

version: "3.8"
services:
  gpustack:
    container_name: gpustack
    image: gpustack/gpustack:main
    shm_size: 512g
    volumes:
      - ./volumes/gpustack:/var/lib/gpustack
      - /home/user/models:/models
    ports:
      - 3000:80
    environment:
      TZ: Asia/Shanghai
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              device_ids: ["all"]
              capabilities: [gpu]
    restart: always

networks:
  default:
    name: llm
    ipam:
      driver: default
      config:
        - subnet: 10.168.0.0/16
docker compose up -d

容器启动后在浏览器打开http://127.0.0.1:3000

默认用户名是admin

默认密码使用以下命令获取

docker exec -it gpustack cat /var/lib/gpustack/initial_admin_password

首页展示系统信息和使用量相关的信息

点击模型库,搜索deepseek

点击DeepSeek R1

如果是量化版,使用vllama-box推理,如果是全量版本,使用vllm推理

点击保存,再点击菜单栏的模型

这里会列出部署的模型、类型等信息

点击试验场进行聊天

会展示模型使用量和输出速度

GPUstack也支持openai格式的api,方便集成到支持openai的聊天框架,这里展示集成到Page Assist插件

先点击API密钥,创建一个API密钥

密钥妥善保管,只在创建时展示一次

在PageAssist中,点击右上角的设置-OpenAI兼容API-输出GPUStack的地址和刚刚创建的api key

点击保存,在模型管理中选中刚才部署的模型

支持聊天模型和潜入模型,潜入模型用于知识库

点击左上角的新聊天,然后选择刚才添加的模型

就可以愉快的聊天了

以上就是在本地部署DeepSeek-R1的三种方案


关于作者

小乙哥
学海无涯,回头是岸
获得点赞
文章被阅读