由于 DeepSeek-OCR 底层依赖的 LLVM 环境目前不支持 Windows 原生平台,因此在 Windows 系统上无法直接进行本地安装和部署。为了保证可用性与兼容性,DeepSeek-OCR 主要通过以下方式运行:
为了便于在这些环境中快速搭建完整的 OCR 服务,我基于社区已有的 DeepSeek-OCR + FastAPI 项目进行了 Fork,并补充了必要的中文化处理,使其更适合国内开发者理解与使用。本仓库保持原仓库的整体结构与部署方式,仅对后端 API 的中文输出与提示内容做了调整。
项目使用 DeepSeek-OCR 模型,支持多种图像分辨率和自动切片策略,能够完成普通文本识别、文档结构化输出、图表内容理解等任务。
前端支持拖拽上传、多种模式选择、模型下载提示以及结果展示。
基于 FastAPI 提供统一接口,包括:
/api/ocr/health/docs项目使用 Docker Compose 管理,默认包含:
deepseek-ocr-api:OCR 推理服务deepseek-ocr-web:前端界面服务deepseek-ocr/
├── backend/ # FastAPI 后端
├── frontend/ # 前端界面(Nginx)
├── uploads/ # 上传文件目录
├── outputs/ # OCR 输出结果目录
├── docs/ # 相关文档
└── docker-compose.yml # 部署配置文件
后端与前端分别拥有独立 Dockerfile,便于镜像构建和后续扩展。
git clone https://github.com/daibitx/deepSeek-ocr-docker-compose
cd deepSeek-ocr-docker-compose
docker-compose up -d
| 服务 | 地址 |
|---|---|
| Web 界面 | http://localhost:3000 |
| 健康检查 | http://localhost:8000/health |
首次访问界面时需要根据提示下载模型,也可以使用 Demo 模式进行体验。
向 /api/ocr 提交图像文件:
curl -X POST "http://localhost:8000/api/ocr"
-F "file=@image.jpg"
-F "mode=markdown"
返回格式示例:
{
"text": "# 标题n内容……",
"mode": "markdown",
"processing_time": 2.5,
"image_size": [1024, 768],
"tokens": 2257
}
后端 GPU 加速配置示例:
deploy:
resources:
reservations:
devices:
- driver: nvidia
count: 1
capabilities: [gpu]
模型路径缓存:
volumes:
model_cache:
运行:
docker run --rm --gpus all nvidia/cuda:11.8.0-base-ubuntu22.04 nvidia-smi
如无法识别,请检查:
可能原因包括:
可在后端调整基础分辨率:
BASE_SIZE = 640
本项目基于以下原始仓库进行 Fork:
如果在部署过程中遇到技术性问题,请优先参考原仓库的说明文档、Issue 讨论或原作者的更新内容。本仓库主要提供中文使用体验,并不替代原仓库的官方维护。
登录查看全部
参与评论
手机查看
返回顶部