DeepSeek-OCR：大模型“瘦身”，20 倍压缩仍有 60% 准确率

当大模型处理长篇PDF时频繁陷入“token溢出”困境，当海量文本解析的算力成本居高不下，DeepSeek-OCR带来的“光学压缩”新思路，正为行业破解核心痛点。这个将文字转为图片再交由视觉大模型处理的创新方案，不仅实现了上下文的高效压缩，更在实际项目中验证了可行性，为长文本处理开辟了全新赛道。

传统大模型处理文本时，需将每个字符转化为token逐次解析，长篇文档动辄产生数万token，既占用巨额内存又拖慢处理速度。DeepSeek-OCR的突破在于借鉴了人类视觉阅读逻辑——我们并非逐字扫描，而是通过视觉系统快速捕捉页面布局与结构信息。团队据此设计“文字转图像—视觉压缩—文本还原”的三段式流程，让高效的视觉模型成为大模型的“前置压缩引擎”。

这一方案的技术内核藏在精巧的架构设计中。核心组件DeepEncoder融合SAM与CLIP两大视觉模型优势，采用“先分后总”的处理逻辑：先由擅长局部细节的SAM模块解析高分辨率文档图像，再通过16倍下采样卷积模块大幅压缩特征数据，最后由擅长全局信息捕捉的CLIP模块提炼关键特征。配合DeepSeek-3B-MoE-A570M混合专家解码器，整个系统实现了“高压缩比+高精度”的平衡——在英文文档测试中，用64个视觉token即可处理1300个文本token，压缩比低于10倍时准确率仍超97%。

Un-LOCC项目通过六种主流大模型验证了这一思路，其中Gemini-2.0-flash-lite在2.8:1的压缩比下实现93.65%的准确率，证明该方案适配不同模型架构。开发者借助Google Doc API读取PDF后再进行光学压缩，进一步降低token消耗——对比传统方案，处理百页科研论文的token成本降低60%以上，解析速度提升近3倍。这种效率提升在金融报表分析、古籍数字化等场景中，可直接转化为显著的成本节约。

更值得关注的是其超越传统OCR的深度解析能力。得益于包含图表、化学分子式的多样化训练数据，DeepSeek-OCR能将科研报告中的图表转为结构化表格，把化学文献中的分子式输出为标准SMILES格式，甚至解析几何图形的线段关系。在OmniDocBench测试中，它以远少于GOT-OCR2.0和MinerU2.0的token消耗，实现了业界先进的综合性能，充分展现技术通用性。

DeepSeek-OCR：大模型“瘦身”，20 倍压缩仍有 60% 准确率

QQ咨询

QQ：