栏目分类

热点资讯

资讯

开yun体育网就平直跳到图表看要津数据-开云(中国)Kaiyun·官方网站

发布日期：2026-02-18 07:03 点击次数：163

DeepSeek最新论文《DeepSeek-OCR 2: Visual Causal Flow》颠覆了OCR领域十年的CLIP统率，提议了一种全新的视觉因果流料理机制。该本事不仅将阅读王法准确率提高了33%，更揭示了通向原生多模态的未来旅途——让AI学会像东说念主类雷同‘跳读’文档。

咱们读文档的时刻，眼睛压根不是从左上扫到右下的。

我个东说念主阅读文档的时刻，先是快速扫了一下标题和作家，知说念这是篇什么主题的论文。然后看纲领，执主要论断。发现存张图表，就平直跳到图表看要津数据。临了才回到正文，按我方的逻辑王法补充细节。

这个经过，约略花了 30 秒。但 AI 呢？它可能还在从第一个字迟缓往后扫。

东说念主类有”阅读逻辑”，AI 之前莫得。

被CLIP统率的十年

DeepSeek 今天发布了新论文《DeepSeek-OCR 2: Visual Causal Flow》，直指一个根人性问题。

论文一语气：

Hugging Face：https://huggingface.co/deepseek-ai/DeepSeek-OCR-2

这篇论文的中枢，其实是在质疑一个统率了 OCR 领域十年的”默安妥谛”——CLIP 架构。

2015 年 CLIP 问世，到当今还是十年了。这十年里，确凿通盘视觉谈话模子（VLM）王人在用归并个假定：图像按从左上到右下的固定王法料理。肤浅场景（比如单张相片、明显扫描件）没问题，这个假定够用。

但复随笔档就崩了。

为什么崩了

为什么崩了？我来举个例子。

看一个带表格的文档。东说念主类怎样读？先看表头，知说念每列是什么。然后横向看第一瞥数据，读完回到表头，阐述列名，再看第二行。要是有多列交叉，可能会先看完通盘行的某一列，再跳到下一列。

但 CLIP 怎样料理？它假定王法是固定的——从表格的第一个格子（连续是左上角）扫到临了一个格子（右下角）。这意味着什么？意味着它可能会读到第一瞥的第 5 列，然后倏得跳到第二行的第 1 列，因为它们在物理位置上是相邻的。

语义王法弥缭乱了。

表格还仅仅肤浅场景。公式呢？多栏布局的报纸呢？学术论文里的图表援用呢？这些王人需要”按语义进步”，而不是”按位置扫描”。

CLIP 的固定王法在干一件低效事——用线性序列去抒发二维逻辑。

DeepSeek 的解法：弃用 CLIP，换上 LLM 式编码器

DeepSeek 平直把用了十年的 CLIP 编码器弃用了，换成了一个轻量级的 LLM——Qwen2-0.5B。

为什么要用 LLM？因为 LLM 天生赞助”因果看重力”（Causal Attention），也等于从左到右的自总结生成。而 CLIP 用的是”双向看重力”，它能看到通盘 token，但莫得”王法”的见解。

但 DeepSeek 莫得弥散撤销双向看重力，而是野心了一个”双流看重力”机制：

视觉 token 部分：保留双向看重力，用来全局感知图像本色（这是什么东西）

因果流 token 部分：使用因果看重力，用来决定”应该按什么王法读”（怎样读）

（deepencoder架构图）

具体怎样职责呢？

率先，图像经过 SAM-base 和压缩器，形成一组视觉 token。这些 token 通过双向看重力进行全局感知——就像你拿到一张文档，先”扫一眼”知说念约略本色。

然后，DeepSeek 引入了一组”因果流查询”（Causal Flow Queries），这些查询 token 不错热心通盘视觉 token，但只可热心之前的查询 token。每个查询 token 会凭据我方的表示，”挑选”它认为应该下一个读取的视觉 token。

这就像你在读文档时的内心看成——”刚刚读了标题，当今应该去看纲领”、”看完纲领了，图表好像更灵验，先看图表”。

最终，只消因果流 token 的输出会被送入解码器，生成最终的文本。这相当于编码器先帮你”排好阅读王法”，解码器只需要按王法实行就行了。

DeepSeek 把这个经过称为”两级级联因果推理”：

第一级：编码器里面通过因果查询对视觉 token 进行语义重排

第二级：LLM 解码器在有序序列上实行自总结推理

成果考证：91.09% 得分，阅读王法提高 33%

DeepSeek 在 OmniDocBench v1.5 基准上作念了测试。这个基准包含 1355 页文档，遮盖中英文的 9 大类别（杂志、学术论文、扣问阐发等），是现时最严格的文档表示评测之一。

完了：

举座得分：91.09%

比较 DeepSeek-OCR 提高：3.73%

这个提高看着还行，但实在让我不测的是”阅读王法”（Reading Order）目标——剪辑距离从 0.085 降到了 0.057。

剪辑距离是什么？等于”把 AI 读出来的王法转移到正确王法，需要若干次操作”。从 0.085 降到 0.057，意味着 AI 的阅读王法更接近东说念主类了，改善了约 33%。

更妙的是，DeepSeek-OCR 2 在保持高精度的同期，视觉 token 数目收尾在 256 到 1120 之间，和 Google 的 Gemini-3 Pro 相当，但远低于 MinerU2.0（6000+ token）。这意味着什么？意味着用更少的资源，已毕了更好的性能。

出产环境阐扬

DeepSeek 还显露了出产环境的阐扬。这个挺要津的，因为许多模子在基准上阐扬很好，但一到实战就崩了。

他们主要看两个目标：在线用户日记图像的重叠率、PDF 批料理数据的重叠率。

完了：

在线用户日记图像：重叠率从 6.25% 降到 4.17%

PDF 批料理数据：重叠率从 3.69% 降到 2.88%

重叠率是什么？等于 AI 输出重叠本色的比例。重叠率高，阐述 AI 在”瞎猜”——它不知说念该读那边，就在那儿瞎编。重叠率下跌，阐述 AI 的阅读逻辑更准确了，瞎猜变少了。

临了

写到这里，我以为这篇论文的意旨不仅仅修订了 OCR，而是指向了一个更大的地点——和谐全模态编码器。

DeepSeek 在论文里说，DeepEncoder V2 的架构不错扩张到其他模态。未来，归并个编码器可能料理图像、音频、文本，王人通过”不雅察全局 → 决定王法 → 因果推理”的逻辑。

为什么这样说？因为 DeepEncoder V2 的中枢不是”视觉特征索求”，而是”因果推理才气”。图像需要按语义王法读，音频需要定时代王法表示，文本本人就需要因果看重力。

要是这些模态王人通过归并个编码器料理，它们就能分享”因果推理”的才气，而不是每个模态单独野心一套架构。

这可能是通向原生多模态的一条路。

参考长途：

DeepSeek-OCR 2 论文：https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdfDeepSeek-OCR 2 Hugging Face：https://huggingface.co/deepseek-ai/DeepSeek-OCR-2OmniDocBench 基准：https://github.com/opendatalab/OmniDocBenchDeepSeek-OCR 原版论文：https://arxiv.org/abs/2510.18234

本文由 @卡萨丁AI 原创发布于东说念主东说念主王人是家具司理。未经作家许可，退却转载

题图来自Unsplash开yun体育网，基于CC0条约

上一篇：体育游戏app平台泉州金融监管分局涌现的行政处罚信息涌现-开云(中国)Kaiyun·官方网站
下一篇：没有了