《電子技術(shù)應用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > DeepSeek開源3B OCR模型

DeepSeek開源3B OCR模型

97%精度刷新長文本壓縮極限
2025-10-21
來源:快科技
關(guān)鍵詞: Deepseek 大模型

10月21日消息,據(jù)媒體報道,DeepSeek在GitHub上開源了其最新研究成果——DeepSeek-OCR模型。

據(jù)介紹,DeepSeek-OCR的參數(shù)量約為3B,是研究團隊對“光學二維映射壓縮”技術(shù)在長文本上下文處理中可行性的首次探索。

s_3ee849c0da004a5dac7372ce7364c675.png

該模型核心由DeepEncoder與DeepSeek3B-MoE-A570M解碼器構(gòu)成:DeepEncoder能夠在高分辨率輸入條件下保持低激活狀態(tài),實現(xiàn)高壓縮比并生成適量的視覺token;解碼器則負責將這些視覺token準確轉(zhuǎn)化為文本信息。

實驗數(shù)據(jù)顯示,當文本token數(shù)量控制在視覺token的10倍以內(nèi)(壓縮率<10 x )時,OCR識別精度可達97%;即使壓縮率提升至20×,模型準確率仍能維持在60%左右。

研究團隊表示,這一成果為長上下文壓縮技術(shù)以及大語言模型的記憶與遺忘機制研究提供了新的思路與方向。

s_0529deeb54964ca49443d1c59fe6387e.png

論文標題:DeepSeek-OCR: Contexts Optical Compression

項目地址:https://github.com/deepseek-ai/DeepSeek-OCR

論文地址:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR


subscribe.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。