DeepSeek 再開源:發(fā)布 3B MoE OCR 模型DeepSeek-OCR
![]()
DeepSeek推出全新視覺文本壓縮模型DeepSeek-OCR。模型參數(shù)僅3B,采用混合專家架構(gòu),視覺token數(shù)量減少20倍,壓縮比達(dá)20倍,20個(gè)節(jié)點(diǎn)每天可處理3300萬頁數(shù)據(jù)。在Fox benchmark測試中,各文本長度區(qū)間準(zhǔn)確率超85%。支持多種分辨率配置、多語言處理、復(fù)雜圖表解析等多模態(tài)能力,可在多輪對(duì)話中實(shí)現(xiàn)10倍壓縮效率。
來源:AI工具集
宇樹發(fā)布180cm仿生人形機(jī)器人!會(huì)跳芭蕾能打功夫
![]()
宇樹發(fā)布第四款人形機(jī)器人H2,高180cm,重70kg。相比前代H1,H2在運(yùn)動(dòng)流暢性和仿生特征上有顯著提升。H2擁有31個(gè)關(guān)節(jié),分布在雙臂、雙腿和軀干,能完成芭蕾舞、中國武術(shù)等高難度動(dòng)作。還被賦予了類似人類的面部特征,外觀和運(yùn)動(dòng)姿態(tài)更接近人類。
來源:APPSO
全球榜首!百度最新開源模型PaddleOCR-VL
![]()
百度自研多模態(tài)文檔解析模型PaddleOCR-VL發(fā)布僅16小時(shí)就登頂HuggingFace Trending全球第一。模型參數(shù)僅0.9B,輕量高效,能精準(zhǔn)識(shí)別文本、手寫漢字、表格等多種復(fù)雜元素,支持109種語言。
來源:百度AI
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.