日韩视频第二页_成人毛片视频网站_jizz欧美激情18_欧美性猛交久久久乱大交小说 _污污视频网站免费观看_日韩小视频网站_波多野结衣50连登视频_国产制服91一区二区三区制服_热久久久久久久久_99久久激情视频_无遮挡又爽又刺激的视频_妞干网在线视频观看

首頁 > 科技生活 > 免費教學 > DeepSeek V4借實習生獲獎論文“起飛”?梁文峰劍指上下文:處理速度提10倍、要“完美”準確率

DeepSeek V4借實習生獲獎論文“起飛”?梁文峰劍指上下文:處理速度提10倍、要“完美”準確率

發布時間:2025-07-31 21:22:39來源: 12736036550

7 月 30 日,ACL(國際計算語言學年會)公布了 2025 年的獲獎論文。令人驚喜的是,這些論文里的中國作者比例超過 51%,排在第二的美國僅為 14%

其中,一篇由 DeepSeek 梁文鋒作為通訊作者、與北京大學等聯合發表的論文不僅拿下 Best Paper 獎,相關成果也引發熱議。

現場講座中,該論文的第一作者袁境陽透露,這項技術可以把上下文長度擴展到 100 萬 tokens,并將應用在他們的下一個前沿模型中。據了解,袁境陽當時寫這篇論文時還只是 Deepseek 的實習生。

圖片

引入兩大核心技術創新

長上下文建模對于下一代語言模型至關重要,但標準注意力機制的高計算成本帶來了顯著的計算挑戰。隨著序列長度的增加,延遲瓶頸問題愈發凸顯。理論估算表明,在解碼 64k 長度的上下文時,采用 softmax 架構的注意力計算占總延遲的 70%–80%,這凸顯了對更高效注意力機制的迫切需求。

為解決這些局限性,有效的稀疏注意力機制在實際應用中必須應對兩項關鍵挑戰:與硬件適配的推理加速,要將理論上的計算量減少轉化為實際的速度提升,就需要在預填充和解碼階段都采用硬件友好型的算法設計,以緩解內存訪問和硬件調度方面的瓶頸;兼顧訓練的算法設計,通過可訓練算子實現端到端計算,在維持模型性能的同時降低訓練成本。

綜合考慮這兩個方面,現有方法仍存在明顯差距。該團隊認為,稀疏注意力為在保持模型能力的同時提高效率提供了一個很有前景的方向。

在獲獎論文中,他們提出了 NSA,這是一種可原生訓練的稀疏注意力(Natively trainable Sparse Attention)機制。它將算法創新與硬件對齊優化相結合,以實現高效的長上下文建模。據介紹,NSA 采用動態分層稀疏策略,結合粗粒度的 token 壓縮和細粒度的 token 選擇,以同時保留全局上下文感知和局部精度。

圖片

具體來說,NSA 引入了兩項核心創新。

通過算術強度平衡的算法設計實現了顯著的加速,并針對現代硬件進行了實現優化:優化塊式稀疏注意力,以提高張量核利用率和內存訪問,確保均衡的算術強度。

通過高效算法和反向算子實現穩定的端到端訓練,在不犧牲模型性能的情況下減少了預訓練計算量。

上下文處理速度狂飆,

準確率堪稱“完美”

在真實世界語言語料庫上進行綜合實驗評估后,NSA 由于稀疏性過濾掉更多噪聲,在基準測試中產生更好的準確率。據悉,該團隊在一個擁有 270 億參數的 Transformer 骨干網絡(其中激活參數為 30 億)上,使用 2600 億個 token 進行預訓練,并從通用語言評估、長上下文評估和思維鏈推理評估三個方面評估了 NSA 的性能,還在 A100 GPU 上將其內核速度與經過優化的 Triton 實現作了進一步比較。

實驗結果表明,NSA 的整體性能與全注意力模型相當甚至更優。在 9 項指標中的 7 項上,NSA 均超過了包括全注意力模型在內的所有基線。這表明,盡管 NSA 在較短序列上可能無法充分發揮其效率優勢,但它展現出了強勁的性能。

值得注意的是,NSA 在推理相關的基準測試中取得了顯著提升(DROP:+0.042,GSM8K:+0.034),這說明該團隊的預訓練有助于模型發展出專門的注意力機制。這種稀疏注意力預訓練機制迫使模型聚焦于最重要的信息,通過過濾無關注意力路徑中的噪聲,可能會提升性能。在各類評估中表現出的一致性,也驗證了 NSA 作為通用架構的穩健性。

在 64k 上下文的“大海撈針”測試中,NSA 在所有位置都實現了完美的檢索準確率。此外,與全注意力相比,NSA 在解碼、前向傳播和反向傳播方面都實現了顯著的速度提升,且序列越長,提速比例越大。

圖片

據該團隊稱,這一性能正是得益于其分層稀疏注意力設計,該設計結合了用于高效全局上下文掃描的 token 壓縮和用于精確局部信息檢索的 token 選擇。粗粒度的 token 壓縮以較低的計算成本識別相關的上下文塊,而對 token 選擇的標記級注意力則確保保留關鍵的細粒度信息。

同時,NSA 優于多種現有的稀疏注意力方法,包括 H2O、infLLM、Quest 以及 Exact-Top。

圖片

值得注意的是,NSA 在需要對長上下文進行復雜推理的任務上表現出色,在多跳問答任務(HPQ 和 2Wiki)上比全注意力模型分別提升 0.087 和 0.051,在代碼理解任務(LCC)上超出基線模型 0.069,在段落檢索任務(PassR-en)上優于其他方法 0.075。這些結果也驗證了 NSA 處理各種長上下文挑戰的能力,其原生預訓練的稀疏注意力在學習任務最優模式方面帶來了額外優勢。

為評估 NSA 與先進下游訓練范式的兼容性,該團隊研究了其通過后期訓練獲得思維鏈數學推理能力的潛力。鑒于強化學習在較小規模模型上的效果有限,其采用來自 DeepSeek-R1 的知識蒸餾,使用 100 億個 32k 長度的數學推理軌跡進行有監督微調(SFT)。這產生了兩個可比較的模型:全注意力 - R(全注意力基線模型)和 NSA-R(稀疏變體)。

接著,他們在具有挑戰性的美國數學邀請賽(AIME 24)基準上對這兩個模型進行了評估,使用 0.7 的采樣溫度和 0.95 的核采樣值,為每個問題生成 16 個回答并取平均分。并且,為驗證推理深度的影響,他們在兩種生成上下文序列下進行了實驗。結果顯示,NSA-R 在 8k 和 16k 序列長度下的表現均優于全注意力 - R。

圖片

這些結果驗證了原生稀疏注意力的兩項關鍵優勢:(1)預訓練的稀疏注意力模式能夠高效捕捉復雜數學推導所必需的長程邏輯依賴關系;(2)我們架構的硬件對齊設計保持了足夠的上下文密度,以支持推理深度的增加,同時避免災難性遺忘。在不同上下文長度下的持續優異表現證實,當稀疏注意力被原生整合到訓練流程中時,其在高級推理任務中具有切實可行性。

計算效率方面,該團隊將基于 Triton 實現的 NSA 注意力機制和全注意力機制,與基于 Triton 的 FlashAttention-2 在 8-GPU A100 系統進行了比較,以確保在相同后端下進行公平的速度對比。

結果表明,隨著上下文長度的增加,NSA 實現了越來越顯著的速度提升。在 64k 上下文長度下,前向速度提升高達 9.0 倍,反向速度提升高達 6.0 倍。值得注意的是,序列越長,速度優勢就越明顯。隨著解碼長度的增加,NSA 的方法延遲顯著降低,在 64k 上下文長度下提速高達 11.6 倍,且這種內存訪問效率方面的優勢也會隨著序列變長而進一步擴大。

圖片

值得一提的是,這篇論文早在今年 2 月就對外公布,而相關研究成果至今還沒有出現在任何 DeepSeek 模型中。不過,根據論文一作袁境陽的說法,DeepSeek 下一代模型就將應用這項技術,這也讓許多網友對 DeepSeek V4 的發布更加期待,畢竟其與 DeepSeek R2 的發布計劃似乎也有很大關聯。

早在今年 4 月,就有“DeepSeek R2 提前泄露”的傳言在 AI 圈刷屏。源頭是來自 Hugging Face CEO 發布的一條耐人尋味的帖子,配圖是 DeepSeek 在 Hugging Face 的倉庫鏈接,接著引發不少關于 R2 發布時間和技術細節的各類傳播。但對此,DeepSeek 官方一直未作出回應。

前不久,有外媒報道稱,DeepSeek R2 可能繼續推遲。遲遲未發布的內部原因是 DeepSeek 創始人梁文鋒對該模型當前的性能不滿意,工程師團隊仍在優化和打磨。與此同時,也有人這樣推測:R2 好歹要等 V4 出來再說,V3 可能已經到達極限了。

免費教學 更多>>

博世基于高通驍龍座艙平臺打造的智能座艙方案,全球累計交付量已于近日正式突破1000萬套 雷諾計劃裁減至多20%的工程師,為精簡業務運營、削減成本所做的努力之一 比亞迪插電混動車型元Pro DM-i在墨西哥正式發布,此次新車上市進一步豐富比亞迪在當地的產品矩陣 寶馬推出基于其新世代(Neue Klasse)平臺的首批數十款全新及改款車型 蓮花路遙超級混動架構,以900V高壓平臺與70kWh大電池為核心,系統總功率達952匹馬力,0-100km/h加速僅需3.3秒 FREELANDER神行者配備華為乾崑智駕ADS 4.1、896線激光雷達、高通驍龍最新一代8397車規級芯片 40萬級豪華SUV的“守擂者”,問界M8煥新版核心零部件配套供應商一覽 十萬級純電SUV真的能卷成這樣?埃安N60真實體驗,越看越順手 零跑A05首曝:續航最高510km,軸距2605mm配激光雷達 手機馬上就要大降價了?內行說出實話,看完再買更省錢 豐田在日本推出基于現有bZ4X電動SUV打造的新型電動車型“bZ4X Touring” 2027款日產Rogue發布場的競爭力,以應對目前由本田CR-V和豐田RAV4主導的市場格局 1571元,紅米Turbo4,用實力重新定義性價比天花板! 阿維塔與華為慧通簽署戰略合作,聚焦全周期服務生態建設 豐田將在加拿大投資3億加元新建總部及零部件中心 2026年第一季度,奧迪全球交付量為360,106輛,同比下降6.1% HEV(油電混合動力),正在回歸中國車企的戰略C位 德系豪華車企一季度在華銷量普遍下滑,主因包括激烈的價格競爭、本土品牌崛起、補貼退坡及產品換代等因素 印尼Q1混合動力汽車在市場持續增長,而純電動車(BEV)和插電式混合動力車(PHEV)銷量則出現下滑 長安汽車2025年財報:非經常性損益退潮,主業盈利能力有變化 零百2.96秒、限時32.98萬起,極氪8X,正式向BBA高性能SUV宣戰 亞洲龍2.0L CVT豪華版:二十萬級B+座駕,憑啥成宜商宜家優選? 埃安N60預售11.58萬起,全系激光雷達+零重力座椅 OPPO Find X9 Pro,4779元解鎖“夜拍大師”與“全能旗艦” 萬幫數字能源張榮紀:重卡電動化迎爆發拐點 交能融合重構產業生態 欣旺達動力研發:全球電動化進入深水區,四大破局思路應對同質化與地緣挑戰 八大亮點直擊產業核心,智能電動汽車發展高層論壇(2026)圓滿召開 當回購從“新鮮事”變成“常規操作”,意味著中國車企正在從單純的“產品競爭者”向綜合的“企業價值管理者”角色轉變 樂道汽車總裁:車電分離重構供給邏輯,換電成智能電動補能主流路徑 中國汽車如果想真正走進法國,到底需要跨過哪些門檻、讀懂哪些潛規則?
日韩视频第二页_成人毛片视频网站_jizz欧美激情18_欧美性猛交久久久乱大交小说 _污污视频网站免费观看_日韩小视频网站_波多野结衣50连登视频_国产制服91一区二区三区制服_热久久久久久久久_99久久激情视频_无遮挡又爽又刺激的视频_妞干网在线视频观看
精品国产美女a久久9999| 伊人久久大香线蕉av超碰演员| 91精品婷婷色在线观看| а√天堂8资源中文在线| 久久久久伊人| 色婷婷综合网| 日韩不卡在线| 亚洲精品123区| 蜜臀精品久久久久久蜜臀| 亚洲精品午夜av福利久久蜜桃| 在线日韩欧美| 日韩中文字幕av电影| 石原莉奈在线亚洲二区| 中文字幕一区二区av| 中文字幕亚洲在线观看| 日韩精品一区二区三区中文在线 | 国产亚洲久久| 嫩草伊人久久精品少妇av杨幂| 国产精品va视频| 亚洲人成在线网站| 成人久久一区| 免费不卡在线观看| 青青在线精品| 日韩欧美一区二区三区在线观看| 欧美a级一区| 偷拍亚洲精品| 成人免费一区| 中文亚洲免费| 欧美精品影院| 日韩欧美精品一区| 视频一区国产视频| 精品日本视频| 五月天综合网站| 91亚洲无吗| 免费观看亚洲| 亚洲有吗中文字幕| 日韩成人精品一区二区| 一本色道精品久久一区二区三区| 日韩av一区二| 99久久九九| 国产极品久久久久久久久波多结野 | 久久精品1区| 蜜桃视频一区二区三区| 色婷婷色综合| 日韩av成人高清| 日韩毛片视频| 青草久久视频| 国产亚洲欧洲| 日韩精品dvd| 欧美视频久久| 久久午夜精品| 亚洲高清成人| 久久精品国产999大香线蕉| 亚洲在线一区| 久久精品电影| 成人三级高清视频在线看| 日韩欧美中文字幕在线视频| 久久激情一区| 精品网站aaa| 日本aⅴ免费视频一区二区三区| 中文在线资源| 国产视频一区二区在线播放| 美女黄网久久| 欧美日韩一区二区三区视频播放| 久久不卡日韩美女| 日本99精品| 蜜桃视频在线观看一区二区| 免费视频一区三区| 日韩免费久久| 日韩成人a**站| 精品高清久久| 久久a爱视频| 欧美日韩一视频区二区| 亚洲一区二区av| 伊人久久婷婷| 日韩综合精品| 在线一区av| 国产91在线精品| 美女视频黄 久久| 国产探花在线精品| 国产精品日本一区二区不卡视频| 亚洲精品进入| 亚洲区欧美区| 亚洲日产国产精品| 蜜桃视频一区二区| 日韩精品一二三四| 首页国产欧美久久| 视频一区二区三区入口| 蜜臀91精品一区二区三区| 99视频+国产日韩欧美| 日韩欧美一区二区三区在线观看| 91欧美在线| 日韩综合精品| 国内亚洲精品| 久久aⅴ国产紧身牛仔裤| 亚洲免费高清| 一区二区三区四区在线观看国产日韩| 亚洲一区二区三区高清不卡| 蜜臀久久99精品久久久久久9| 在线免费观看亚洲| 日韩高清一区二区| 国产欧美日韩视频在线| 美女性感视频久久| 久久精品午夜| 日韩精品诱惑一区?区三区| 久久男人天堂| 黄色亚洲在线| 日韩中文字幕无砖| 青草国产精品| 国产一区二区三区国产精品| 不卡一二三区| 亚洲男女自偷自拍| 国产欧美激情| 日韩毛片视频| 综合激情五月婷婷| 国产精品麻豆久久| 在线综合视频| 久久久国产精品入口麻豆| 久久人人97超碰国产公开结果| 国产精品88久久久久久| 一本色道久久精品| 国产精品欧美一区二区三区不卡| 精品视频在线你懂得| 久久久国产精品一区二区中文| 国产精品毛片| 国产精品久久久久久久久久齐齐| 国产精品不卡| 日韩中文字幕一区二区三区| 久久久久伊人| 红桃视频国产一区| 国产精品亚洲欧美一级在线| 激情欧美亚洲| 国产精品久久久一区二区| 久久久成人网| 日本a级不卡| 色一区二区三区| 久久亚洲美女| 91综合视频| 亚洲日本国产| 欧美精选视频一区二区| 日韩欧美2区| 亚洲网站视频| 国产精选久久| 久久国产66| 中文字幕成在线观看| 久久xxxx精品视频| 色爱av综合网| 六月丁香综合在线视频| 亚洲一区二区小说| 日韩不卡视频在线观看| 久热re这里精品视频在线6| 欧美xxxx中国| 国产欧美成人| 亚洲精品婷婷| 99热免费精品| 亚洲大片在线| 欧美久久天堂| 久久av日韩| 97久久中文字幕| 中文字幕日韩欧美精品高清在线| 99精品在线| 中文字幕在线视频久| 国产精品久久国产愉拍| 一区二区国产在线| 99成人在线| 日韩电影免费在线观看| 国产福利亚洲| 麻豆国产欧美日韩综合精品二区| 蜜桃视频免费观看一区| 99热精品在线| 91精品91| 欧美另类综合| 色综合www| 日韩中文在线播放| 中文字幕在线视频网站| 久久99免费视频| 欧美亚洲网站| 久久国产精品免费一区二区三区 | 日韩欧美中文字幕在线视频| 视频一区视频二区中文| 亚洲综合国产| 久久亚洲风情| 美女精品在线观看| 免费在线观看日韩欧美| 久久午夜视频| 视频一区日韩精品| 日韩va欧美va亚洲va久久| 欧美在线日韩| 欧美激情视频一区二区三区免费| 久久av电影| 国内精品麻豆美女在线播放视频| 美女久久99| 欧美xxxx性| 国产aa精品| 999国产精品永久免费视频app| 999国产精品视频| 先锋影音国产一区| 欧美久久亚洲| 国产精品不卡| 欧美午夜不卡|