四虎综合网,老子影院午夜伦不卡国语,色花影院,五月婷婷丁香六月,成人激情视频网,动漫av网站免费观看,国产午夜亚洲精品一级在线

每日經(jīng)濟新聞
要聞

每經(jīng)網(wǎng)首頁 > 要聞 > 正文

4090顯卡單槍匹馬就能跑滿血版DeepSeek-R1,清華團(tuán)隊突破大模型算力難題

每日經(jīng)濟新聞 2025-02-14 21:17:20

每經(jīng)記者 岳楚鵬    每經(jīng)編輯 蘭素英    

2月10日,清華大學(xué)KVCache.AI團(tuán)隊聯(lián)合趨境科技發(fā)布的KTransformers開源項目迎來重大更新,成功打破大模型推理算力門檻。此前,擁有671B參數(shù)的MoE架構(gòu)大模型DeepSeek-R1在推理時困難重重。推理服務(wù)器常因高負(fù)荷宕機,專屬版云服務(wù)器按GPU小時計費的高昂成本讓中小團(tuán)隊無力承擔(dān),而市面上的“本地部署”方案多為參數(shù)量大幅縮水的蒸餾版,在本地小規(guī)模硬件上運行滿血版 DeepSeek-R1 被認(rèn)為幾乎不可能。

此次KTransformers項目更新帶來重大突破,支持在24G顯存(4090D)的設(shè)備上本地運行 DeepSeek-R1、V3的671B滿血版。其預(yù)處理速度最高可達(dá)286 tokens/s,推理生成速度最高能達(dá)到14 tokens/s。甚至有開發(fā)者借助這一優(yōu)化技術(shù),在3090顯卡和200GB內(nèi)存的配置下,使Q2_K_XL模型的推理速度達(dá)到9.1 tokens/s,實現(xiàn)了千億級模型的 “家庭化” 運行。

此外,該項目v0.3預(yù)覽版還將整合Intel AMX指令集,進(jìn)一步提升CPU預(yù)填充速度,最高至286 tokens/s,相比llama.cpp快了近28倍,為長序列任務(wù)帶來秒級響應(yīng)。同時,KTransformers提供兼容Hugginface Transformers的API與ChatGPT式Web界面,降低上手難度,其基于YAML的“模板注入框架”可靈活切換多種優(yōu)化方式。

如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

模型 DeepSeek 算力 顯卡

歡迎關(guān)注每日經(jīng)濟新聞APP

每經(jīng)經(jīng)濟新聞官方APP

0

0