深度求索下月推出AI大模型DeepSeek-R2

時間:2025-04-30
來源:18183新聞
责任编辑:夏雨星梦

【4月29日訊息,據國內媒體報導稱,深度求索可能會在下個月有所動作,推出下一代AI大模型DeepSeek-R2。

據報導,DeepSeek-R2將採用一種更先進的混合專家模型(MoE),並結合了更加智慧的門控網絡層(Gating Network)來優化高負載推理任務的效能。此舉預計將大幅提升模型對於複雜任務的處理能力。

分析師指出,DeepSeek-R2的定價可能遠低於OpenAI同類產品,這或許會顛覆現有的AI服務定價模式。此外,有消息透露DeepSeek-R2的成本相較於GPT-4下降了97%,並且是在昇騰卡上進行訓練,強調了一種全方面產業鏈自主可控的特點。

相關人士透露,DeepSeek-R2的總參數量可能會達到1.2兆,這是DeepSeek-R1的6,710億參數的大約兩倍之多。該模型基於華為昇騰910B(Ascend 910B)芯片群集進行訓練,在FP16精度下實現512PetaFLOPS的計算能力,且芯片使用效率達到了82%。

根據華為實驗室的數據顯示,這樣的性能相當於NVIDIA前一代A100訓練集群的91%左右。儘管這些數據還需要進一步驗證,但看來確實展現出更強大和更高自主性的特徵。】

免責聲明:文中圖文均來自網絡,如有侵權請聯系刪除,18183新遊發布此文僅為傳遞信息,不代表18183認同其觀點或證實其描述。
用戶評論