深度求索即将发布新AI大模型DeepSeek-R2
4月29号的消息啊,听说咱们国内有媒体报道说,那个深度求索可能下个月会有新动作,准备推出下一代的AI大模型,叫DeepSeek-R2。
据说这个DeepSeek-R2用了一种更厉害的技术,叫混合专家模型(MoE),还加了个超级聪明的门控网络层,这样能让它在处理特别复杂的任务时表现更好。
有懂行的人分析说,DeepSeek-R2的价格可能会比OpenAI那边的产品便宜不少,这可能意味着它会改变现在AI服务的定价方式。
另外还有消息说,DeepSeek-R2的成本比GPT-4低了97%,而且整个训练过程都是在华为自家的昇腾卡上完成的,强调的是全链条自主可控。
听内部人士透露,DeepSeek-R2的参数量可能会达到1.2万亿,比上一代的DeepSeek-R1(6710亿参数)翻了一倍多。
这个DeepSeek-R2是基于华为昇腾910B芯片训练出来的,FP16精度下能达到512PetaFLOPS的算力,芯片利用率达到了82%。
根据华为实验室的数据,这个性能大概相当于英伟达上一代A100训练集群的91%左右。不过具体是不是真的这么牛,还得再看看,但至少看起来比之前的东西更厉害,也更独立自主了。