在AI界,一款源自我国的开源大模型近期引发了国内外广泛重视。这款名为DeepSeek-V3的模型,由新式AI企业DeepSeek研制推出,以其杰出功能和低价的练习本钱,在业界掀起了波涛。
DeepSeek-V3的技能论文具体论述了该模型的研制进程。论文指出,DeepSeek-V3的参数规划从前代的2360亿提高至6710亿,在14.8T tokens的数据集进步行了预练习,上下文长度可达128K。评测成果为,DeepSeek-V3的功能已成为现在最强壮的开源模型之一,且在多个干流评测基准上,其体现可比美GPT-4o和Claude-3.5-Sonnet等抢先的闭源模型。
除了安德烈,阿里前副总裁贾扬清、metaAI科学家田渊栋、英伟达高档研讨科学家Jim Fan等多位AI范畴的大牛,也对DeepSeek-V3表明了欣赏。有网友乃至以为,这是“全球最佳开源大模型”,并猜测这将推进AGI(通用AI)的完成比预期更早且本钱更低。
DeepSeek-V3之所以能引起AI大牛的重视,很大程度上是因为其低价的练习本钱。据悉,该模型仅用了2000多张GPU,练习本钱不到600万美元,远低于OpenAI、meta等在万卡规划上练习的模型本钱。这一本钱效益比,让DeepSeek-V3在业界锋芒毕露。
不过,有必要留意一下的是,DeepSeek-V3在某些方面还存在局限性。例如,其英文才能还落后于GPT-4o和Claude-Sonnet-3.5,一起布置要求比较高,对小型团队不太友爱,且生成速度还有提高潜力。但DeepSeek在论文中表明,跟着更先进硬件的开发,这些局限性有望得到解决。回来搜狐,检查更加多