今天分享的是:DeepSeek基础知识(1)
报告共计:42页
DeepSeek是杭州深度求索人工智能基础技术研究有限公司推出的大模型系列,成立于2023年7月,由梁文峰创立,团队成员多来自国内顶尖高校。自2024年初起,DeepSeek陆续发布多个大模型。其中,DeepSeek-V3是高性能、低成本的开源通用语言模型,参数规模达6710亿,采用多头潜在注意力、DeepSeekMoE架构等创新技术,在数学推理、代码生成等基准测试中表现优异,性能接近或超越部分顶尖模型,且生成吐字速度大幅提升。DeepSeek-R1和DeepSeek-R1-Zero均基于DeepSeek-V3的MoE架构,R1-Zero探索纯强化学习可行性,R1则结合监督微调与强化学习,在性能和实用性上取得平衡,在多项任务上性能比肩OpenAI 01正式版。DeepSeek的出现产生了广泛影响,在市场上引发股票市场波动,其App下载量和日活用户数可观;改变了AI技术发展方向,提升了算法创新地位;改变全球AI格局,缩小了中美在大模型领域的差距;加速AI端侧应用落地,推动行业效率提升;冲击AI算力供给关系,长期看会增加算力需求;引领开源力量发展,吸引众多开发者参与。众多云厂商、运营商和企业纷纷接入或适配DeepSeek。其使用入口丰富,有官网、官方API平台、应用商店等,具备深度思考和联网搜索模式,适用于文本生成、自然语言处理等多种场景,不同版本对硬件配置有不同要求,能满足从简单任务到复杂科研计算等各类需求。
以下为报告节选内容
下一篇:小米首款中央空调将在汉生产