报告围绕浙江大学DeepSeek展开,探讨其成功因素、面临争议、应用方法及人工智能发展相关思考。
1. DeepSeek成功因素
语料优势:总语料规模达14.8万亿token,涵盖多领域,中文语料占3% ,含2.3亿字精校古典文献,通过独特分词算法增强对成语、典故理解;对比ChatGPT,中文语料占比高且质量优。
技术创新:在算力优化、算法革新、架构创新方面突破。打破CUDA标准库壁垒,为非英伟达芯片提供机会;采用思维链提升逻辑性能;运用知识蒸馏+MOE,证明小规模高质量数据优势。
2. DeepSeek争议探讨
知识蒸馏:技术将大型模型知识迁移到小型模型,存在是抄袭还是创新的争议。抄袭是对他人成果不恰当使用,创新则基于已有成果创造新事物,知识蒸馏在不同视角下有不同定性。
资源与效率:有人认为人工智能是吞噬资源的黑洞,如Grok3消耗大量GPU资源;也有人认为其能实现智能决策、提高效率且低能耗,像DeepSeek在资源利用上相对高效。
3. 人工智能发展思考
道与术关系:“道”是规律、本源,“术”是方法、技巧。人工智能发展需掌握规律,寻求合适方法,“道生一智能”,“智”是算法,“能”是能力扩展,还需考虑伦理安全。
伦理安全困境:人工智能面临诸多伦理问题,如电车困境、算法偏见、AIGC幻觉等,需要在发展中寻找平衡,解决这些问题。
4. DeepSeek私有化应用
增强本地能力方案:微调针对特定任务,依赖高质量标注数据;检索增强生成可动态检索知识,适合数据频繁更新场景;提示词工程通过设计提示引导模型输出。
部署与微调技术:介绍本地部署检索增强(RAG)的步骤,包括安装Ollama、Cherry Studio,下载相关模型并配置;还介绍LoRA、Backbone等微调技术及基于LLaMA - Factory的轻代码微调方法。
免责声明:我们尊重知识产权、数据隐私,只做内容的收集、整理及分享,报告内容来源于网络,报告版权归原撰写发布机构所有,通过公开合法渠道获得,如涉及侵权,请及时联系我们删除,如对报告内容存疑,请与撰写、发布机构联系