AI 终极十问!DeepSeek 如何颠覆开发者认知?

AI 终极十问!DeepSeek 如何颠覆开发者认知?如今的大模型和人类越来越像 初步掌握了 自我思考 的能力后 进而给出更为合理的解答 这类模型便被称之为推理模型 当下热议的 DeepSeek R1 以及之前 OpenAI 发布的 o1 都是典型的代表

大家好,欢迎来到IT知识分享网。

AI 终极十问!DeepSeek 如何颠覆开发者认知?




如今
的大模型和人类越来越像,初步掌握了“自我思考”的能力后,进而

出更为合理的解答。
AI 终极十问!DeepSeek 如何颠覆开发者认知?
这类模型便被称之为推理模型,当下热议的 DeepSeek R1 以及之前 OpenAI 发布的 o1 都是典型的代表。
以一个简单的数学问题为例,“如果一列火车以 60 英里每小时的速度行驶,行驶 3 小时后,它会走多远?”DeepSeek R1 和通用多模态大模型 GPT-4o 或都能给出正确答案

AI 终极十问!DeepSeek 如何颠覆开发者认知?

但 DeepSeek R1 的不同之处在于它能够拆解问题、进行多步推理,甚至在复杂情境下进行自我调整,这正是推理模型带来的全新体验,也是引发科技圈为之兴奋的一大亮点。

AI 终极十问!DeepSeek 如何颠覆开发者认知?

从技术角度来看,很多人都好奇 DeepSeek R1 为什么展现出“思考”与“推理”能力?

根据 DeepSeek 论文显示,其核心技术主要依赖于纯强化学习(Reinforcement Learning,RL)技术。值得一提的是,当 DeepSeek R1 大杀四方之际,不少技术人将目光对准的是它的前身——DeepSeek-R1-Zero,这款模型建立在 DeepSeek V3 基础模型之上,采用的方法与典型的 RL 流程明显不同(即在 RL 之前应用监督微调 SFT)。DeepSeek-R1-Zero 仅使用强化学习进行训练,跳过了用于指令调整的监督微调(SFT)阶段。

对于奖励,DeepSeek 也没有使用基于人类偏好的奖励模型,而是采用了两种奖励类型,一种是准确性奖励,通过 LeetCode 编译器来验证编码答案,并使用确定性系统评估数学响应;另一种是格式奖励,主要依赖于 LLM 判断者,确保响应遵循预期的格式,例如将推理步骤放入标签中。

DeepSeek 团队观察到尽管没有经过明确的训练,这种方法足以让 LLM 发展出基本的推理技能。有了这一发现,DeepSeek 团队进一步在 DeepSeek-R1-Zero 模型的基础上,使用了额外的 SFT 阶段,并结合 RL 进行微调,使模型的推理能力进一步提升,最终演化出了引领 AI 风潮的 DeepSeek R1。

在此背景下,有人认为,DeepSeek 实现模型的自我进化这种方式,代表了一种全新的 AI 训练范式,有望推动 AI 变革。

然而,也有人持不同看法,认为 DeepSeek 的突破更多体现在工程实践,而非科学创新。据 CNBC 报道,谷歌 DeepMind 首席执行官 Demis Hassabis 评价称,DeepSeek 的模型“是一项令人印象深刻的工作”,并可能“是中国最好的作品”,但从技术角度来看,“尽管外界热议不断,但实际上并没有带来新的科学进步……它只是基于人工智能领域已有的技术。”

这也引发了技术圈对未来大模型训练的热烈讨论。DeepSeek 的推理能力是否真正颠覆了认知?DeepSeek R1 的惊艳亮相,R1-Zero 的探索实践,是否正在重塑 AI 训练模式?强化学习在推理能力上的瓶颈、计算成本挑战怎么激活成功教程?AI 技术以及开发者的职业又会发生怎样的转折

怀揣着对这些关键技术、迭代方向的疑问,CSDN《万有引力》栏目的“DeepSeek 暨 AI 进化论十日谈”的第八期,我们围绕“DeepSeek 对 AI 技术及开发者的刷新十问”主题特设十问,邀请来自上海人工智能实验室青年科学家崔淦渠中国石油大学(北京)副教授、人工智能学院计算机系系主任吕仲琪,在 CSDN &《新程序员》执行总编、《万有引力》主理人唐小引的主持下,于 2 月 12 日 20:00 相约线上,展开一场深度对话。




通过精彩的观点碰撞,共同剖析四大维度难题:

  • DeepSeek 技术创新颠覆认知了吗?
  • R1 爆火背后,神秘的 R1-Zero
  • 模型基建化 VS 模型产品化,未来发展路径如何?
  • AI 模型能力狂飙,如何重塑人类职业价值?

AI 终极十问!DeepSeek 如何颠覆开发者认知?

嘉宾介绍


崔淦渠,上海人工智能实验室青年科学家

博士毕业于清华大学计算机系,导师为刘知远副教授。研究方向为大语言模型的对齐与强化学习技术。在 ICML、NeurIPS、ICLR、ACL、KDD 等国际人工智能顶级会议与期刊上发表论文十余篇,谷歌学术引用超 8000 次。





吕仲琪,中国石油大学(北京)副教授、人工智能学院计算机系系主任

北京大学软件与微电子学院特聘硕士生导师,深圳市海外高层次人才,深圳市科创委科技专家。研究领域覆盖推荐系统、数据挖掘、自然语言处理等方向。代表研究成果推荐系统“时间流动性”,被广泛应用于工业实践,曾在腾讯广告、微软必应、阿里巴巴天猫等企业推广。相关技术成果发表国际顶级会议学术论文十余篇,被引用一千余次,承担多个省级、国家级课题。





唐小引(主持人)CSDN &《新程序员》执行总编、《万有引力》主理人



欢迎点击视频号预约直播,解答你对 DeepSeek 的疑惑!


免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/170591.html

(0)
上一篇 2025-02-18 11:26
下一篇 2025-02-18 11:45

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注微信