即时看!DeepSeek-R1模型训练方法发布
时间:2025-09-20 15:08:17来源:科技日报


(相关资料图)

DeepSeek-AI团队梁文锋及其同事17日在《自然》杂志上发表了开源人工智能(AI)模型DeepSeek-R1所采用的大规模推理模型训练方法。研究表明,大语言模型(LLM)的推理能力可通过纯强化学习来提升,从而减少增强性能所需的人类输入工作量。训练出的模型在数学、编程竞赛和STEM领域研究生水平问题等任务上,比传统训练的LLM表现更好。

DeepSeek-R1包含一个在人类监督下的深入训练阶段,以优化推理过程。梁文锋团队报告称,该模型使用了强化学习而非人类示例来开发推理步骤,减少了训练成本和复杂性。DeepSeek-R1在被展示优质的问题解决案例后,会获得一个模板来产生推理过程,即这一模型通过解决问题获得奖励,从而强化学习效果。团队总结说,未来研究可以聚焦优化奖励过程,以确保推理和任务结果更可靠。

在评估AI表现的数学基准测试中,DeepSeek-R1-Zero和DeepSeek-R1得分分别为77.9% 和 79.8%,在编程竞赛及研究生水平的生物学、物理和化学问题上同样表现优异。

标签:

最新
  • 即时看!DeepSeek-R1模型训练方法发布

    DeepSeek-AI团队梁文锋及其同事17日在《自然》杂志上发表了开源人工

  • 热消息:浙江举行青年戏剧演员大赛决赛

    2025年新松人才浙江省青年戏曲演员大赛决赛于7月29日结束。本届大赛

  • 监管推动建立保险销售资质分级管理|今日报

    近日,国家金融监督管理总局(以下简称金融监管总局)发布了《金融

  • 焦点报道:曼城与彪马续签合同 据称金额达10亿英镑

    英超豪门曼城足球俱乐部15日宣布,他们已与彪马公司续签长期合同。

  • 这些药1天只能吃几片,有些孩子却一次吃几十片……_焦点播报

    6·26国际禁毒日前夕国家禁毒办发布《2024年中国毒情形势报告》指出

  • 300秒看家乡︱江西省井冈山市:红色圣地风景独好,文旅融合共绘华章

     江西省吉安市井冈山管理局局长、井冈山市人民政府市长毛江虎

  • 17条防癌细节,看完受益一辈子

    哪些饮食习惯助长食管癌?长期吃夜宵+熬夜对身体会造成什么样的危害

  • 2025中国国际露营大会开幕

    2025中国国际露营大会26日在浙江金华国家5A级旅游景区双龙风景旅游

  • 沙棘小果铸富民大业 康金蓓公益行收官

     4月15日,康金蓓沙棘基地公益行在山西省岢岚县宋家村举行。此

  • “头雁”引领树标杆,奋力构建“大消保”格局

     保护金融消费者权益,事关广大人民群众切身利益,需要社会各界的

  • 黄土高原上的AI训练师:在务农与职场间跨界生活

    对于在除草、掰玉米和人工智能(AI)数据训练之间游刃有余的朱小玲来

  • 电热毯能反面朝上使用吗?两个电热毯可以一上一下用吗?

    电热毯能反面朝上使用吗?将电热毯反面朝上使用会存在安全隐患。因此

  • 澳门擦亮文旅“金字招牌”

    烟花汇演点亮濠江夜空、文体盛事激荡金光大道、历史建筑一展时尚新

  • 滨海县应急管理局:为烟花爆竹领域安全保驾护航

    为贯彻落实《盐城市应急管理局关于进一步加强烟花爆竹经营安全监管

  • 宁夏突破滩羊繁育关键技术瓶颈 双羔滩羊产羔率达到160%以上

    中新网银川12月5日电 (记者 李佩珊)记者5日从宁夏农业农村厅获悉

  • ​西平县重渠小学开展“关爱生命 远离火灾”系列主题活动

    火灾是一种自然灾害,造成的伤害无法挽回。为了让全校师生了解火灾并掌

  • 旅游
    • 世界今日报丨推动产业链向上下游延伸

    • 迪瑞医疗:仪器收入增长64.21% 上半年归母净利润同比涨22.02%

    • 多地推出新型家财险产品 惠民保“爆红”基因可否复制?

    • 防晒喷雾和防晒霜哪个效果好?2023第一款属实用了就不想换!