全局通栏广告

爱盲论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 67|回复: 0
打印 上一主题 下一主题

DeepSeek rea满血版。大模型升级啦。

[复制链接]

50

主题

73

帖子

338

积分

注册会员

Rank: 2

积分
338
跳转到指定楼层
楼主
发表于 昨天 21:03 来自手机 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
楼主 唱歌好不唱歌说:
DeepSeek-R1 更新,思考更深,推理更强
原创 深度求索 DeepSeek
2025年05月29日 20:07 北京  听全文

DeepSeek R1模型已完成小版本升级,当前版本为DeepSeek-R1-0528。用户通过官方网站、APP或小程序进入对话界面后,开启“深度思考”功能即可体验最新版本。API也已同步更新,调用方式不变。

深度思考能力强化

DeepSeek-R1-0528仍然使用2024年12月所发布的DeepSeek V3 Base模型作为基座,但在后训练过程中投入了更多算力,显著提升了模型的思维深度与推理能力。

更新后的R1模型在数学、编程与通用逻辑等多个基准测评中取得了当前国内所有模型中首屈一指的优异成绩,并且在整体表现上已接近其他国际顶尖模型,如o3与Gemini-2.5-Pro。

表格
  
Benchmarks DeepSeek-R1-0528 OpenAI o3 Gemini-2.5-Pro0506 Qwen3-235B DeepSeek R1
AIME2024 91.4 91.6 90.8 85.7 79.8
AIME2025 87.5 88.9 83.0 81.5 70.0
GPT4Lama 81.0 83.3 83.0 71.1 71.5
Livecoder 73.3 77.3 71.8 66.5 63.5
HackerRank 71.6 79.6 76.9 65.0 57.0
Human's Last Exam 17.7 20.6 18.4 11.75 8.5

DeepSeek-R1-0528在各项评测中均取得了优异表现(基准测试使用64K输出长度;在Humanity's Last Exam中,只使用其中的文本题目进行测试)

相较于旧版R1,新版模型在复杂推理任务中的表现有了显著提升。例如在AIME 2025测试中,新版模型准确率由旧版的70%提升至87.5%。这一进步得益于模型在推理过程中的思维深度增强:在AIME 2025测试集上,旧版模型平均每题使用12K tokens,而新版模型平均每题使用23K tokens,表明其在解题过程中进行了更为详尽和深入的思考。

同时,我们蒸馏DeepSeek-R1-0528的思维链后训练Qwen-3-8B Base,得到了DeepSeek-R1-0528-Qwen-3-8B。该8B模型在数学测试AIME 2024中仅次于DeepSeek-R1-0528,超越Qwen-3-8B(+10.0%),与Qwen-3-235B相当。我们相信,DeepSeek-R1-0528的思维链对于学术界推理模型的研究和工业界针对小模型的开发都将具有重要意义。

DeepSeek-R1-0528对比结果

其他能力更新

幻觉改善:新版DeepSeek R1针对“幻觉”问题进行了优化。与旧版相比,更新后的模型在改写润色、总结摘要、阅读理解等场景中,幻觉率降低了45 - 50%左右,能够有效地提供更为准确、可靠的结果。

创意写作:在旧版R1的基础上,更新后的R1模型针对议论文、小说、散文等文体进行了进一步优化,能够输出篇幅更长、结构内容更完整的长篇作品,同时呈现出更加贴近人类偏好的写作风格。

工具调用

DeepSeek-R1-0528支持工具调用(不支持在thinking中进行工具调用)。当前模型Tau-Bench测评成绩为airline 53.5% / retail 63.9%,与OpenAI o1-high相当,但与o3-High以及Claude 4 Sonnet仍有差距。

示例为通过LobeChat使用DeepSeek-R1-0528的工具调用能力得到的网页文章总结

此外,DeepSeek-R1-0528在前端代码生成、角色扮演等领域的能力均有更新和提升。

示例为在网页端调用DeepSeek-R1-0528使用HTML/CSS/JavaScript开发的一个现代简约风格的单词卡片应用

API更新

API已同步更新,接口与调用方式保持不变。新版R1 API仍支持查看模型思考过程,同时还增加了Function Calling和Json_output的支持。

我们对新版R1 API中max_tokens参数的含义做了调整:现在max_tokens用于限制模型单次输出的总长度(包括思考过程),默认为32K,最大为64K。请被API用户及时调整max_tokens参数以模型的使用方法详见API指南:
https://api.deepseek.com/zh-
cnts/ai-reasons.deepseek.com/zh-
cnts/ai-reasons.deepseek.com/

本次R1更新后,官方网站、小程序、App端和API中模型上下文长度仍为64K。如果第三方平台的上下文长度有需求,可通过其他第三方对模型进行扩展。目前已开源版本R1-0528模型上下文长度为128K的开源版本R1-0528模型开源。

模型开源

DeepSeek-R1-0528与之前的DeepSeek-R1使用同样的base模型,但改进了后训练方法。私有部署时不需要更改checkpoint和tokenizer config(其中toB calls相关变动)。开源版本上下文长度为128K(网页端、App端和API提供64K上下文)。

DeepSeek-R1-0528模型权重下载请参考:

ModelScope: https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-0528

Huggingface: https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

与旧版本的DeepSeek-R1保持一致,此次我们的开源仓库(包括模型权重)仍然统一采用MIT License方式,并允许用户利用模型输出、通过模型微调等方式训练其他模型。

[技术改变世界 图片及链接]

留言

[众多用户留言内容,包括对模型能力的称赞、功能期待、使用反馈等,如“用了一天,确实厉害,生成的网页又好看又漂亮”“期待R2早日发布”“希望在app或者网页端,增加关键字搜索功能” 等,每条留言包含用户头像、昵称、发布时间、回复数量等信息]

来自:掌上乐园
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
收藏收藏
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋| 爱盲论坛  

GMT+8, 2025-5-30 12:00 , Processed in 0.315674 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表