我测试了 DeepSeek R1 Lite 预览版,看看它是否比 O1 更好

Get accurate and active Loan Data.
Post Reply
urrifat77
Posts: 18
Joined: Mon Dec 02, 2024 8:58 am

我测试了 DeepSeek R1 Lite 预览版,看看它是否比 O1 更好

Post by urrifat77 »

我在网上看到过关于该模型卓越推理能力和透明决策的大胆言论。据说它在复杂任务(尤其是数学和编码)中表现出色,据报道在 AIME 和 MATH12 等严格基准测试中匹敌甚至超越了 OpenAI 的 o1 预览版。

我很好奇,所以我决定亲自在编码挑战、高级数学问题和自然语言处理上测试这些说法。让我们看看 DeepSeek-R1-Lite-Preview 到底有多好。

开发人工智能应用程序
学习使用 OpenAI API 构建 AI 应用程序。
什么是 DeepSeek-R1-Lite-Preview?
DeepSeek-R1-Lite-Preview 是一款类似于ChatGPT的 AI 工具,由中国公司 DeepSeek 创建。该公司于 11 月 20 日在X上宣布了这一新模型(推文链接),并在文档页面上分享了一些细节。

deepseek 公告

DeepSeek-R1-Lite-Preview 旨在真正擅长解决数学、编码和逻辑方面的复杂推理问题。它会逐步向您展示它的思考方式,以便您了解它如何得出答案,这有助于人们更加信任它。

您可以免费在其网站chat.deepseek.com上试用,但在其高级模式“深度思考”中,您每天只能发送 50 条消息。DeepSeek 还计划向公众分享该工具的部分功能,以便其他人可以使用或在此基础上进行开发。

如何使用 DeepSeek-R1-Lite-Preview
您可以按照以下两个步骤开始使用 DeepSeek-R1-Lite-Preview:

访问DeepSeek 聊天页面并登录。
启用“深度思考”。
deepseek 聊天中的深度思考选项

草莓测试
要了解 DeepSeek-R1-Lite-Preview 的功能,让我们来测试一下!我将进行一系列挑战,展示其推理能力,首先是简单但著名的草莓问题:字母“r”在“strawberry”中出现了多少次?

这个问题看起来很简单,但 LLM(甚至GPT-4o)历来都很难正确回答它——他们通常回答字母“r”只出现了两次。

deepseek 对著名草莓问题的深度思考

deepseek 对著名草莓问题的深度思考

哇,好吧——我没想到这个看似简单的任务竟然需要这么长的推理过程 投资者数据库 我以为在数完字母“r”并确定它在单词中的位置后,它就会停在那里。但令我感兴趣的是,它并没有就此止步。它反复检查了几次计数,甚至考虑了人们可能会如何发音或拼写这个单词等问题——我认为这有点多余,尤其是发音部分。但这确实表明它是多么细心和周到!它还解释了每一步,这样我就可以跟上它的思维过程,看看它是如何得出答案的。

数学推理
我将通过三个数学问题测试 DeepSeek-R1-Lite-Preview。

三角面积
鉴于 DeepSeek 声称自己非常擅长数学推理,让我们从一个简单的几何问题开始吧。

“如果一个三角形的边长为 3、4 和 5,那么它的面积是多少?”

这个问题需要毕达哥拉斯定理和海伦公式的知识。我希望 DeepSeek-R1-Lite-Preview 能够展示其工作,可能像这样:

识别出这是 3-4-5 直角三角形
计算半周长:s = (3 + 4 + 5) / 2 = 6
应用海伦公式:面积 = √(s(sa)(sb)(sc))
替换值:面积 = √(6(6-3)(6-4)(6-5)) = √(6 * 3 * 2 * 1) = √36 = 6
验证:直角三角形面积 = (底边 * 高) / 2 = (3 * 4) / 2 = 6
让我们看看会发生什么!

deepseek deepthink 解决数学问题


Image


好吧,有趣的是,它执行了我预测的检查——尽管顺序不同。它还考虑使用三角函数计算角度并尝试另一个公式。我觉得这很有趣,最后它决定不需要这样做,因为前两种方法已经确认了答案。

解释和输出都特别清晰易懂,这让我觉得这将是一个很棒的模型,可以嵌入到数学学生的助手中。对于这个特定的用例,也许可以先展示思维过程,然后学生可以与之互动,在继续得出最终答案之前确认他们是否理解了它。

数学证明
让我们进行更复杂的数学测试,看看表现和思维过程是否存在差异。

“证明斐波那契数列的倒数之和收敛于一个有限值。”

这个测试考验模型对高级数学概念的理解,比如级数收敛和斐波那契数的性质。让我们来试试吧!为了便于阅读,我只会发布答案的第一部分和最后一部分(但您可以随意用相同的提示自己尝试一下):
Post Reply