首先祝大家新年快乐,心想事成,阖家欢乐。
DeepSeek 前段时间发布了,据说算力堪比 o1 模型,拥有自我审查功能,擅长代码、推理等专业领域。在网上看了很多使用它的视频,貌似效果很不错,这里教大家如何本地部署。
下载 Ollama
Ollama 是一个运行本地模型的应用,官网为 https://ollama.com/ ,图标是一只很可爱的小羊驼。
前往 https://ollama.com/download 获取下载方式,它支持 Windows、Linux 和 MacOS。
我的操作系统为 Ubuntu,下载命令为:
curl -fsSL https://ollama.com/install.sh | sh
我是直接将 install.sh 下载到本地,然后运行。
sh ./install.sh
下载完成后启动服务,有的系统任务栏会出现一个小羊驼的图标。
运行模型
接下来,在 Ollama 官网搜索 “deepseek-r1”,你会发现有很多不同大小的模型,大的模型对系统的要求也很高,这里放一个表格给大家参考一下。
模型大小 | 显存需求 | 推荐显卡 | MacOS需要的RAM |
---|---|---|---|
1.5B | ~3GB(FP16推理) ~14GB(INT8推理) | RTX 2060 / Mac GPU 可运行 | 8GB |
7B | ~3GB(FP16推理) ~14GB(INT8推理) | RTX 3060 12GB/ 4070 ti | 16GB |
8B | ~6GB(FP16推理) ~16GB(INT8推理) | RTX 4070 / Mac GPU 高效运行 | 16GB |
14B | ~28GB(FP16推理) ~20GB(INT8推理) | RTX 4090 / Mac GPU 高效运行 | 32GB |
32B | ~64GB(FP16推理) ~48GB(INT8推理) | A100-80G / 2x Gtx 4090 | 64GB |
我下载的是 7B 级别的模型。事实上,Ollama 给我推荐的模型也是 7B 级别。
复制命令到终端中,运行,当进度条跑满时,我们的电脑就有了运行模型的能力。
ollama run deepseek-r1
浏览器使用
终端可以使用模型,但是显然不太方便,我们可以在浏览器中使用。
浏览器搜 Chatbox 并打开网页版,并将语言设置为中文,然后启用本地模型,选择 Ollama API。
为了确认 Chatbox 能够连接本地服务,我们需要根据它提供的教程设置一下。
我的是 Ubuntu 系统,就先修改 Ollama 配置:
systemctl edit ollama.service
可以看到配置项中没有任何有效项,全被注释了。在配置项中添加下面的代码。
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"
然后重启 systemctl 和 Ollama,通过浏览器访问 http://localhost:11434
,如果出现“Ollama is running”字样就说明配置成功了。
可能会有防火墙等服务阻止 Chatbox 网页端和本地的 Ollama 通信,各位需要检查一下。
回到 Chatbox 网页端,可以看到 Ollama 本地的模型可以使用了。
为方便,我下载了 Linux 版本的 Chatbox 应用,这样就相当于真正地在本地使用 DeepSeek 大模型了。
创建属于自己的 GPT
在 Chatbox 网页端,选择“我的搭档”,输入你期望的 GPT 的样子,比如:
你可以将其嵌入到编辑器中,拥有一个离线免费的 AI 编程工具,也可以用它编写自动化测试工具,亦或是当你的私人知识库。关键是全程免费,断网也能用。
我这两天也部署了,我rtx2060显卡,6g显存,来来回回折腾最后还是用回了未被deepseek蒸馏的qwen2.5模型。我的配置跑蒸馏后的7b-q4或8b-q4都不卡顿,回复速度挺快,主要问题就是被deepseek蒸馏后的模型回答质量不太理想,它确实会模仿deepseek深度思考的过程,但它的深度思考过程类似“画虎不成反类犬”,思考的方向很多时候都是错乱的,并且有时候会出现答非所问的情况,很像“老年痴呆、精神分裂者”,值得注意的是我发现它一般在最初回答问题时会模仿deepseek进行深度思考,但如果你连续进行提问的话,它不会进入深度思考模式,有时候会只回一句话或一个文号应付你,我怀疑这可能和我的模型规模有关,32b的蒸馏模型应该不会有这种情况。总之个人感觉8b及以下被deepseek蒸馏的模型不建议使用,推荐qwen2.5-7b模型,我测试同等规模和普通硬件配置情况下,qwen2.5不会出现“老年痴呆、精神分裂、追问答非所问、回答问题质量不佳”的问题,反而效果出奇的好,测试了好几个平常想问的问题都能回答上来,只是相比联网版的答案内容少一些。
是吗,我跑的7b的模型,垃圾得很,完全胜任不了写代码的任务,替代不了ChatGptO1
最后一个图第二个回答,我问他DeepSeek一共有几个e,每次都能给我错误的答案。感觉它每次回答之前的思考好像在滥竽充数,是在耍我们
我总结了一下今后的使用原则:
总结一下使用原则。
【日常翻译】
1.qwen2.5-7b。
【代码遇问题或遇bug】
1.线上deepseek。
2.如deepseek用不了则通义千问(速度有时慢)。
3.如通义千问解决不了用qwen2.5-code-7b本地模型。
4.如qwen2.5-code-7b本地模型解决不了用deepseek蒸馏的8b本地模型。
5.如deepseek蒸馏的8b本地模型解决不了用deepseek蒸馏的14b本地模型。
【写不隐私的短材料、通知及文章】
1.线上deepseek。
2.如deepseek用不了则通义千问(速度有时慢)。
3.如通义千问解决不了用qwen2.5-7b本地模型。
4.如qwen2.5-7b本地模型解决不了用deepseek蒸馏的8b本地模型。
5.如deepseek蒸馏的8b本地模型解决不了用deepseek蒸馏的14b本地模型。
【写不隐私的长材料、文章【】
1.线上deepseek。
2.如deepseek解决不了用qwen2.5-7b本地模型。
3.如qwen2.5-7b本地模型解决不了用deepseek蒸馏的8b本地模型。
4.如deepseek蒸馏的8b本地模型解决不了用deepseek蒸馏的14b本地模型。
【写隐私的短材料、通知及文章【】
1.用qwen2.5-7b本地模型。
2.如qwen2.5-7b本地模型解决不了用deepseek蒸馏的8b本地模型。
3.如deepseek蒸馏的8b本地模型解决不了用deepseek蒸馏的14b本地模型。
【写隐私的长材料、文章【】
1.用qwen2.5-7b本地模型。
2.如qwen2.5-7b本地模型解决不了用deepseek蒸馏的8b本地模型。
3.如deepseek蒸馏的8b本地模型解决不了用deepseek蒸馏的14b本地模型。
【综合性人文方面提问】
1.线上deepseek。
2.如deepseek解决不了用deepseek蒸馏的8b本地模型。
3.如deepseek蒸馏的8b本地模型解决不了用deepseek蒸馏的14b本地模型。
注:以后换电脑显存必须8G以上!
我试了下14b的,我的6g小显存也能跑,但每秒2个字的速度,14b的感觉还行,我给了它我之前自己写的通知等模板材料,让它模仿我的框架和风格基于我提出的新的需求的情况下生成一个新的通知,14b能1次写的很像,思考过程比7b的详细很多。未蒸馏的qwen2.5-7b第一次没写好,需要给他指出问题让他重新再写个两次才行。我主要馋deepseek在回答问题时能把思考的过程显示出来,有时候遇到问题了向它提问,看它尝试解决问题的思考过程的体验很奇妙,因为某些情况下会遇到一些实在无法解决的问题(叫天天不应叫地地不灵),只能抱着“死马当活马医”问AI找灵感,deepseek展现思考过程的方式在我遇到问题时又给我扩宽了一种解决问题的途径,目前好像也只有deepseek能这样。最后我还是打算把deepseek本地蒸馏的模型用起来,虽然蒸馏的过程类似将大模型回答的答案传授给小模型,小模型的内核还是小模型本身,不算真正的deepseek大模型,但是蒸馏过的小模型在回答问题时终归是会进入深度思考并且呈现思考过程,所以在线上无法使用或因某些情况不能用时可作为备选方案。
感觉线下模型的优势主要在于:1.长文本无限制。2.api接口免费。3.性能足够情况下本地的回复速度会很快。4.一些隐私原因的需求可以无顾及提出。
使用体验如何,最近都是这模型的消息~
macmini终于有点用处了。能跑7b,8b也可以。目前lobe对deepseek r1的展示体验不是特别好。
有点意思,但我今天也体验了 deepseek,也想过搞个本地部署。后来又想,官网和app随点随用,自己折腾好像意义也不是很大了。
它主要是断网也能用,如果不会断网,当然联网用是最好的