8 江船夜雨听笛 2周前 178次点击
上一篇我们聊了开源模型的玩法,这篇来讲讲闭源模型怎么用。
---
上一篇已经把开源模型的整套工作流程讲清楚了,从下载部署到蒸馏微调,从数据集准备到迭代训练,核心思路就是一句话:把模型变成你自己的。但说实话,开源模型的门槛确实不低,你得有硬件、有技术基础、有折腾的耐心。对于很多不想搞那么复杂的人来说,闭源模型其实是一个更务实的选择。
本来这篇我是想出一期完整的API部署教程的,从注册账号到跑通第一个调用,手把手教。但后来想想,这工作量实在太大,而且说实话,我就不是一个为爱发电的选手。写教程费时费力,免费放出来对我没什么收益。所以有需要的话后期再考虑,现在暂不安排,先讲思路和方法论,这些才是真正有价值的东西。
好,进入正题。先说说闭源模型到底怎么玩。
你平常用的豆包App、深度求索App、文心一言App、KimiApp,这些都算闭源模型的前端产品。你打开App,输入问题,它给你回答,看起来很简单。但这里面有个很多人不知道的事情:你在App里用的模型,和你通过API调用的模型,很可能不是同一个。
什么意思呢?拿豆包来举例。豆包App里给你用的,大概率是它的免费模型或者轻量模型。为什么?因为官方有成本。你想想,几亿用户天天在上面聊天,每一个请求都要消耗算力,算力就是钱。官方不可能把最顶尖的旗舰模型免费开放给所有人用,那得烧多少钱?所以你在App里体验到的能力,其实只是官方愿意免费给你展示的那一部分。真正的旗舰模型,效果强得多,但你得通过API付费调用才能用得到。
深度求索在这方面还算厚道,它的App体验和API体验差距不算特别大。但其他家就不一定了,有些厂商的App端和API端完全是两个级别的体验。所以如果你觉得某个App里的AI不太聪明,不代表那个厂商的技术不行,可能只是你没用到它最好的模型。
之前我们说过,开源模型的核心玩法是自己训练、自己微调,把模型变成你的专属工具。那闭源模型呢?你不能改它的权重参数,不能重新训练它,你拿什么来调教它?
答案就是:提示词。
提示词这个词你可能听过很多次了,但大部分人其实并不真正理解它的含义和用法。很多人以为提示词就是"给AI发消息",这理解太浅了。提示词其实是一整套控制AI输出行为的机制,里面有很多门道。
首先,提示词分为两个部分:系统提示词和用户提示词。这两个概念必须分清楚,因为它们的作用完全不同。
系统提示词,也叫System Prompt,是你在跟AI对话之前就预设好的一段指令。它是固定的,不会随着对话的进行而改变(除非你主动去改它)。系统提示词的作用是给AI设定一个基本的工作框架和行为准则。比如你告诉它"你是一个专业的法律顾问,请用严谨专业的语气回答问题,如果不确定请明确说明",这就是一个系统提示词。它决定了AI在整个对话过程中的角色定位、说话风格、知识边界等等。
用户提示词,也叫User Prompt,就是你在对话过程中发给AI的每一条消息。比如你问"合同违约金的上限是多少",这就是一条用户提示词。
很多人平时用豆包App聊天的时候,以为自己只是在"发消息",其实你发的每一条消息本质上都是一条用户提示词。只不过在App端,系统提示词是官方预设好的,你看不到也改不了。
说到这里就不得不提一个现象了。你有没有发现,豆包App里的AI说话特别客气,特别会夸人,你说什么它都顺着你说,有时候甚至有点拍马屁的感觉?这不是偶然的,这是官方在系统提示词里做了设定。它故意把AI调教成一个讨好型人格,因为这种风格对普通用户来说体验更好,大家喜欢被夸,喜欢被认同。但如果你是拿AI来做正经工作的,这种风格反而很烦,因为你会得到一堆没用的客套话。
豆包App里也提供了创建智能体的功能,你可以自己填写提示词来定制AI的行为。听起来不错对吧?但这里有个关键问题:你填的提示词是被累加在官方原有提示词之上的。也就是说,官方的底层设定还在那里,你的提示词只是在它上面又加了一层。官方设定它要拍马屁,你设定它要专业严谨,这两个指令冲突的时候,AI到底听谁的?大概率还是听官方的,因为官方的提示词优先级更高,而且经过了大量测试和优化。所以你在App里创建智能体,能改变的东西非常有限。
真正能完全掌控AI行为的方式只有一个:自己拿API调教。
API就是应用程序编程接口,简单理解就是官方给你开了一扇后门,让你可以直接跟模型对话,绕过App端那些官方预设的东西。你拿到API密钥之后,就可以通过代码或者第三方工具来调用模型,这时候系统提示词完全由你来写,官方不会在上面叠加任何东西。你让它是什么角色,它就是什么角色,清清爽爽,没有任何干扰。
相比开源模型,用API调闭源模型的好处很明显:你不需要自己部署模型,不需要买昂贵的显卡,不需要搞懂什么Docker、什么CUDA版本兼容。官方的服务器帮你把一切都搞定,你只需要调用就行。而且官方有稳定的调用机制,有完善的错误处理,有技术支持,省心省力。
坏处也有:自定义程度不如开源模型深。你只能通过提示词来影响AI的行为,不能改它的权重参数,不能用自己的数据重新训练它。但对于大多数人来说,对于日常搞点小工具、小应用什么的,API调教完全足够了。
当然,API是要收钱的。每家的计费模式不一样,有的按token数量计费,有的按调用次数计费,有的按月订阅。具体价格你可以去各家开放平台的官网查看,这里就不展开了。总的来说不算贵,普通人玩的话一个月几十块钱到几百块钱不等,看你用多少。
好,说完了基本概念,接下来讲讲具体怎么操作。
第一步,去各大AI厂商的开放平台注册账号。比如字节跳动的火山方舟开放平台、智谱AI开放平台、深度求索开放平台、百度的千帆大模型平台、阿里云的百炼平台等等。每家都有自己的旗舰模型和定价方案,你可以根据需求选择。
注册完之后需要实名认证,然后充值,最后拿到你的API密钥。API密钥就是你的通行证,有了它你才能调用模型。这个注册充值拿密钥的过程每家平台都差不多,官网都有详细的引导文档,我就不一步步教了,原因前面说过了,不为爱发电。
拿到API密钥之后,你肯定要想:我拿这个密钥干嘛用?总不能每次都手写代码去调用吧?
当然不用。开源社区有大量现成的应用和工具,你只需要把API密钥填进去就能用。这些应用有些是网页版的,有些是桌面客户端,有些是命令行工具,种类非常丰富。你用浏览器搜索一下就能找到很多,比如SillyTavern、LobeChat、NextChat、Open WebUI等等,都是比较成熟的项目。这些工具的插件生态也很丰富,基本上你能想到的功能都有人做出来了。
当然,如果你自己会写代码,手写调用也完全没问题。官方都提供了各种编程语言的SDK,Python、JavaScript、Java等等都有,几行代码就能跑通一个最基本的调用。但对于不会编程的人来说,直接用现成的第三方应用是最省事的选择。
好,工具准备好了,接下来就是重头戏:怎么通过提示词来深度影响闭源模型的输出。
之前说了,闭源模型不能像开源模型那样重新训练,但并不代表你对它的输出毫无控制力。有几种非常有效的方法可以强行影响模型的行为,让它按照你的意愿来工作。
第一种方法叫世界书。
世界书这个名字听起来很玄乎,但原理其实很简单。你可以把它理解为一本百科全书或者一本设定集,里面记录了各种人物、事件、地点、规则的详细信息。这些信息被组织成一条一条的条目,每个条目有一个触发关键词和对应的详细内容。
举个例子。你创建了一个条目,触发关键词是"王大老板",对应的内容是"王大老板,本名王建国,1975年生于浙江杭州,白手起家创办了某某集团,现任董事长,性格强势但重情义,喜欢喝龙井茶,座驾是一辆黑色迈巴赫S680"。当你跟AI对话的时候,如果你提到了"王大老板"这个词,应用就会自动检测到这个关键词,然后把这条详细信息注入到你的用户提示词当中,一起发送给AI。
这样一来,AI在回答你之前就已经知道了王大老板是谁、什么背景、什么性格。它就可以基于这些信息来生成更准确、更贴合的回答,而不是胡编乱造。
世界书的强大之处在于,你可以创建无数个这样的条目,涵盖你工作或生活中的所有关键信息。比如你是一个小说作者,你可以把小说里所有角色的详细设定都做成世界书条目,这样AI在帮你写小说的时候就能准确把握每个角色的性格、经历、人际关系,不会出现前后矛盾的情况。再比如你是一个游戏策划,你可以把游戏的世界观、种族设定、历史事件都做成世界书,AI就能在这个框架内帮你生成剧情和对话。
世界书本质上就是给AI提供了一个外部知识库,弥补了闭源模型不能重新训练的短板。你不能改模型的大脑,但你可以给它喂参考资料,效果殊途同归。
第二种方法叫提示词注入。
提示词注入跟世界书有什么区别呢?世界书是基于关键词触发的,你提到了某个关键词它才注入对应的信息。而提示词注入是不管你说什么,它都会在指定的位置强制插入一段预设的提示词。
提示词注入有一个关键参数叫做注入深度。什么意思呢?就是这段提示词要插入到对话历史的哪个位置。比如你设置注入深度为4,意思就是这段提示词会被插入到最近4条消息之前的位置。
为什么要这么做?因为AI模型有一个特性:它对最近几条消息的关注度最高,对越早的消息关注度越低。这在技术上叫做注意力衰减。所以当你的对话轮次变多的时候,AI可能会"忘记"你在系统提示词里设定的一些重要规则,开始偏离你想要的方向。这种现象在长对话中非常常见,很多人应该都遇到过:聊着聊着AI就不正经了,开始胡说八道或者偏离角色。
提示词注入就是用来解决这个问题的。你把最重要的规则写成一段提示词,设置好注入深度,让它在对话过程中反复出现,就像一个不断敲黑板提醒学生的老师。AI每次生成回答之前都会看到这段提醒,就不容易跑偏了。
我给你举个具体的例子。假设你的系统提示词设定AI是一个催债助手,专门帮人通过电话或短信催收欠款。你跟它对话讨论了十几轮,聊了很多细节,这时候AI可能已经忘了自己是个催债助手,开始用普通聊天的语气跟你说话了。这时候如果你设置了提示词注入,比如注入内容是"记住,你是一个专业的催债助手,当前目标是帮用户追回欠款,每次回复都要围绕这个核心目标,询问对方还款意愿和还款计划",注入深度为4,那么这段话就会出现在最近4条消息之前的位置,AI每次回复前都会看到它,就能始终保持催债助手的角色。
这种方法在角色扮演场景中特别有用。很多玩AI角色扮演的人都会用提示词注入来保持角色的稳定性,防止AI在长对话中"出戏"。
第三种方法,也是扩展性最强的一种,就是AI插件功能。
插件这个东西,简单理解就是给AI装上"手和脚"。没有插件的AI只有一个大脑,它只能思考、只能生成文字。但装上插件之后,它就能做很多事情了。
最基础的插件可以帮AI生成图片、生成视频。你跟它说"帮我画一张夕阳下的海边风景画",它就能调用生图插件直接给你出图,而不是像以前那样只能给你一段文字描述让你自己去画。
高级一点的插件可以让AI操作你的电脑。比如你让它"帮我打开Excel,把桌面那个销售数据表格整理一下,按月份排序,然后生成一个柱状图",它就能通过插件调用你电脑上的Excel程序,完成这些操作。再比如让它"帮我打开浏览器,搜索一下最新的AI行业报告,把关键信息整理成文档",它也能做到。
更高级的插件甚至可以让AI操作你的手机、帮你浏览网页、帮你回微信和QQ消息。有些玩家直接把大模型挂在微信或QQ上,让它代替自己跟朋友聊天,或者做成一个自动客服机器人挂在群里。还有些人把它做成个人助理,每天早上自动帮你查看天气、整理日程、推送新闻摘要。
简单来说,在插件生态里,没有AI做不到的事,只有你还没装到的插件。之前很火的联网搜索功能,其实就是插件的一种。AI本身的知识是有截止日期的,它不知道昨天发生了什么。但装了联网搜索插件之后,它就能实时搜索互联网上的最新信息,然后基于这些信息来回答你的问题。这个功能现在基本上各大AI产品都标配了,但在早期只有通过插件才能实现。
插件生态是闭源模型最大的优势之一。因为闭源模型的厂商通常都会提供官方的插件市场或者工具调用接口,第三方开发者可以在上面发布各种插件。开源模型虽然也能用插件,但生态的丰富程度和稳定性通常不如闭源模型。
总结一下,闭源模型虽然不能像开源模型那样深度定制,但通过世界书、提示词注入、插件系统这三大手段,你依然可以对它的输出进行非常精细的控制。世界书负责提供知识背景,提示词注入负责维持行为稳定,插件负责扩展能力边界。三者配合使用,闭源模型也能变成一个非常强大的生产力工具。
最后说一点我个人的看法。开源模型和闭源模型不是对立的关系,它们各有各的适用场景。如果你有技术能力、有硬件条件、有大量的专业数据需要训练,那开源模型是更好的选择,因为它的上限更高。如果你只是想快速上手、解决日常工作中的效率问题,那闭源模型的API调教方案就完全够用了,而且门槛低得多。
不要被"开源才是正道"这种观点绑架了。工具没有高低之分,只有适不适合。能帮你解决问题的工具就是好工具,管它是开源还是闭源。
好了,闭源模型的部分就聊到这里。下一篇考虑讲讲怎么写好提示词,包括一些实用的提示词技巧和模板。感兴趣的可以关注一下,有问题评论区见。
散会。
慢着。
既然都聊到这了,那就给你们上点东西吧,
如果感觉有兴趣了,想要轻度研究的,下载这个。
https://rikka-ai.com第1个支持联网工具以及一些小型插件和提示词注入等等的功能。
可以折腾一下。
如果感觉自定义不够强,可以。
https://github.com/AAswordman/Operit都是安卓机的,都可以玩。
不会的可以来我们这里一起交流。
再强调一下,不为爱发电,群里问问题,看到了,有时间了会回一下,剩下的也会做一些指导,专业性的自己研究。
报到。