文 | 錦緞
下面的情景是不是有些似曾相識?
當滿懷期待地給AI大模型下達指令,比如“幫我分析一下這周的股價走勢”。
等待數十秒后,得到了一份空洞無物,只有數據羅列的通用模板,令人大失所望。
轉念一想,不應該啊,之前看過的短視頻里介紹AI都和點石成金一樣:
有的人能用AI在朋友圈、小紅書和微博上追逐時尚潮流生成爆款文案;
有的人能用AI生成勝過資深程序員編寫的高質量代碼;
有的人能讓AI充當各領域內的行業專家,隨隨便便來一份分析報告都不在話下;
同樣是AI,天差地別的結果。
不同的AI大模型之間能力存在差距,這是事實。
但造成這一差異的更為主要的原因在于,使用AI的方法,也就是提問的方式。
我們注意到,為了降低使用門檻,加速AI大模型應用普及,各大廠也在“提示詞工程”上下大心思。PromptPilot,便是字節系的大模型提示詞解決方案平臺。
以其為樣本,本文將就“提示詞工程”與字節系的“提示詞工廠”,一探究竟。
01 提示詞的演進過程
人與AI溝通的媒介,即為提示詞(Prompt)。
有人會問:“寫Prompt不就是打字提問嗎?”
非也,這是一門學問。
這門學問在AI誕生至今的短短幾年內,已經經歷了從“遠古時代”到“現代”的飛速進化。
簡單了解一下提示詞的發展路徑,或許能夠幫助理解為什么我們需要更“工程化”的思維。
Stage.1 “魔法咒語”時代
這是最早期的階段,但也是大多數人目前所處的階段。
使用AI大模型和使用搜索引擎的方法并無兩樣,就像最初大家在使用GPT3.5時,只需要隨意拋出問題,就可以把AI當作百科全書使用。
這個階段的提示詞特點也很鮮明,“一問一答,簡單直接”。
當然,使用效果也有些靠運氣。對于一些需要思考、推理或創意的任務,AI的回答時而驚艷,時而平庸。
Stage.2 “啟蒙與引導”時代
此后,AI的發展速度遠超人們的想象。
研究者和“高級玩家”們發現,AI就像一個孩子,直接下命令,它有時根本聽不懂。
但如果給AI一些適當的提示和引導,有助于孩子的成長,最終得到更好的結果。
在這一階段,誕生了兩種里程碑式的AI使用方式:
一是示例學習:在向AI正式發文之前,先給出范例,讓AI進行模仿;
二是思維鏈路:不是直接生成最終答案,而是像做中學數學題一樣,必須把過程寫清楚,最后給出解答。思維鏈路的出現,使AI在計算、推理和邏輯類任務中取得了巨大的飛躍。
因此,這時的AI ,雖然本質上只是一段早已編寫好的程序,但它也可以被視為一個可以教導和啟發的學生。
Stage.3 “系統化工程”時代
這是我們現在所處的時代。AI產品五花八門,其能力已經達到“逆天”的水平。
簡單的小技巧已經無法有效駕馭AI,是時候設計出一套系統化、規范化且可復用的方法來更加有效地利用AI了。
因此,不論是LLM應用開發平臺,還是各家廠商最新版本的AI大模型,如果讓它們自動生成提示詞,都已經不再是零散的指令,而是采用一個包含角色、背景、任務、規則、輸出格式和限制等元素的結構化框架。
其目的也很簡單,讓AI的輸出穩定、可控、易于復制。
02 提示詞工程
“提示詞工程”是什么?
AI給出的回答是:“一門設計和優化提示詞的科學,旨在更有效地與大型語言模型進行溝通,從而引導它們生成更準確、更相關、更高質量的輸出結果。”
如前文所述,提示詞的重要性源于”Garbage In, Garbage Out”原則,AI模型的輸出質量直接取決于輸入提示詞的質量。
優質的提示詞,最重要的功能在于有效減少AI出現“幻覺”的概率,使其回答更加貼近現實和用戶意圖。
同時,提示詞有助于發掘AI的“潛力”。相比簡單的指令,提示詞工程可以讓AI實現更多功能,比如編寫代碼、市場分析、創意生成等更加復雜、更加抽象的任務。
此外,用戶還可以對AI的回答添加格式、語氣、長度等約束條件,靈活地調整答案的展現形式,同時節約調試時間。
對于編寫提示詞的方法,Gemini 2.5 Pro給出了名為R.O.L.E.S.的法則,這里選擇構建工作流時使用的實例:
R - Role(角色):你希望AI是誰?
這是AI使用者在編寫提示詞時最容易忽略的一步,因為我們常常上來就直接把問題拋給AI。通過賦予AI一個具體且專業的角色,能夠激活它在該領域的知識庫,使其回答更具深度和專業性。
例如:
# 角色
你是一個頂級的金融數據分析師,能夠解析用戶的請求,并為后續的數據庫檢索程序準備一份精確的數據需求清單。
O - Objective(目標):你想完成什么核心任務?
用戶需要清楚地告訴AI最終目的是什么。不要擔心語言過于繁瑣,AI“聽不懂”的是短句,而不是長難句。任務越明確,AI的行動路徑就越清晰。
例如:
# 核心任務
你的任務是分析用戶關于“谷歌”(別稱:Google)的指令"{{query}}"。你的最終輸出不是直接回答用戶的問題,而是列出為了回答這個問題,必須從我們的財務知識庫中檢索的**所有基礎數據字段**。
L - Limit&Constraint(限制與約束):有哪些規則必須遵守?
AI作為一個自由創作的作家,輸出方式向來是不拘一格。要想獲得準確的結果,就必須對其加以限制和約束,包括但不僅限于風格、語氣、字數、禁止事項等等。
例如:
# 輸出要求
- **嚴格遵循格式**: 嚴格輸出由`鍵:值`對、逗號`,`和分號`;`組成的字符串。
- **純凈輸出**: 不要包含任何前綴、解釋、引號、空格或任何其他多余的文字。
- **空處理**: 如果指令與谷歌的財務或市場數據完全無關,輸出NO_QUERY`。
E - Examples(示例):有沒有可以參考的例子?
如果用戶的要求比較復雜或獨特(比如某一個細分領域),那么提供給AI一個具體的例子會是比較高效的溝通方式,這有助于讓AI迅速理解用戶期望的格式和風格,而不是通過多輪對話讓AI不斷去嘗試。
例如:
# 示例
* *用戶說*: "谷歌的收入和市值是多少?"
* *你的思考*: 用戶直接要“營業收入”和“市值”。這是基礎指標。
* *最終輸出*: 營業收入,市值
S - Steps(步驟):完成任務需要分幾步?
對于較為復雜的任務,就輪到之前提過的“思維鏈路”出場了。一次把任務灌輸給AI通常得不到理想的結果,但如果能引導AI按照步驟思考和執行,就可以大幅提升輸出結果的邏輯性和準確性。
例如:
# 步驟
首先判斷用戶指定的財務指標是否能夠從給定的財報中直接獲取;若不能獲取,再根據計算公式獲取相關指標;最后分析該指標的含義。
對于上面這套法則,還有一些需要注意的細節:
第一,提示詞的編寫并沒有嚴格的規定,上面的五個部分可以按需修改;
第二,給出的例子中可能包含{}、**、<>等符號,這些符號也是提示詞工程中的小技巧,每種符號都具有特定的功能,可以把一個純自然語言的段落轉變成一個類似于“程序”的指令集。
![]()
03 字節的“提示詞工廠”
在明確提示詞的編寫流程后,就該思考這套方法的實用性了。
很明顯,如果按部就班地完成每個步驟,工作量已經接近于寫一篇作文。
換個角度來看,我們需要使用提示詞讓AI完成任務,而寫提示詞恰好就是一項任務。
因此,我們可以再偷個懶,干脆讓AI把提示詞也幫著寫完得了。
字節在6月推出了一款名為PromptPilot的產品,是面向大模型應用的全鏈路優化平臺。
平臺介紹中提到,該產品不僅可以提供精準、專業、可持續迭代的提示詞,還可以覆蓋大模型開發從構想、開發部署到迭代優化的全過程。
該產品免費試用至2025年9月11日,鏈接:https://promptpilot.volcengine.com/home
眼見為實,下面我們來試用一下看看效果如何。
![]()
主界面UI看上去很簡潔,功能主要有三個:Prompt生成、Prompt優化和視覺理解Solution。
由于本篇文章主要討論提示詞相關內容,因此只介紹前兩個功能。
![]()
圖:PromptPilot使用流程圖
對于沒有提示詞編寫經驗的用戶,可以直接在平臺上生成結構化的提示詞:
![]()
圖:生成提示詞界面
任務描述并不需要太復雜,只要表達清楚就好,也不必擔心描述不夠精細,后面還可以進行調整。
這是平臺生成的初版提示詞,雖然尚不完備,可能與用戶的詳細需求仍然存在差異,但其效果已經遠比使用短句給AI下達命令要好。
接下來,需要驗證這份提示詞的效果究竟如何。點擊“驗證Prompt”進入調優環節:
![]()
圖:選擇調優模式
PromptPilot提供了兩種調優模式,評分模式類似于“簡答題”,需要用戶填寫分數、評價意見(可選)和理想回答(可選),GSB比較模式則類似于“選擇題”,需要用戶對答案進行比較,并給出Good、Same和Bad的判斷。
提示詞的重要性我們已經提過很多次,因此更推薦選擇評分模式。
![]()
圖:調優界面
選擇評分模式進入調優界面后,需要進行幾項設置:
首先,如果用戶覺得提示詞無法滿足需求,可以使用“一鍵改寫Prompt”。
然后,在提示詞中可以看到熟悉的標識{{AI_NEWS}},表示這里需要填入相關領域的AI新聞。點擊“填寫變量”,將新聞內容粘貼進去即可。
PromptPilot還提供了一項很貼心的服務:AI生成變量內容。
也就是說,如果我們并沒有足夠的新聞,就可以讓AI現編一條。這個功能在不需要信息真實性的情況下能幫上大忙,快速構造數據集就靠它了。
不過,我們需要真實新聞才能發布文章,而有些聰明的模型可以識別出虛假的新聞,因此這里還是不要使用AI生成變量內容。
最后,在模型回答窗口中可以自由選擇大模型版本,其中DeepSeek和豆包的部分版本免費。
這里,考慮嘗試一下豆包的新模型:Doubao-Seed-1.6-Thinking,開啟深度思考功能。
完成上述設置后,點擊“保存并生成模型回答”,平臺會調用選擇的模型,按照給定的提示詞開始編寫文章。生成文章后,需要點擊“添加至評測集”。
只靠一篇文章是無法衡量提示詞質量的優劣的,因此我們需要更多的數據來進行評判。
![]()
圖:評測數據集界面
與前面的操作相同,我們需要把新聞粘貼至評測數據集中的AI_NEWS一列。
點擊“生成全部回答”,模型開始編寫對應的文章。
評分同樣可以由AI完成,點擊“智能評分”-“AI評分標準”-“生成評分標準”即可獲得一套較為詳細的評分標準,用戶可以在此基礎上進行修改或是直接使用。
開啟智能評分功能后,AI在文章編寫文章后會自動生成評分及理由。需要注意的是,智能評分功能并不完善,經常出現全是滿分的情況,而這樣的評分對于調優Prompt沒有意義。
當然,這個環節也可以由我們手動完成,主觀的評閱意見能夠使文章的風格更接近于理想中的狀態。但新聞數量較多時,人工評閱的工作量還是有些過大。
這個時候,就又輪到“老朋友”工作流登場了。
既然PromptPilot是火山引擎的工具,而大模型我們又選擇了豆包,因此工作流我們也選擇字節系的Coze進行開發。
![]()
圖:AI生成文章評分工作流
工作流的結構很簡單,開始節點接收兩個參數:news(原始新聞)和article(AI生成的文章)。
大模型節點用來進行評分,同樣將上面兩個參數作為輸入,并開始編寫提示詞。
既然研究AI,當然提示詞也要讓AI來生成。需要注意的是,適當提高文章評分的區分度,有助于提示詞的優化。
因此,我讓AI生成了一份評分標準,并告知需要嚴格評判產生區分度,并生成了對應的結構化提示詞。
![]()
![]()
![]()
圖:AI評分提示詞|
提示詞編寫完成后,大模型節點的模型同樣選擇豆包·1.6·深度思考·多模態。
現在,只需要運行工作流,把新聞原文和AI生成的文章粘貼進去就可以得到評分及打分理由,完成后粘貼到PromptPilot中即可。
最終,數據集包含36條新聞及對應文章,開始進行提示詞的智能優化。
![]()
圖:智能優化界面
可以看到,平臺推薦的數據是50條以上并給出理想回答,但這并非必須。只有評分是必須項。
智能優化環節花費了約17分鐘,迭代了28次,結果如下:
![]()
圖:智能優化結果
這樣,我們就得到了一份優化后的提示詞,相比上一版提示詞增加了更多任務描述和細節。
下拉該頁面還可以看到根據新的提示詞生成的文章,這里就不一一展示了。
但還請不要忘記,提示詞工程并非到此而止,而是可以繼續通過添加數據、評分和理想回答的方法進行下一輪優化,直到它能夠完全滿足需求。
至此,我們已經掌握了一套標準化的用于優化提示詞的方法。
而事實上,這個過程就是我們常常提到的——強化學習。
04 結語
回到最初的問題:為什么同樣的AI,在不同人手中會產生天壤之別?
答案正是提示詞工程——與AI高效寫作的藝術與科學。
它并非計算機行業的專利,而是未來人們需要具備的基礎素養。
掌握它,意味著駕馭AI,擁有放大自身價值的能力。
然而,知易行難。“知道”結構化提示詞的重要性,與“做到”在每次向AI提問時熟練運用,中間還存在一道不那么容易跨越的鴻溝。
坦誠地說,字節跳動當前版本PromptPilot遠非完美,也絕非終點。
請不要指望它能一鍵生成滿足所有精細化需求,同時還擁有絕佳效果的“神級”提示詞。
在面對較為復雜或創新需求的任務時,我們會清楚地感受到它提供的框架仍然有所局限。
同時別忘了,它也有一定的使用門檻,需要我們花時間去學習、去配置、去適應。
但與此同時,這也揭示了PromptPilot的核心價值:它并非“答案機”,而是“思維矯正器”。
在學習和使用PromptPilot的過程中,它強行打破了我們用大白話隨口一問的慣性。
它的結構化編輯器更像是一個“思維腳手架”,也許本身并不美觀,但能保證搭建出的建筑地基穩固、結構完整。
而它的存在,能夠幫助那些面對AI聊天框總是無從下手,或是因AI輸出質量不佳而苦惱的用戶,完整從0到1的初次躍遷。
它的目標用戶,并非那些隨手寫出上百字的復雜指令的提示詞工程師,而是每一個希望告別低效提問,著手建立系統化和結構化思維的“學生”。
最終,在熟練掌握思維模式后,我們可能不再使用PromptPilot,但已經具備了與AI高效對話的底層能力。
而這,正是AI時代真正的通行證。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.