網易首頁 > 網易號 > 正文申請入駐

GenAI能完成您的下一個戰略任務嗎？暫時還不行

2025-04-16 08:04:16　來源: 慎思行

上海舉報

分享至

文章來源丨Christoph Lechner, Nikolaus Lang, Siegfried Handschuh, Olivier Bouffault, and Julian Cooper，慎思行采編翻譯

個人微信丨hello_SSX

GenAI真的能解決戰略管理任務嗎？

生成式人工智能（GenAI）是一種基于語言基礎模型的人工智能技術，可以生成新的內容和創意，包括對話、故事、圖像、視頻和音樂。但對于公司高管和投資者所需的戰略管理任務，其應用前景尚不明朗。本文重點探討這些模型獨立完成戰略管理任務的能力，以期在未來實現自動化。

戰略管理難以自動化的原因何在？

根據 Müller-Stewens和Lechner的定義，戰略管理是實現公司戰略以達成關鍵利益相關者既定目標的過程。它不同于設計、采購、生產、物流、營銷和銷售等單一職能。現代戰略管理典型任務包括市場研究、情景規劃、企業戰略制訂、并購決策、商業模式設計及重組轉型等。

戰略管理任務的自動化復雜性任務，在不同程度上需要三個核心要素：(a) 多步驟和多層次推理；(b) 情境依賴性；(c) 人類行為因素。即使是面對OpenAI 的 GPT、Anthropic 的 Claude、Meta 的 Llama、Google 的 Gemini 或 Mistral 的 Mixtral of Experts等尖端 GenAI 模型，也仍然面臨這些挑戰。下文將解析實踐者應對每個維度的技術方案。

1. 多步驟和多層次推理

多步驟和多層次推理通常采用分步提示策略。具體要求包括：要求大語言模型（LLMs） "逐步展示推理邏輯"，在提示中列出步驟清單，以及將各步驟拆分為獨立提示序列。雖然理論上可以通過自動化實現多提示任務分解，但中間步驟如果出現計算錯誤，仍需人工介入校正性能。分步提示策略存在天然局限：單個提示方法受到上下文窗口和輸出窗口大小的限制，而過多提示分割則容易導致LLMs 遺忘先前步驟的上下文數據。

2. 情境依賴性

戰略管理應用需要GenAI 模型訪問額外的（通常是敏感的）情境數據。例如，在評估并購交易是否具有吸引力時，需要調用公司的內部財務數據和戰略備忘錄。為此，業界通常采用檢索增強生成（RAG）架構。該技術在生成過程中添加信息檢索組件，使 LLM 能夠查詢任意規模的外部數據源，并將檢索結果整合至用戶提示的上下文窗口（見圖 1）。該方案對戰略管理非常重要，它允許GenAI 模型訪問敏感的公司數據庫（無需微調），降低 "幻覺 "概率，甚至支持溯源響應數據來源。典型案例是博世與 Aleph Alpha 合作開發的 BoschGPT 。

3. 人類行為因素

了解和預測可能的人類行為（團隊內部動態、客戶期望、文化背景等）在許多戰略管理分支學科中都發揮著重要作用。例如，企業的定價策略可能基于對消費者支付意愿的預期，但同時也要考慮市場上的競爭對手將如何對自己的定價策略做出回應，最后還要考慮消費者在做出二次決策時的權衡過程。雖然可以向模型提供預設假設作為指導，但真正的自動化需要 LLM 基于原始歷史定價數據，提供自主假設。當前訓練這些人類行為直覺的最佳方法是提供案例研究作為情境提示（即多樣本實驗），或根據任務特定數據進行微調，并由人類專家標注相關的缺失行為要素，但均非完美解決方案。

4. 以模型性能為基準

作為簡要補充，了解 GenAI 社區如何評估和衡量這些難以自動化的能力表現非常有用。雖然映射關系不是一一對應，但也相差不遠。

對于綜合知識和推理能力，每個領先的 LLM 都會定期公布其 ARC、HellaSwag 和 MMLU 分數。ARC 指的是 AI2 推理挑戰賽，這是一個由小學選擇題組成的數據集。HellaSwag是一個常識推理和邏輯問題數據集。而MMLU指的是多任務語言理解（Multi-task Language Understanding）側重于研究生級別學術課題的數據集，更強調知識理解和檢索。為了評估模型通過 RAG 架構整合語境的能力，我們的最佳實踐指標與分類機器學習中的混淆矩陣類似，后者更依賴于具體語境，而不是一門精確的科學。我們既要評估 LLM 回答提示問題的質量（"生成"），也要考慮檢索到的內容與該答案的相關程度（"檢索"）。

對于生成，我們衡量的是答案的事實準確性及其與問題的相關性。而對于檢索，衡量的則是信噪比（上下文精確度）以及檢索到內容是否足以回答問題（上下文召回率）。

對于社會推理，當前的基準數據庫如SocialIQA被用來測試模型能否預測故事后續發展或解釋行為動機。

三個實驗的設計和研究發現

我們關注這些模型在實際戰略管理任務中的表現，這些任務需要綜合多項能力。為了測試這一點，我們設計了三個實驗來反映復雜程度和價值遞增的戰略管理任務：（1）編制市場調研檔案；（2）評估商業戰略；（3）執行買方盡職調查所需的分析。這些實驗任務代表了戰略和投資團隊日常工作的核心內容。

實驗 1：編制市場調研檔案

設計：要求 ChatGPT-4 執行波士頓咨詢公司（BCG）內部團隊就印度農用化學品市場編寫的實際卷宗中提供的三項具體分析：（1）按地區總結全球農用化學品的定性洞察；（2）將 2018-2023 年的全球農用化學品市場規模繪制成按地區劃分的堆疊條形圖；（3）深入研究印度市場，并分享一些關于市場吸引力和競爭格局的分析。我們在輸入上下文中附加了-BCG 團隊使用的核心資料《全球農用化學品市場報告》。

研究發現：首先，僅憑ChatGPT-4 輸出即可合理推導出BCG 編寫的執行摘要關鍵復合年增長率（CAGR）數值完全一致。其次，該模型能夠解析和檢索 200 頁行業報告中的文本、圖表和數據表。第三，單次提示即可生成多個細節層面的分析結果。

結論：實驗 1 表明，LLM 已經能夠在戰略管理的背景下，通過有限的數據收集和推理，自動完成大規模的綜合任務。未來的研究可探索結合RAG 架構的性能擴展，例如，賦予模型訪問行業報告數據庫的權限。如果檢索器設計精良，是否可以有效地移除人工干預（即無需提供相關源材料）。

實驗 2：通過咨詢案例訪談解決決策問題

設計：咨詢案例訪談通常分為四個部分：（1）向候選人提供案例背景，并詢問解題思路；（2）反復交談，定位核心問題；（3）分享數據資料，要求候選人計算并提供定量洞察；（4）準備向客戶高管匯報的結論。我們要求 ChatGPT-4 扮演候選人，參與BCG已存檔的某超市冷凍食品面試案例，并根據人類申請者的評分標準（如邏輯性、假設驅動性）逐項評估回答。

研究結果：第（1）部分，ChatGPT-4 能夠構建近似于 MECE（互斥窮盡）的框架，但假設驅動性不足（未聚焦案例要求的盈利能力，未討論收入與成本關系），因此未達到及格分數。第（2）部分，面試官建議對定價進行調查。該模型迅速提供了一份簡明扼要的驅動因素清單，但缺乏與案例本身的直觀聯系，也未像優秀應聘者那樣提出下一步建議以得出結論。第（3）、第（4）部分，模型的表現一般處于及格水平。我們提供了兩組數據，每組數據都能得出正確的數學結果和基本的”結論（例如，冷凍披薩下降了 50%，這是價格問題，而不是成本或數量問題），很可能與優秀候選人的表現相當。此結果超出預期，因為該模型此前對定性問題的回答未能展現相關能力。

局限性：盡管從情境的角度來看，該模型的整體表現相當不錯，但它完全忽略了頂尖候選人所應具備的一些行為特質。例如，主動提出假設驅動的后續步驟以主導面試進程，展現求知欲與探索性思維、，即使通過預熱提示提供引導，，此類行為仍無法實現。

結論：實驗 2 的結果表明， LLMs 在有人類參與的情況下執行情景規劃任務的潛力。雖然在提出解決抽象戰略問題的方法方面還不夠完善，但如果在人類的指導下完成第一步，這些模型可以高效支持后續分析，從而快速驗證假設并找到解決方案。這些結果與過往問題解決任務研究的結論一致。

實驗3：買方盡職調查的財務建模實驗

設計：為測試當前GenAI 模型能夠在多大程度上處理并購盡職調查的復雜性和量化嚴謹性，我們使用了斯坦福大學商學院金融建模課程的案例研究——關于Stride Rite 于 2005 年收購 Saucony 的交易。我們要求 ChatGPT-4執行課程作業要求的一系列分析：（1）建立股權結構表；（2）合并利潤表和資產負債表；（3）計算貼現現金流（DCF）；（4）推薦 Stride Rite 公司應提供的每股收購價。

研究結果：與之前的測試不同，本次實驗突出了 ChatGPT-4 的局限性，而非優勢。盡管如此，還是有一些值得一提的亮點。首先，該模型能高效解析案例研究文件（一份 pdf 文件，一份 excel 文件）并組織信息以回答特定問題，例如 "提取買賣雙方普通股和完全稀釋股數"或甚至 "構建雙方股權結構表"。其次，模型具有一定的自我診斷能力。例如，當模型計算出合并協同效應收益為負值時，它在輸出中主動警告“該結果需合理性驗證”。

局限性：我們的發現可分為兩類：一是多步驟量化推理缺陷。我們要求模型完成兩項需要多步驟量化推理的任務：合并利潤表和計算貼現現金流。在這兩種情況下，即便拆解步驟粒度（單次提示 vs 多次提示）或人工引導，仍無法得出正確財務模型結果。

二是結果穩定性問題，盡管我們知道這些模型是隨機的，預計到不同環節的結果會有一些差異，但在提示和上下文數據完全相同的情況下，輸出結果差異顯著。例如，在實驗接近尾聲時，我們要求模型提供 Stride Rite 應向 Saucony 提供的每股建議價格。最初的回答是 28 美元/股，這不正確但與正確答案 35 美元/股比較接近。然而，當提示 "你能再試一次嗎？"時，模型計算出的價格為 96 美元/股。

在本實驗中，我們發現多步驟推理的一個主要限制因素是遺忘。雖然當我們將指令分解成各個步驟時，這些多步驟任務的成績普遍有所提高，但很快達到極限，即模型進行正確的中間計算所需的粒度水平依賴大量的提示。

結論：實驗 3 的結果表明，當今的 LLM 在處理涉及多個推理步驟的真正復雜任務方面存在明顯的局限性——若一次性輸入過多步驟，模型將無法處理；若如果過于分解步驟，模型會遺忘前期上下文。可通過工程化方案（如上下文編碼與動態回傳）部分緩解，但本質能力仍需模型迭代提升風險和挑戰。戰略管理決策往往會對公司發展產生重大影響。因此需深入理解當前 GenAI 應用的潛力和缺陷。

Gen AI應用的潛力和缺陷

戰略管理決策往往會對公司發展產生重大影響。因此需深入理解當前 GenAI 應用的潛力和缺陷。

1. 固有偏見實驗

GenAI 模型帶有與預訓練期間使用的數據集和自然語言任務相關的固有偏見。這些偏見可能因上下文窗口、檢索增強和微調的選擇而加劇或部分緩解。雖然這仍然屬于研究前沿，但已有基準數據集可以幫助從業人員（和 LLM 核心平臺開發人員）評估性能進展，例如詞嵌入關聯測試（WEAT）、刻板印象測試集（StereoSet）和公平人臉識別基準（FairFace）（Schroder，2022 年）。這僅僅是個開始，建議優先選擇在偏差基準以及推理、上下文檢索等更成熟指標上表現出色的 GenAI 技術來提供幫助。

2. 人機協同的必要性

雖然當今的 GenAI 模型在人機協同下表現驚艷，但反事實是：案例訪談和盡職調查實驗都不可能通過純粹的自動化實現，這具有兩面性。積極面是，該技術將增強而非替代戰略管理細分領域；但從規模的角度來看，這又是一種限制：在特定任務中，人機協同大幅限制了這些技術的潛在效益。例如，如果盡調分析能夠真正實現自動化，企業將能持續評估所有并購機會，而不是依賴人工篩選目標清單。

3. 結論與展望

本研究得出兩大核心結論。

首先，當今的 LLM 已經能夠自動完成大規模的綜合任務（如市場調研），并能進行一些有限的數據匯總和推理，但需人機協同處理多步驟任務或人類行為理解（如戰略情景規劃）。

其次，假設驅動性復雜多步驟推理仍無法實現（如買方盡職調查），即使有人工參與，也不足以引導現成的 LLM 得出正確的結果。

對于今天的領導團隊而言，問題仍然聚焦兩個方面：(a) 通過設計專用系統（例如獨立微調量化模塊、定制數據庫的RAG檢索）能否提升性能，(b) 這些 LLM 的下一版本（例如，OpenAI 的 GPT-5、Meta 的 Llama-3）將如何自然提升多步推理與穩定性。

通過深化此類實驗，可以初步驗證專用系統的價值。在市場調研方面，通過 RAG 架構賦予模型訪問行業報告數據庫的權限，并嘗試移除人工提供原始材料的環節。對于案例面試（以及一般的商業情景規劃用例），我們可以重新實驗，并對模型進行深度微調，以幫助其 "習得"頂尖候選人的行為模式。最后，在盡職調查方面，探索針對不同環節的定制 GPT（如合并利潤表），并采用基于嵌入向量的搜索算法降低上下文數據的內存負擔。

LLM 和生成式人工智能在商業領域有著巨大的價值，當前應用只是冰山一角，這些技術將成為更多商業轉型的基礎。在未來數月和數年內轉型將聚焦于基礎智能任務和流程的自動化上，即涉及信息檢索、數據綜合以及有限的規劃推理的任務，此類流程耗時有望減少 90% 以上，數以千計的流程將實現效率躍升。在我們的實驗中，市場調研檔案就是一個典型的例子。

高級智力任務（需多步驟量化推理、長短期記憶以及對人類行為的深刻理解）也將在 GenAI 中發揮作用。但正如實驗（2）、（3）所示，要在這些領域取得成效，仍需要在 LLM 技術突破與系統工程化部署。商業問題的核心問題將變成：應該在什么時候開始認真投資？一個簡單的比喻是：應該等待更聰明的學生（新一代LLM）出現，還是投資構建現有模型上的復雜系統？后者短期風險小，但靈活性差，前者適配未來戰略但需技術成熟周期。

對我們來說，這又回到了一個關于人工智能應用優先級的總體框架，它可以歸結為對兩個核心問題的權衡。首先，應用人工智能的流程能創造多少商業價值？其次，在獲取相關數據方面，是否擁有可防御性的優勢？隨著LLM的成熟和性能的提高，專用系統或微調投資的需求將越來越少，使得必要投資遞減。與此同時，若當前已經擁有大量任意格式的文本化相關數據，那么 LLM 可成為挖掘此類數據價值的工具，從而放大投資回報。因此，擁有數百筆交易數據（擁有可防御性獲取渠道）的大型投資基金或將很快投資這種先進系統，而普通企業并購部門則會理性地等待底層人工智能技術的進一步成熟。

編輯 | Jiaru

進一步交流

進入專業社群展開深度討論

慎思行通過微信等平臺覆蓋超過10萬戰略人、咨詢人等各類專業人士。我們也構建了專業社群，推動戰略與咨詢領域的問題討論、信息交流和機會分享，社群已有超過5年歷史，并成為了頂尖專業人士感知市場前沿，獲得實踐經驗的首要選擇。入群請添加慎思君微信，并提供名片。

現在微信公眾號更改規則，如果你不特地點進來，很可能看不到我們的推送了。希望喜歡【慎思行】的讀者朋友們將本號【設為星標★】，方便找到我們；也歡迎點擊右下角的【在看】。

＞為什么說智能體是生成式AI的下一個前沿領域？

＞人工智能將如何改變企業戰略？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.