![]()
傳統的計算機界面,每一個按鈕、菜單和窗口都由開發者精心編碼、預先定義。但如果一個界面可以實時生成,根據用戶的每一次交互動態調整,會是怎樣一種體驗?
谷歌開發者博客最新發文,展示了一項顛覆性的研究原型:一個由大模型驅動的“神經操作系統”(neural operating system)。
在這個系統中,每個屏幕都由大語言模型即時生成。用戶不再是與一個靜態文件系統交互,而是在一個由模型根據每次點擊實時構建和重構的環境中操作
該原型背后的核心模型是Gemini 2.5 Flash-Lite,其極低的延遲對于創造“瞬間響應”的交互體驗至關重要
以下是該原型背后的核心技術理念
兩大法寶,讓模型聽懂UI生成指令
為了實現UI的即時生成,首先需要為模型提供清晰的結構和上下文。谷歌的方案是將模型輸入分為兩部分:“UI章程” (UI constitution) 和“UI交互” (UI interaction)。
UI章程:這是一段系統提示(system prompt),包含一套固定的UI生成規則。這些規則定義了操作系統級的風格、主屏幕格式以及地圖等嵌入式元素的處理邏輯,確保了界面風格的一致性。
UI交互:這是一個JSON對象,用于捕捉用戶的最新動作,例如鼠標點擊某個圖標。這個對象是觸發模型生成下一個屏幕的具體查詢。
例如,當用戶在記事本應用中點擊“保存筆記”圖標時,系統可能會生成如下的JSON對象:
{ // `id`: 來自按鈕 `data-interaction-id` 屬性的唯一ID "id": "save_note_action", // `value`: 被點擊元素包含的文本內容 "value": "Meeting notes\n- Discuss Q3 roadmap\n- Finalize budget", // `elementType`: 被點擊元素的HTML標簽 "elementType": "button", // `elementText`: 按鈕內部的可見文本 "elementText": "Save Note", // `appContext`: 用戶當前所在應用的ID // 該信息來自 App.tsx 中的 `activeApp` 狀態 "appContext": "notepad_app" }這種“章程+交互”的兩部分方法,使得模型能夠在生成新穎界面的同時,保持整體外觀和感覺的一致性
引入交互追蹤,賦予UI上下文感知能力
單次交互提供的上下文是有限的,但一系列連續的交互能講述一個更完整的故事。
該原型可以利用過去N次交互的追蹤記錄,來生成與上下文更相關的屏幕。
舉個例子,計算器應用生成的內容,會因為用戶之前是訪問了購物車還是旅游預訂應用而有所不同。通過調整交互追蹤的長度(N值),可以在上下文準確性和UI多樣性之間進行權衡。
流式生成,實現幾乎瞬間的響應體驗
為了讓系統感覺“快”,不能等到模型生成整個UI屏幕之后再進行渲染。
該原型利用了模型流式輸出(streaming)和瀏覽器的原生解析能力,實現了漸進式渲染。模型以數據塊(chunks)的形式生成HTML代碼,系統會持續將這些代碼塊附加到組件的狀態中。接著,React會重新渲染內容,使瀏覽器能在接收到有效HTML元素后立即顯示它們。
對于用戶來說,這種體驗就像是界面在屏幕上幾乎瞬間浮現出來。
用生成式UI圖譜,解決無狀態難題
默認情況下,模型每次都從頭開始生成新屏幕。這意味著兩次訪問同一個文件夾,可能會看到完全不同的內容。這種非確定性的無狀態體驗,與我們習慣的靜態圖形界面(GUI)相去甚遠
為了解決這個問題,該原型系統提供了一個選項:構建一個會話專屬的內存緩存,即“生成式UI圖譜”(generative UI graph)。
當用戶導航到一個已經生成過的屏幕時,系統會直接從圖譜中調取緩存版本,而無需再次查詢Gemini。當用戶請求一個緩存中不存在的新屏幕時,模型會生成它,并將其增量添加到UI圖譜中。
這種方法在不犧牲生成內容質量的前提下提供了狀態(statefulness),避免了單純通過降低模型采樣溫度可能帶來的副作用。
盡管這只是一個概念原型,但其底層框架可以應用于更實際的場景。
系統可以觀察用戶的交互模式,并生成一個臨時的UI面板來加速任務。例如,當用戶在多個網站間比較航班時,系統可以即時彈出一個浮動窗口,上面有動態生成的按鈕,用于直接比價或預訂,省去用戶多個步驟
開發者可以在他們的應用中添加一個生成模式開關。例如,在谷歌日歷中,用戶可以激活此模式來查看即時生成的UI。當移動一個日歷事件時,系統可能會生成一個臨時的、更智能的界面來幫助解決日程沖突
谷歌表示,隨著模型變得越來越快、能力越來越強,這種生成式界面代表了人機交互領域一個充滿希望的未來研究方向
參考:
https://developers.googleblog.com/en/simulating-a-neural-operating-system-with-gemini-2-5-flash-lite/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.