Hassabis狂贊,谷歌爆改50年鼠標(biāo),指哪AI打哪,連提示詞都省了
Google DeepMind發(fā)布實(shí)驗(yàn)原型「AI-enabled pointer」,鍵盤(pán)、鼠標(biāo)、觸屏之后,下一代交互正在成形。
那個(gè)陪了你50年、從未改變過(guò)的鼠標(biāo)指針,要長(zhǎng)出大腦了。
自1970年代誕生以來(lái),鼠標(biāo)指針幾乎沒(méi)有進(jìn)化過(guò)。它出現(xiàn)在每一個(gè)網(wǎng)站、每一份文檔、每一套工作流程里,卻從未真正理解過(guò)你在做什么。
近日,Google DeepMind發(fā)布研究博客,展示由Gemini驅(qū)動(dòng)的實(shí)驗(yàn)性原型「AI-enabled pointer」,并在Google AI Studio開(kāi)放兩個(gè)實(shí)驗(yàn)Demo。

負(fù)責(zé)這個(gè)項(xiàng)目的研究員Adrien Baranes和Rob Marchant在官方博客里寫(xiě)道:「我們正在開(kāi)發(fā)更無(wú)縫、更直觀的與AI協(xié)作的方式?!?/p>

https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com
DeepMind CEO Demis Hassabis更是親自發(fā)帖,稱這次體驗(yàn)「相當(dāng)神奇」。

鼠標(biāo)的圖標(biāo)沒(méi)變,但箭頭背后的邏輯變了:不再只知道你指向哪里,而是開(kāi)始理解你想干什么。
目前,這個(gè)原型已經(jīng)可以在Google AI Studio中體驗(yàn),已開(kāi)放兩個(gè)Demo:編輯圖片(AI-Pointer: Create)和地圖找地點(diǎn)(AI-Pointer: Find)。

「AI-Pointer: Create」入口:https://aistudio.google.com/apps/bundled/ai-pointer-create
AI應(yīng)該來(lái)找你,而不是你去找AI
你每天浪費(fèi)多少時(shí)間在「解釋上下文」?
想一下這個(gè)你每天都在重復(fù)做的場(chǎng)景:
打開(kāi)ChatGPT或者Gemini等AI工具的對(duì)話窗口;切回你正在看的網(wǎng)頁(yè)或文檔,選中那段你想分析的內(nèi)容,復(fù)制;切回AI窗口,粘貼。再用一兩句話解釋你要什么。等待。拿到結(jié)果;再切回去執(zhí)行……
每一次「切窗口→復(fù)制→解釋→等待→切回來(lái)」,都是一次認(rèn)知中斷。
你在AI那里花的大量時(shí)間,其實(shí)并沒(méi)有用在真正的問(wèn)題上,而是用在了「告訴AI你在看什么」。
DeepMind對(duì)于這個(gè)問(wèn)題看得很準(zhǔn):
通常,AI工具住在自己的窗口里,用戶需要把自己的世界拖進(jìn)去。我們想要的恰恰相反:AI應(yīng)該來(lái)找你,而不是你去找AI。
這句話,點(diǎn)透了過(guò)去兩年AI交互模式最核心的結(jié)構(gòu)性缺陷。
不用提示詞
指著說(shuō)AI就懂
AI-enabled pointer要解決的,正是這類摩擦。Adrien認(rèn)為這個(gè)項(xiàng)目的核心命題只有一個(gè):
如何構(gòu)建一個(gè)能真正理解流動(dòng)用戶意圖的系統(tǒng)。
這背后有四個(gè)設(shè)計(jì)原則,是這套系統(tǒng)的骨架,共同回答一個(gè)問(wèn)題:怎么讓AI讀懂你的意圖,而不需要你花力氣解釋。
第一個(gè)原則叫「Maintain the flow」,保持流暢。
按DeepMind的設(shè)計(jì)目標(biāo),AI能力不應(yīng)把用戶帶離當(dāng)前應(yīng)用,而應(yīng)盡可能出現(xiàn)在用戶正在工作的上下文中。指著一份PDF說(shuō)「給我一個(gè)摘要,直接可以粘進(jìn)郵件的那種」,AI完成,你繼續(xù)。
第二個(gè)原則叫「Show and tell」,指給它看?,F(xiàn)在用AI,你需要寫(xiě)一段詳細(xì)的提示詞,描述你要處理的內(nèi)容是什么、長(zhǎng)什么樣、上下文是什么。
AI-enabled pointer把這一步省掉了。光標(biāo)懸停在哪里,Gemini就捕獲那里的視覺(jué)信息和語(yǔ)義上下文。你不需要描述你看到的東西,因?yàn)锳I已經(jīng)看到了。
第三個(gè)原則,是DeepMind最喜歡強(qiáng)調(diào)的一個(gè):「Embrace the power of This and That」,擁抱「這個(gè)」和「那個(gè)」的力量。
想想人和人之間怎么協(xié)作。你不會(huì)跟同事說(shuō)「請(qǐng)將第三行第二列的數(shù)值乘以二并更新到對(duì)應(yīng)的匯總表格里」。你會(huì)說(shuō)「這個(gè)數(shù)字,改成兩倍,更新到那里」,然后用手指一指。
AI-enabled pointer要讓人機(jī)協(xié)作變得像人與人協(xié)作一樣自然。技術(shù)實(shí)現(xiàn)上,可以理解為,系統(tǒng)不再只解析語(yǔ)音里的文字,而是把「this」「that」「here」「there」這類指代詞,與光標(biāo)或手勢(shì)所指向的視覺(jué)和語(yǔ)義上下文關(guān)聯(lián)起來(lái)。
所以,當(dāng)用戶說(shuō)「把這個(gè)便簽改成橙色」時(shí),「這個(gè)」不再只是一個(gè)模糊代詞,而會(huì)被系統(tǒng)結(jié)合當(dāng)前指向的位置、對(duì)象和上下文來(lái)理解。Gemini拿到的也不只是字面上的一句話,而是由語(yǔ)音、指向和屏幕內(nèi)容共同構(gòu)成的意圖。
提示詞的本質(zhì)一直都不是文字,而是意圖。現(xiàn)在,意圖終于可以用最短的方式傳達(dá)了。
更有意思的是,「指向」并非只有鼠標(biāo)一種方式。演示里,Adrien用的是頭部追蹤:頭轉(zhuǎn)向哪里,AI注意力就跟到哪里。語(yǔ)音、文字、圖像理解,全部同時(shí)在線。
第四個(gè)原則最有技術(shù)含量:「Turn pixels into actionable entities」,讓像素變成可操作的實(shí)體。
過(guò)去50年,光標(biāo)只知道你指的是哪里,卻看不懂你指的是什么,AI-enabled pointer要改變這件事。
你懸停的那張圖里有一棟建筑,AI識(shí)別出「這是一個(gè)地點(diǎn)」,于是「給我導(dǎo)航」成了一個(gè)可以直接觸發(fā)的操作;
你拍下一張手寫(xiě)便條,AI看懂了上面的字,便條自動(dòng)變成了一份可編輯的待辦清單;
你在旅游視頻里暫停了一幀,畫(huà)面里那家看起來(lái)不錯(cuò)的餐廳,直接可以彈出訂位鏈接。
演示里還有一個(gè)細(xì)節(jié)讓人印象很深:Adrien指著一份餐廳菜單,再指著另一張風(fēng)格參考圖,說(shuō)「用這張圖的風(fēng)格,幫我把這份菜單畫(huà)出來(lái)」。
Gemini同時(shí)讀懂了菜單的內(nèi)容和參考圖的視覺(jué)風(fēng)格,生成了一張融合兩者的新圖。這不是兩步操作,是一句話、兩個(gè)手勢(shì),完成的事。
像素第一次有了語(yǔ)義。
從概念到落地
DeepMind并沒(méi)有停在概念層面。
Google表示,相關(guān)交互原則已開(kāi)始進(jìn)入產(chǎn)品:在Chrome中,用戶可以用指針指向/選擇網(wǎng)頁(yè)中的內(nèi)容,并向Gemini提問(wèn)。
Googlebook上的Magic Pointer已被Google列為即將推出的系統(tǒng)級(jí)能力,首批Googlebook設(shè)備計(jì)劃于今年秋季上市。
當(dāng)然,從演示到日常可用,還有一段路要走。
識(shí)別準(zhǔn)確率、跨應(yīng)用兼容性、響應(yīng)速度,都需要在真實(shí)的復(fù)雜桌面環(huán)境里經(jīng)歷打磨。
還有一個(gè)問(wèn)題值得認(rèn)真對(duì)待:AI-enabled pointer需要持續(xù)理解你的屏幕內(nèi)容,數(shù)據(jù)如何采集、如何存儲(chǔ)、流向哪里,DeepMind目前尚未詳細(xì)說(shuō)明。
這些并非障礙,而是一項(xiàng)新交互范式從實(shí)驗(yàn)室走向大眾必須經(jīng)歷的過(guò)程。
每一項(xiàng)改變交互方式的技術(shù),都經(jīng)歷過(guò)這個(gè)階段。觸屏手機(jī)在第一代iPhone發(fā)布時(shí),也沒(méi)有人敢保證它能取代鍵盤(pán)。
鍵盤(pán)1973,鼠標(biāo)1984,觸屏2007
下一代交互在2026
把這只指針?lè)呕?0年人機(jī)交互史的時(shí)間線上,它的意義會(huì)變得很清楚。
1973年,Xerox Alto把圖形界面、位圖顯示和鼠標(biāo)等現(xiàn)代桌面交互雛形帶入實(shí)驗(yàn)系統(tǒng)。
1984年,Macintosh讓鼠標(biāo)與圖形界面進(jìn)入大眾視野,人開(kāi)始用「指」圖標(biāo)完成操作。
2007年,iPhone讓手指直接成為主要輸入方式,觸屏成為移動(dòng)計(jì)算的核心交互。
每一次躍遷,背后都是同一件事:機(jī)器學(xué)會(huì)了更多,人需要學(xué)的就變少了。
2022年之后的提示詞框是另一條線。
人把意圖翻譯成自然語(yǔ)言,遞給一個(gè)對(duì)話框,再等機(jī)器返回答案。表達(dá)帶寬變寬了,但表達(dá)環(huán)節(jié)本身沒(méi)消失。你還是要打字、描述。
2026年這只指針,試圖壓縮的是「解釋上下文」這一步,而不是完全消滅表達(dá)本身。
2026年這只指針,試圖壓縮的是「解釋上下文」這一步。
手勢(shì)+語(yǔ)音+語(yǔ)義理解同時(shí)到位,意圖的傳達(dá)方式從「精確描述」變成了「自然指向」:人還是要表達(dá),只是再也不用費(fèi)力解釋「我在看什么」了。

前四代交互都是「人主動(dòng)表達(dá)」。這一代第一次是「機(jī)器主動(dòng)理解」。手勢(shì)+語(yǔ)音+語(yǔ)義理解同時(shí)到位,意圖的傳達(dá)方式從「精確描述」變成了「自然指向」。提示詞工程在這個(gè)范式中幾乎不再存在。
Adrien在視頻結(jié)尾描述了他想象中的未來(lái):
一種新型操作系統(tǒng)。AI主動(dòng)呈現(xiàn)我可能感興趣的內(nèi)容,我用指向回應(yīng)它,我們共享注意力,共享畫(huà)布,就像和另一個(gè)人一起工作。
AI交互的終點(diǎn),并非一個(gè)更聰明的搜索框,而是一個(gè)真正能和你協(xié)作的伙伴。
最好用的工具,往往是你忘記它存在的那種。
鼠標(biāo)陪了人類50年。下一個(gè)50年,它或許會(huì)真正開(kāi)始理解你。
本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com






