欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

哈薩比斯盛贊!谷歌革新誕生半世紀(jì)的鼠標(biāo),AI直接懂意圖,徹底告別提示詞輸入

05-16 06:27

陪伴我們走過(guò)半個(gè)世紀(jì),幾乎從未迭代過(guò)的鼠標(biāo)指針,即將獲得AI賦予的“大腦”了。


自從上世紀(jì)70年代鼠標(biāo)誕生以來(lái),指針的形態(tài)和功能始終沒有發(fā)生本質(zhì)變化:它出現(xiàn)在每一個(gè)網(wǎng)頁(yè)、每一份文檔、每一套工作流里,卻從來(lái)沒辦法理解用戶真正想做的事。


近日,谷歌DeepMind發(fā)布研究博客,推出了由Gemini大模型驅(qū)動(dòng)的實(shí)驗(yàn)原型「AI賦能指針」,并且已經(jīng)在Google AI Studio開放了兩個(gè)體驗(yàn)Demo。



項(xiàng)目研究員Adrien Baranes和Rob Marchant在官方博客中表示:我們正在研發(fā)更流暢、更自然的人機(jī)AI協(xié)作方式。



項(xiàng)目鏈接:https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com


DeepMind首席執(zhí)行官Demis Hassabis親自為項(xiàng)目站臺(tái),稱這個(gè)交互體驗(yàn)“相當(dāng)神奇”。



這一次,鼠標(biāo)箭頭的外觀沒變,但核心邏輯徹底改變了:它不再只是標(biāo)記你指向的位置,還能讀懂你真實(shí)的意圖。


目前這個(gè)原型已經(jīng)可以在Google AI Studio體驗(yàn),一共開放了兩個(gè)Demo:AI圖片創(chuàng)作(AI-Pointer: Create)和地圖位置搜索(AI-Pointer: Find)。



「AI-Pointer: Create」體驗(yàn)入口:https://aistudio.google.com/apps/bundled/ai-pointer-create


AI該主動(dòng)貼近用戶,而非讓用戶遷就AI


你每天到底浪費(fèi)了多少時(shí)間給AI“說(shuō)明上下文”?


你肯定每天都在重復(fù)這樣的操作流程:


先打開ChatGPT或者Gemini這類AI工具的對(duì)話窗口,再切回正在瀏覽的網(wǎng)頁(yè)或編輯的文檔,選中需要處理的內(nèi)容點(diǎn)擊復(fù)制,再切回AI窗口粘貼,還要額外打一兩句話說(shuō)明需求,等待AI生成結(jié)果,最后再切回原窗口繼續(xù)操作……


每一次反復(fù)切窗口、復(fù)制粘貼、解釋需求,都會(huì)打斷原本的工作思路,造成認(rèn)知中斷。


我們花在AI上的大部分時(shí)間,其實(shí)都沒有用來(lái)解決真正的問題,都耗在了“告訴AI你到底在看什么、想要什么”這件事上。


DeepMind精準(zhǔn)點(diǎn)出了當(dāng)前AI交互的核心痛點(diǎn):


現(xiàn)在的AI工具大多獨(dú)立在單獨(dú)窗口運(yùn)行,需要用戶把自己的內(nèi)容挪給AI處理;而我們想要的恰恰相反,應(yīng)該讓AI主動(dòng)融入用戶當(dāng)前的工作場(chǎng)景。


這句話直接戳破了近兩年AI交互模式最核心的結(jié)構(gòu)性問題。


徹底告別提示詞


指哪里,AI就懂哪里


AI賦能指針要解決的,正是這種不必要的交互摩擦。項(xiàng)目負(fù)責(zé)人Adrien認(rèn)為,這個(gè)項(xiàng)目的核心目標(biāo)只有一個(gè):打造一套能真正讀懂用戶流動(dòng)意圖的系統(tǒng)。


這套系統(tǒng)背后有四大設(shè)計(jì)原則,共同回答一個(gè)問題:如何讓AI讀懂用戶的意圖,不需要用戶額外費(fèi)力解釋?


第一個(gè)原則是「Maintain the flow」,也就是保持工作流暢性。


按照DeepMind的設(shè)計(jì)目標(biāo),AI能力不應(yīng)該把用戶帶離當(dāng)前正在使用的應(yīng)用,而是直接在當(dāng)前工作上下文里完成操作:指著PDF文檔說(shuō)“幫我生成一段可以直接粘貼到郵件里的摘要”,AI生成完成后你就可以直接繼續(xù)原來(lái)的工作,不需要來(lái)回切換。


第二個(gè)原則是「Show and tell」,指給AI看就夠了?,F(xiàn)在使用AI,你需要寫大段詳細(xì)的提示詞,描述你要處理的內(nèi)容、特征、上下文背景,而AI賦能指針直接把這一步省掉了。光標(biāo)停在哪里,Gemini就會(huì)自動(dòng)捕獲那里的視覺信息和語(yǔ)義上下文,你不需要描述你看到的內(nèi)容,因?yàn)锳I已經(jīng)和你看到一模一樣的內(nèi)容了。


第三個(gè)原則,也是DeepMind重點(diǎn)強(qiáng)調(diào)的「Embrace the power of This and That」,擁抱“這個(gè)”“那個(gè)”這類指代詞的力量。


想想人和人日常是怎么協(xié)作的:你不會(huì)跟同事說(shuō)“請(qǐng)把第三行第二列的數(shù)值乘以二,更新到對(duì)應(yīng)的匯總表格里”,你只會(huì)說(shuō)“把這個(gè)數(shù)字改成兩倍,更新到那里”,然后用手指一下就行了。


AI賦能指針就是要讓人和AI的協(xié)作,變得像人和人協(xié)作一樣自然。從技術(shù)實(shí)現(xiàn)來(lái)看,這套系統(tǒng)不會(huì)只解析語(yǔ)音里的文字內(nèi)容,而是會(huì)把“這個(gè)”“那個(gè)”“這里”“那里”這類指代詞,和光標(biāo)或手勢(shì)指向的位置對(duì)應(yīng)的視覺、語(yǔ)義信息關(guān)聯(lián)起來(lái)。


所以當(dāng)用戶說(shuō)“把這個(gè)便簽改成橙色”的時(shí)候,“這個(gè)”不再是模糊的代詞,系統(tǒng)會(huì)結(jié)合你當(dāng)前指向的位置、對(duì)象和上下文準(zhǔn)確理解,Gemini接收到的也不只是字面上的一句話,而是語(yǔ)音、指向位置和屏幕內(nèi)容共同確定的清晰意圖。


提示詞的本質(zhì)從來(lái)都不是文字,而是傳遞意圖;現(xiàn)在,意圖終于可以用最簡(jiǎn)單直接的方式傳遞了。


更靈活的是,“指向”并不只局限于鼠標(biāo):官方演示里,Adrien還用到了頭部追蹤,頭轉(zhuǎn)向哪里,AI的注意力就跟到哪里,語(yǔ)音、文字、圖像理解全程同步響應(yīng)。


第四個(gè)原則技術(shù)含量最高:「Turn pixels into actionable entities」,把屏幕像素轉(zhuǎn)化成可操作的實(shí)體對(duì)象。


過(guò)去50年,光標(biāo)只能知道你指的是哪個(gè)位置,卻看不懂你指的到底是什么東西;AI賦能指針就是要改變這個(gè)現(xiàn)狀。


你懸停的圖片里有一棟建筑,AI會(huì)識(shí)別出“這是一個(gè)地理位置”,直接就能觸發(fā)導(dǎo)航操作;


你拍了一張手寫便條,AI識(shí)別出上面的文字,就能直接把便條內(nèi)容轉(zhuǎn)換成可編輯的待辦清單;


你在旅游視頻里暫停了一幀,畫面里那家看起來(lái)不錯(cuò)的餐廳,直接就能彈出訂位鏈接。


官方演示里還有一個(gè)讓人印象深刻的細(xì)節(jié):Adrien先指著一份餐廳菜單,再指著一張風(fēng)格參考圖,說(shuō)“用這張圖的風(fēng)格,幫我重新畫這份菜單”。


Gemini同時(shí)讀懂了菜單內(nèi)容和參考圖的視覺風(fēng)格,直接生成了一張融合兩者的新圖片,不需要分兩次操作,只用一句話、兩個(gè)指向動(dòng)作就完成了任務(wù)。


這一次,屏幕像素第一次被賦予了明確的語(yǔ)義。


已經(jīng)開始落地產(chǎn)品


DeepMind并沒有把這個(gè)項(xiàng)目停留在概念階段。


谷歌表示,這套交互原則已經(jīng)開始逐步落地到現(xiàn)有產(chǎn)品:在Chrome瀏覽器中,用戶已經(jīng)可以用指針指向或選中網(wǎng)頁(yè)內(nèi)容,直接向Gemini提問。


谷歌筆記本的Magic Pointer已經(jīng)被谷歌列為即將推出的系統(tǒng)級(jí)功能,首批搭載該功能的谷歌筆記本計(jì)劃在今年秋季正式上市。


當(dāng)然,從實(shí)驗(yàn)室演示到日??捎?,還有一段路要走。


識(shí)別準(zhǔn)確率、跨應(yīng)用兼容性、響應(yīng)速度,都需要在真實(shí)復(fù)雜的桌面環(huán)境里不斷打磨優(yōu)化。


還有一個(gè)問題值得關(guān)注:AI賦能指針需要持續(xù)理解用戶屏幕上的內(nèi)容,這些數(shù)據(jù)如何采集、如何存儲(chǔ)、會(huì)流向哪里,DeepMind目前還沒有給出詳細(xì)說(shuō)明。


但這些都不是不可逾越的障礙,只是新的交互范式從實(shí)驗(yàn)室走向大眾必須經(jīng)歷的過(guò)程。每一項(xiàng)改變交互方式的新技術(shù),都經(jīng)歷過(guò)這個(gè)階段:初代iPhone發(fā)布觸屏的時(shí)候,也沒有人敢保證它能取代物理鍵盤。


鍵盤生于1973,鼠標(biāo)生于1984,觸屏生于2007


下一代交互誕生于2026


把AI指針放回半個(gè)世紀(jì)的人機(jī)交互史中看,它的意義就非常清晰了。


1973年,施樂Alto把圖形界面、位圖顯示和鼠標(biāo)這些現(xiàn)代桌面交互的雛形帶入實(shí)驗(yàn)系統(tǒng)。


1984年,蘋果Macintosh把鼠標(biāo)和圖形界面帶給普通大眾,人類開始用“指”的方式操作圖標(biāo)完成任務(wù)。


2007年,蘋果iPhone讓用戶手指直接成為主要輸入方式,觸屏成為移動(dòng)計(jì)算的核心交互方式。


每一次交互范式的躍遷,背后都是同一個(gè)邏輯:機(jī)器學(xué)會(huì)的越多,人需要學(xué)習(xí)和操作的就越少。


2022年生成式AI爆火之后,提示詞框成為主流交互:人把自己的意圖翻譯成自然語(yǔ)言輸入對(duì)話框,再等機(jī)器返回結(jié)果。這種方式的表達(dá)帶寬確實(shí)更寬了,但“翻譯”的環(huán)節(jié)并沒有消失,你還是需要打字描述你的需求。


2026年推出的這只AI指針,想要砍掉的就是“解釋上下文”這一步,而不是徹底消滅表達(dá)本身。


手勢(shì)加上語(yǔ)音,搭配語(yǔ)義理解同步工作,意圖傳遞從“精確描述”變成了“自然指向”:人依然需要表達(dá)需求,只是再也不用費(fèi)力解釋“我現(xiàn)在到底在看什么”了。



之前四代交互范式都是“人主動(dòng)向機(jī)器表達(dá)意圖”,這一次,終于變成了“機(jī)器主動(dòng)理解人”,提示詞工程在這種新范式里幾乎沒有存在的必要了。


Adrien在視頻結(jié)尾描述了他想象中未來(lái)交互的樣子:


未來(lái)會(huì)出現(xiàn)一種新型操作系統(tǒng),AI會(huì)主動(dòng)呈現(xiàn)我可能感興趣的內(nèi)容,我只用指向就能回應(yīng)它,我們共享注意力、共享工作畫布,就像和另一個(gè)人一起工作一樣。


AI交互的終點(diǎn),從來(lái)都不是一個(gè)更聰明的搜索框,而是一個(gè)能真正和你默契協(xié)作的伙伴。


最好用的工具,往往就是你會(huì)忘記它存在的工具。


鼠標(biāo)已經(jīng)陪伴人類走過(guò)了50年,接下來(lái)的半個(gè)世紀(jì),它或許終于能真正讀懂你的想法了。


參考資料:


https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com


https://aistudio.google.com/apps/bundled/ai-pointer-create?showPreview=true&fullscreenApplet=true&showAssistant=true


本文來(lái)自微信公眾號(hào)“新智元”,作者:新智元,編輯:元宇,36氪經(jīng)授權(quán)發(fā)布。


本文僅代表作者觀點(diǎn),版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com