欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<rt id="ii4ay"></rt>

<menu id="ii4ay"></menu>

Hassabis狂贊，谷歌爆改50年鼠標(biāo)，指哪AI打哪，連提示詞都省了

大廠動(dòng)態(tài)

05-19 15:32

Google DeepMind發(fā)布實(shí)驗(yàn)原型「AI-enabled pointer」，鍵盤(pán)、鼠標(biāo)、觸屏之后，下一代交互正在成形。

那個(gè)陪了你50年、從未改變過(guò)的鼠標(biāo)指針，要長(zhǎng)出大腦了。

自1970年代誕生以來(lái)，鼠標(biāo)指針幾乎沒(méi)有進(jìn)化過(guò)。它出現(xiàn)在每一個(gè)網(wǎng)站、每一份文檔、每一套工作流程里，卻從未真正理解過(guò)你在做什么。

近日，Google DeepMind發(fā)布研究博客，展示由Gemini驅(qū)動(dòng)的實(shí)驗(yàn)性原型「AI-enabled pointer」，并在Google AI Studio開(kāi)放兩個(gè)實(shí)驗(yàn)Demo。

負(fù)責(zé)這個(gè)項(xiàng)目的研究員Adrien Baranes和Rob Marchant在官方博客里寫(xiě)道：「我們正在開(kāi)發(fā)更無(wú)縫、更直觀的與AI協(xié)作的方式?！?/p>

https://deepmind.google/blog/ai-pointer/?utm_source=chatgpt.com

DeepMind CEO Demis Hassabis更是親自發(fā)帖，稱這次體驗(yàn)「相當(dāng)神奇」。

鼠標(biāo)的圖標(biāo)沒(méi)變，但箭頭背后的邏輯變了：不再只知道你指向哪里，而是開(kāi)始理解你想干什么。

目前，這個(gè)原型已經(jīng)可以在Google AI Studio中體驗(yàn)，已開(kāi)放兩個(gè)Demo：編輯圖片（AI-Pointer: Create）和地圖找地點(diǎn)（AI-Pointer: Find）。

「AI-Pointer: Create」入口：https://aistudio.google.com/apps/bundled/ai-pointer-create

AI應(yīng)該來(lái)找你，而不是你去找AI

你每天浪費(fèi)多少時(shí)間在「解釋上下文」？

想一下這個(gè)你每天都在重復(fù)做的場(chǎng)景：

打開(kāi)ChatGPT或者Gemini等AI工具的對(duì)話窗口；切回你正在看的網(wǎng)頁(yè)或文檔，選中那段你想分析的內(nèi)容，復(fù)制；切回AI窗口，粘貼。再用一兩句話解釋你要什么。等待。拿到結(jié)果；再切回去執(zhí)行……

每一次「切窗口→復(fù)制→解釋→等待→切回來(lái)」，都是一次認(rèn)知中斷。

你在AI那里花的大量時(shí)間，其實(shí)并沒(méi)有用在真正的問(wèn)題上，而是用在了「告訴AI你在看什么」。

DeepMind對(duì)于這個(gè)問(wèn)題看得很準(zhǔn)：

通常，AI工具住在自己的窗口里，用戶需要把自己的世界拖進(jìn)去。我們想要的恰恰相反：AI應(yīng)該來(lái)找你，而不是你去找AI。

這句話，點(diǎn)透了過(guò)去兩年AI交互模式最核心的結(jié)構(gòu)性缺陷。

不用提示詞

指著說(shuō)AI就懂

AI-enabled pointer要解決的，正是這類摩擦。Adrien認(rèn)為這個(gè)項(xiàng)目的核心命題只有一個(gè)：

如何構(gòu)建一個(gè)能真正理解流動(dòng)用戶意圖的系統(tǒng)。

這背后有四個(gè)設(shè)計(jì)原則，是這套系統(tǒng)的骨架，共同回答一個(gè)問(wèn)題：怎么讓AI讀懂你的意圖，而不需要你花力氣解釋。

第一個(gè)原則叫「Maintain the flow」，保持流暢。

按DeepMind的設(shè)計(jì)目標(biāo)，AI能力不應(yīng)把用戶帶離當(dāng)前應(yīng)用，而應(yīng)盡可能出現(xiàn)在用戶正在工作的上下文中。指著一份PDF說(shuō)「給我一個(gè)摘要，直接可以粘進(jìn)郵件的那種」，AI完成，你繼續(xù)。

第二個(gè)原則叫「Show and tell」，指給它看?，F(xiàn)在用AI，你需要寫(xiě)一段詳細(xì)的提示詞，描述你要處理的內(nèi)容是什么、長(zhǎng)什么樣、上下文是什么。

AI-enabled pointer把這一步省掉了。光標(biāo)懸停在哪里，Gemini就捕獲那里的視覺(jué)信息和語(yǔ)義上下文。你不需要描述你看到的東西，因?yàn)锳I已經(jīng)看到了。

第三個(gè)原則，是DeepMind最喜歡強(qiáng)調(diào)的一個(gè)：「Embrace the power of This and That」，擁抱「這個(gè)」和「那個(gè)」的力量。

想想人和人之間怎么協(xié)作。你不會(huì)跟同事說(shuō)「請(qǐng)將第三行第二列的數(shù)值乘以二并更新到對(duì)應(yīng)的匯總表格里」。你會(huì)說(shuō)「這個(gè)數(shù)字，改成兩倍，更新到那里」，然后用手指一指。

AI-enabled pointer要讓人機(jī)協(xié)作變得像人與人協(xié)作一樣自然。技術(shù)實(shí)現(xiàn)上，可以理解為，系統(tǒng)不再只解析語(yǔ)音里的文字，而是把「this」「that」「here」「there」這類指代詞，與光標(biāo)或手勢(shì)所指向的視覺(jué)和語(yǔ)義上下文關(guān)聯(lián)起來(lái)。

所以，當(dāng)用戶說(shuō)「把這個(gè)便簽改成橙色」時(shí)，「這個(gè)」不再只是一個(gè)模糊代詞，而會(huì)被系統(tǒng)結(jié)合當(dāng)前指向的位置、對(duì)象和上下文來(lái)理解。Gemini拿到的也不只是字面上的一句話，而是由語(yǔ)音、指向和屏幕內(nèi)容共同構(gòu)成的意圖。

提示詞的本質(zhì)一直都不是文字，而是意圖。現(xiàn)在，意圖終于可以用最短的方式傳達(dá)了。

更有意思的是，「指向」并非只有鼠標(biāo)一種方式。演示里，Adrien用的是頭部追蹤：頭轉(zhuǎn)向哪里，AI注意力就跟到哪里。語(yǔ)音、文字、圖像理解，全部同時(shí)在線。

第四個(gè)原則最有技術(shù)含量：「Turn pixels into actionable entities」，讓像素變成可操作的實(shí)體。

過(guò)去50年，光標(biāo)只知道你指的是哪里，卻看不懂你指的是什么，AI-enabled pointer要改變這件事。

你懸停的那張圖里有一棟建筑，AI識(shí)別出「這是一個(gè)地點(diǎn)」，于是「給我導(dǎo)航」成了一個(gè)可以直接觸發(fā)的操作；

你拍下一張手寫(xiě)便條，AI看懂了上面的字，便條自動(dòng)變成了一份可編輯的待辦清單；

你在旅游視頻里暫停了一幀，畫(huà)面里那家看起來(lái)不錯(cuò)的餐廳，直接可以彈出訂位鏈接。

演示里還有一個(gè)細(xì)節(jié)讓人印象很深：Adrien指著一份餐廳菜單，再指著另一張風(fēng)格參考圖，說(shuō)「用這張圖的風(fēng)格，幫我把這份菜單畫(huà)出來(lái)」。

Gemini同時(shí)讀懂了菜單的內(nèi)容和參考圖的視覺(jué)風(fēng)格，生成了一張融合兩者的新圖。這不是兩步操作，是一句話、兩個(gè)手勢(shì)，完成的事。

像素第一次有了語(yǔ)義。

從概念到落地

DeepMind并沒(méi)有停在概念層面。

Google表示，相關(guān)交互原則已開(kāi)始進(jìn)入產(chǎn)品：在Chrome中，用戶可以用指針指向/選擇網(wǎng)頁(yè)中的內(nèi)容，并向Gemini提問(wèn)。

Googlebook上的Magic Pointer已被Google列為即將推出的系統(tǒng)級(jí)能力，首批Googlebook設(shè)備計(jì)劃于今年秋季上市。

當(dāng)然，從演示到日常可用，還有一段路要走。

識(shí)別準(zhǔn)確率、跨應(yīng)用兼容性、響應(yīng)速度，都需要在真實(shí)的復(fù)雜桌面環(huán)境里經(jīng)歷打磨。

還有一個(gè)問(wèn)題值得認(rèn)真對(duì)待：AI-enabled pointer需要持續(xù)理解你的屏幕內(nèi)容，數(shù)據(jù)如何采集、如何存儲(chǔ)、流向哪里，DeepMind目前尚未詳細(xì)說(shuō)明。

這些并非障礙，而是一項(xiàng)新交互范式從實(shí)驗(yàn)室走向大眾必須經(jīng)歷的過(guò)程。

每一項(xiàng)改變交互方式的技術(shù)，都經(jīng)歷過(guò)這個(gè)階段。觸屏手機(jī)在第一代iPhone發(fā)布時(shí)，也沒(méi)有人敢保證它能取代鍵盤(pán)。

鍵盤(pán)1973，鼠標(biāo)1984，觸屏2007

下一代交互在2026

把這只指針?lè)呕?0年人機(jī)交互史的時(shí)間線上，它的意義會(huì)變得很清楚。

1973年，Xerox Alto把圖形界面、位圖顯示和鼠標(biāo)等現(xiàn)代桌面交互雛形帶入實(shí)驗(yàn)系統(tǒng)。

1984年，Macintosh讓鼠標(biāo)與圖形界面進(jìn)入大眾視野，人開(kāi)始用「指」圖標(biāo)完成操作。

2007年，iPhone讓手指直接成為主要輸入方式，觸屏成為移動(dòng)計(jì)算的核心交互。

每一次躍遷，背后都是同一件事：機(jī)器學(xué)會(huì)了更多，人需要學(xué)的就變少了。

2022年之后的提示詞框是另一條線。

人把意圖翻譯成自然語(yǔ)言，遞給一個(gè)對(duì)話框，再等機(jī)器返回答案。表達(dá)帶寬變寬了，但表達(dá)環(huán)節(jié)本身沒(méi)消失。你還是要打字、描述。

2026年這只指針，試圖壓縮的是「解釋上下文」這一步，而不是完全消滅表達(dá)本身。

2026年這只指針，試圖壓縮的是「解釋上下文」這一步。

手勢(shì)+語(yǔ)音+語(yǔ)義理解同時(shí)到位，意圖的傳達(dá)方式從「精確描述」變成了「自然指向」：人還是要表達(dá)，只是再也不用費(fèi)力解釋「我在看什么」了。

前四代交互都是「人主動(dòng)表達(dá)」。這一代第一次是「機(jī)器主動(dòng)理解」。手勢(shì)+語(yǔ)音+語(yǔ)義理解同時(shí)到位，意圖的傳達(dá)方式從「精確描述」變成了「自然指向」。提示詞工程在這個(gè)范式中幾乎不再存在。

Adrien在視頻結(jié)尾描述了他想象中的未來(lái)：

一種新型操作系統(tǒng)。AI主動(dòng)呈現(xiàn)我可能感興趣的內(nèi)容，我用指向回應(yīng)它，我們共享注意力，共享畫(huà)布，就像和另一個(gè)人一起工作。

AI交互的終點(diǎn)，并非一個(gè)更聰明的搜索框，而是一個(gè)真正能和你協(xié)作的伙伴。

最好用的工具，往往是你忘記它存在的那種。

鼠標(biāo)陪了人類50年。下一個(gè)50年，它或許會(huì)真正開(kāi)始理解你。

本文僅代表作者觀點(diǎn)，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請(qǐng)?jiān)谖闹凶⒚鱽?lái)源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請(qǐng)及時(shí)與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

豆包支付來(lái)了？亞馬遜阿里字節(jié)連夜攤牌，AI盡頭是電商？

泡泡瑪特冰箱賣(mài)爆，為什么頭疼的是小熊電器

果鏈巨頭賣(mài)AI服務(wù)器，3個(gè)月收入千億

油車(chē)更涼了，奔馳的國(guó)產(chǎn)GLE才來(lái)

地產(chǎn)老板勾結(jié)行長(zhǎng)，用69家空殼公司，把銀行干破產(chǎn)！

<rt id="szadd"></rt>