欧美三级电影完整|亚洲一二三四久久|性爱视频精品一区二区免费在线观看|国产精品啪啪视频|婷婷六月综合操人妻视频网站|99爱免费视频在线观看|美女一级片在线观看|北京熟女88av|免费看黄色A级电影|欧美黄色毛片儿

<rt id="ii4ay"></rt>

<menu id="ii4ay"></menu>

<menu id="uigog"><object id="uigog"></object></menu>

<dfn id="uigog"></dfn>

為何AI選擇視覺作為發(fā)展突破口？

05-19 06:36

AI的發(fā)展，始終建立在人類已有科學(xué)研究的基礎(chǔ)之上。

梳理近十年AI產(chǎn)業(yè)的發(fā)展脈絡(luò)，我們會發(fā)現(xiàn)一個很有意思的現(xiàn)象：AI并沒有從「理解世界」這類認(rèn)知任務(wù)直接起步，反而最先在「感知世界」的視覺領(lǐng)域?qū)崿F(xiàn)了突破與落地。

2010年代Facebook核心推進(jìn)的項目就是人臉識別系統(tǒng)DeepFace；

特斯拉自動駕駛的核心能力，也是依靠攝像頭完成對道路環(huán)境的視覺識別與理解。

這些科技巨頭并非不約而同地「碰巧」選擇了視覺賽道，核心原因在于：在人類的多種感知模態(tài)中，視覺信息最早完成了大規(guī)模數(shù)字化，因此成為深度學(xué)習(xí)最早實現(xiàn)技術(shù)突破、落地商業(yè)應(yīng)用的領(lǐng)域。

人類擁有五種感知能力，從理論上來說，AI只要通過傳感器獲取聲音、氣味、味道、觸覺等信號，就同樣可以完成對這些信息的處理。

那為什么AI偏偏最早從視覺感知找到了突破口？除了商業(yè)化條件和數(shù)據(jù)基礎(chǔ)之外，背后還有更深層的技術(shù)與科學(xué)邏輯。

AI之所以能率先實現(xiàn)視覺能力，本質(zhì)上并不是視覺任務(wù)本身更簡單，而是人類更早解開了「人類自身如何看見世界」的謎題——換句話說，AI發(fā)展視覺，直接借用了人類神經(jīng)科學(xué)的研究成果。神經(jīng)科學(xué)一直在探索人類感知的底層邏輯，而視覺研究的進(jìn)展最快，因此自然成為了AI起步的切入口。

從這個角度來看，AI確實是站在人類科學(xué)的肩膀上成長起來的。

AI到底是怎么「看懂」圖像的？

很多人認(rèn)為，AI能識別圖片、看懂視頻，靠的是超強(qiáng)算力、海量數(shù)據(jù)和先進(jìn)算法，是AI本身足夠聰明。

但實際上，AI能實現(xiàn)視覺能力，核心是站在了神經(jīng)科學(xué)這位「巨人」的肩膀上，這個領(lǐng)域并不被大眾熟知，卻為AI發(fā)展鋪了第一塊路。

我們可以從一個簡單的問題開始理解：當(dāng)我們看到一張小狗的照片，是怎么判斷出這是一只小狗的？

其實大腦在無意識中完成了三步處理：

第一步接收信息：眼睛接收光線，將光信號轉(zhuǎn)化為神經(jīng)信號傳入大腦

第二步提取特征：大腦先識別出畫面中的邊緣、線條、紋理信息

第三步綜合判斷：把特征組合起來，認(rèn)出哪部分是耳朵、哪部分是胡須，最終形成判斷：這是一只小狗

也就是說，人類的視覺不是「一眼看穿」的整體識別，而是從簡單特征到復(fù)雜物體，逐層推理組合出來的結(jié)果。

早在20世紀(jì)60年代，科學(xué)家David Hubel和Torsten Wiesel就做了一個在當(dāng)時看來十分大膽的實驗。

他們將極細(xì)的電極插入貓的大腦視覺皮層，然后給貓展示不同的簡單圖案——直線、不同角度、光斑。原本只是觀察貓大腦的反應(yīng)，結(jié)果卻有了意外發(fā)現(xiàn)：貓大腦里的部分神經(jīng)元，只有出現(xiàn)豎線的時候才會激活放電；另一些神經(jīng)元只對橫線敏感；甚至還有神經(jīng)元只對特定角度的邊緣有反應(yīng)。

這個實驗顛覆了之前的認(rèn)知：人類大腦的視覺機(jī)制其實和貓一樣，我們不是直接「看一整張圖」，而是把圖像拆成基礎(chǔ)特征再重新組合。這就是后來神經(jīng)科學(xué)中非常重要的「感受野」概念。

更關(guān)鍵的是，兩位科學(xué)家還發(fā)現(xiàn)了視覺處理的「層級結(jié)構(gòu)」：第一層識別基礎(chǔ)邊緣，第二層把邊緣組合成形狀，第三層才識別出具體物體。

這項成果直接幫助他們拿下了1981年的諾貝爾生理學(xué)或醫(yī)學(xué)獎，這也足以說明：早在半個多世紀(jì)前，人類對視覺神經(jīng)機(jī)制的探索就已經(jīng)達(dá)到了非常高的高度。

那AI是怎么借用這些成果的呢？有「卷積神經(jīng)網(wǎng)絡(luò)之父」之稱的楊立昆（Yann LeCun）——他曾擔(dān)任Facebook首席AI科學(xué)家、紐約大學(xué)教授，還獲得了2018年的圖靈獎——很早就產(chǎn)生了一個思路：既然人腦是這樣識別圖像的，能不能讓計算機(jī)也按照這個邏輯做？

順著這個思路，卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，簡稱CNN）誕生了，它的核心邏輯幾乎就是對人腦視覺機(jī)制的直接復(fù)刻：

第一：每次只處理一小塊區(qū)域（對應(yīng)人腦的感受野，在AI中就是卷積核）

一張圖片本質(zhì)上就是由像素組成的數(shù)字矩陣，AI不會一次性處理整張圖片，而是用一個固定大小的「小窗口」在圖片上滑動，每次只分析一小塊區(qū)域，這個小窗口就是卷積核，作用就是判斷這塊區(qū)域里的像素，能不能組成一條基礎(chǔ)邊緣。

第二：從淺到深逐層抽象理解

CNN會按照層級一步步處理：先識別邊緣，再識別紋理，接著識別出眼睛、輪廓這類部件，最終判斷出這是一只小狗，這個流程完全對應(yīng)了人腦的視覺處理路徑。

楊立昆最早開發(fā)出LeNet系統(tǒng)用來識別手寫數(shù)字，后來還做出了可以給銀行識別支票信息的系統(tǒng)。

在上世紀(jì)80-90年代，美國銀行每天需要處理上千萬張紙質(zhì)支票，支票上的金額、賬號這類關(guān)鍵信息都是手寫的，靠人工逐張錄入不僅成本高、速度慢，錯誤率也居高不下。

這種重復(fù)量大、規(guī)則模糊的任務(wù)，剛好適合用CNN處理：一方面每個人的手寫字體歪歪扭扭、連筆潦草，另一方面?zhèn)鹘y(tǒng)編程根本無法適配這種靈活的識別需求，比如說同一個數(shù)字「8」，有人寫得圓、有人寫得扁，還有人會寫成兩個分開的圈，普通人能認(rèn)出來，但傳統(tǒng)規(guī)則式編程根本做不到。

當(dāng)時楊立昆在貝爾實驗室工作，實驗室非常注重研究成果向?qū)嶋H應(yīng)用轉(zhuǎn)化，就直接引入了LeNet模型。

最終這個模型成功落地，除了識別支票金額，還能用來識別信封上的郵政編碼，在上世紀(jì)90年代的美國銀行系統(tǒng)中，已經(jīng)有10%-20%的支票處理工作是由這類神經(jīng)網(wǎng)絡(luò)完成的。

不過受限于當(dāng)時的數(shù)據(jù)量和算力水平，卷積神經(jīng)網(wǎng)絡(luò)并沒有立刻引爆行業(yè)。直到2012年，Hinton和他的學(xué)生Alex Krizhevsky設(shè)計的AlexNet拿下了ImageNet競賽的冠軍，把圖像識別錯誤率直接從26%降到了15%，效果遠(yuǎn)超傳統(tǒng)算法，這件事直接點燃了整個AI行業(yè)，Google、Facebook全面轉(zhuǎn)向深度學(xué)習(xí)研究，中國AI產(chǎn)業(yè)快速崛起，自動駕駛領(lǐng)域也開始加速發(fā)展。

AI發(fā)展史上這個關(guān)鍵分水嶺，本質(zhì)上依靠的就是深層卷積神經(jīng)網(wǎng)絡(luò)，往根上說，依靠的是神經(jīng)科學(xué)家們幾十年前的奠基性發(fā)現(xiàn)。

為什么AI最先突破視覺領(lǐng)域？

很多人會問：我們用文字提問ChatGPT的時候，AI需要「看」嗎？

答案其實是不需要，系統(tǒng)會直接接收到我們輸入的字符序列，字符會被轉(zhuǎn)化為對應(yīng)的Token數(shù)字，再送入語言模型處理，所以這種情況下AI處理的是文本數(shù)據(jù)，不需要視覺感知。

但這種情況是我們直接給AI輸入了結(jié)構(gòu)化信息，如果信息本身藏在圖像、聲音、氣味這些介質(zhì)里，AI就必須先通過傳感器完成感知、獲取數(shù)據(jù)才能處理。

機(jī)器視覺能成為AI第一個突破口，最核心的原因就是視覺信息最容易數(shù)字化：光子進(jìn)入攝像頭就能直接轉(zhuǎn)化為像素信號，不需要額外的化學(xué)反應(yīng)或者復(fù)雜物理轉(zhuǎn)換。一張圖像就是一個像素數(shù)字矩陣，在AI眼里本質(zhì)就是一組可處理的數(shù)字。

可以說，視覺數(shù)據(jù)是最規(guī)整干凈的訓(xùn)練數(shù)據(jù)，很容易做模式識別，AI訓(xùn)練也更容易收斂。相比之下，聲音、氣味的信息處理要復(fù)雜得多：

聲音是隨時間變化的序列信號，需要額外轉(zhuǎn)換為頻譜才能處理

氣味是復(fù)雜的分子組合，不僅結(jié)構(gòu)多樣，往往還需要化學(xué)反應(yīng)完成識別

觸覺需要同時感知壓力、溫度、材質(zhì)等多個維度的信息

除了視覺之外，其他感知模態(tài)的信息轉(zhuǎn)換成本都要高很多。

第二個原因，是神經(jīng)科學(xué)對視覺的研究最深入充分，我們前文提到，早在1981年，視覺領(lǐng)域的研究就已經(jīng)產(chǎn)出了諾獎級成果。

人類對視覺的研究起步早、方法成熟，已經(jīng)形成了完整的理論模型，不管是感受野概念，還是簡單細(xì)胞/復(fù)雜細(xì)胞的特性，亦或是分層處理的機(jī)制，都已經(jīng)被研究得非常透徹，這些成果直接給AI的視覺模型設(shè)計提供了完整藍(lán)圖。

而嗅覺、味覺這類感知，直到現(xiàn)在神經(jīng)科學(xué)家都沒有完全搞清楚底層機(jī)制。

第三個原因是可觀的商業(yè)價值。視覺識別的商業(yè)空間十分廣闊，應(yīng)用場景非常多：

人臉識別可以用在支付驗證、門禁系統(tǒng)、公安追蹤等領(lǐng)域

自動駕駛離不開道路識別、障礙物檢測、行人判斷這些視覺能力

安防監(jiān)控需要異常行為識別、人員追蹤、風(fēng)險預(yù)警，都要依托視覺技術(shù)

電商領(lǐng)域的拍照找同款、商品識別、內(nèi)容推薦，也都需要視覺識別支撐

也正因如此，科技巨頭紛紛布局視覺AI，沒有人愿意錯過這個大市場。

當(dāng)然，現(xiàn)在AI在聲音、氣味、味道、觸覺這些領(lǐng)域的研究也在不斷推進(jìn)：聽覺是第二個接近成熟的感知領(lǐng)域，已經(jīng)誕生了Siri、各類語音輸入法、會議轉(zhuǎn)寫工具等成熟產(chǎn)品，但目前還存在環(huán)境噪聲干擾、復(fù)雜語義理解不足等問題；

AI嗅覺還處于發(fā)展早期，已經(jīng)有企業(yè)開發(fā)出「電子鼻」，通過傳感器檢測氣體轉(zhuǎn)化為信號，不少歐洲企業(yè)已經(jīng)開始試驗將它用在食品變質(zhì)檢測、爆炸物識別、癌癥篩查等領(lǐng)域；

AI味覺比嗅覺發(fā)展更慢，對應(yīng)的產(chǎn)品是電子舌，主要用在食品工業(yè)和水質(zhì)檢測領(lǐng)域，難點在于人類味覺本身非常主觀，而且和嗅覺高度綁定，很難拆分處理；

AI觸覺目前正在快速發(fā)展，現(xiàn)在機(jī)器人已經(jīng)能感知壓力、判斷軟硬，完成簡單的抓取動作，也誕生了不少成熟的工業(yè)機(jī)器人產(chǎn)品，但距離人類的細(xì)膩觸覺還有很大差距。

AI發(fā)展對基礎(chǔ)科學(xué)的反向突破

聊了這么多，其實有一個很反直覺的結(jié)論：AI能看見、能聽見、能識別氣味，但本質(zhì)上AI什么都「感受」不到。

AI比人類更純粹，它的本質(zhì)就是模式匹配，識別結(jié)果也更穩(wěn)定。人類視覺會受到情緒、經(jīng)驗、偏見的影響，所以才會有那么多視覺錯覺，但AI只會輸出識別結(jié)果：它能認(rèn)出這張圖里是小狗，但不會覺得小狗可愛，也不會產(chǎn)生想要保護(hù)它的情緒。

AI本質(zhì)就是模式識別：靠邊緣、形狀識別物體，靠頻率識別聲音，靠信號特征識別氣味，如果沒有對應(yīng)的模式樣本，AI就無法做出判斷，這本質(zhì)上也契合心理學(xué)中的模式識別理論。

AI領(lǐng)域唯一不變的就是變化，當(dāng)初卷積神經(jīng)網(wǎng)絡(luò)打下的視覺江山，其實也一直在進(jìn)化。

CNN給AI視覺指明了方向，之后視覺模型一直在不斷迭代：比如ResNet就是更深層的CNN，在2014到2019年被廣泛應(yīng)用，解決了深層網(wǎng)絡(luò)訓(xùn)練難的問題。

到2020年，Transformer開始被應(yīng)用在視覺領(lǐng)域，這其實是對CNN思路的一種突破。

CNN走的是「模仿人類視覺」的路線，而Transformer完全脫離了這個思路，不參考人類的生理機(jī)制，直接找算法層面的更優(yōu)解：它一開始就能直接處理整張圖像，通過自注意力機(jī)制建立全局關(guān)聯(lián)，直接打破了CNN遵循的兩個生物學(xué)原則：

不再依賴局部感受野，直接建立全局信息關(guān)聯(lián)

不再逐層模擬人類的視覺處理路徑，讓機(jī)器直接跨區(qū)域關(guān)聯(lián)信息

這種脫離仿生的思路反而效果更好，不僅更擅長處理語義、場景這類復(fù)雜關(guān)系，更容易擴(kuò)展到大模型，還能統(tǒng)一處理文本、圖像、視頻多模態(tài)信息。

所以AI的發(fā)展路徑其實發(fā)生了一次很微妙的變化：一開始AI謙虛地模仿人類，沿著神經(jīng)科學(xué)的研究成果搭建框架，但當(dāng)AI技術(shù)逐漸強(qiáng)大之后，它開始脫離人類已有的科學(xué)認(rèn)知，去尋找更高效的理解世界的方式。

從CNN到Transformer，這不僅僅是算法的迭代升級，更是AI發(fā)展路徑的轉(zhuǎn)變：從「模仿人類智能」，逐步走向「創(chuàng)造新的智能」。

本文來自微信公眾號“紀(jì)源資本”，作者：紀(jì)源資本，36氪經(jīng)授權(quán)發(fā)布。

本文僅代表作者觀點，版權(quán)歸原創(chuàng)者所有，如需轉(zhuǎn)載請在文中注明來源及作者名字。

免責(zé)聲明：本文系轉(zhuǎn)載編輯文章，僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布，請及時與我們聯(lián)系進(jìn)行審核處理或刪除，您可以發(fā)送材料至郵箱：service@tojoy.com

延伸閱讀

鑿?fù)ǔ龊Ｋ\(yùn)通道，曾坐擁沿海優(yōu)勢卻難發(fā)揮的廣西，即將迎來發(fā)展新局

上市半月漲超1500%，聯(lián)訊儀器突破1300元問鼎A股新股王

最新房價數(shù)據(jù)公布：北京二手房價格已連漲三月

瑞幸全國推含酒精新品，嚴(yán)苛核驗要求逼苦三萬一線員工？

走出投流價格戰(zhàn)：京東指數(shù)交易升級，百萬訂單背后的商家輕經(jīng)營新路徑

<sup id="i4ucq"></sup>