為何AI選擇視覺作為發(fā)展突破口?
AI的發(fā)展,始終建立在人類已有科學(xué)研究的基礎(chǔ)之上。

梳理近十年AI產(chǎn)業(yè)的發(fā)展脈絡(luò),我們會發(fā)現(xiàn)一個很有意思的現(xiàn)象:AI并沒有從「理解世界」這類認(rèn)知任務(wù)直接起步,反而最先在「感知世界」的視覺領(lǐng)域?qū)崿F(xiàn)了突破與落地。
2010年代Facebook核心推進(jìn)的項目就是人臉識別系統(tǒng)DeepFace;
特斯拉自動駕駛的核心能力,也是依靠攝像頭完成對道路環(huán)境的視覺識別與理解。
這些科技巨頭并非不約而同地「碰巧」選擇了視覺賽道,核心原因在于:在人類的多種感知模態(tài)中,視覺信息最早完成了大規(guī)模數(shù)字化,因此成為深度學(xué)習(xí)最早實現(xiàn)技術(shù)突破、落地商業(yè)應(yīng)用的領(lǐng)域。
人類擁有五種感知能力,從理論上來說,AI只要通過傳感器獲取聲音、氣味、味道、觸覺等信號,就同樣可以完成對這些信息的處理。

那為什么AI偏偏最早從視覺感知找到了突破口?除了商業(yè)化條件和數(shù)據(jù)基礎(chǔ)之外,背后還有更深層的技術(shù)與科學(xué)邏輯。
AI之所以能率先實現(xiàn)視覺能力,本質(zhì)上并不是視覺任務(wù)本身更簡單,而是人類更早解開了「人類自身如何看見世界」的謎題——換句話說,AI發(fā)展視覺,直接借用了人類神經(jīng)科學(xué)的研究成果。神經(jīng)科學(xué)一直在探索人類感知的底層邏輯,而視覺研究的進(jìn)展最快,因此自然成為了AI起步的切入口。
從這個角度來看,AI確實是站在人類科學(xué)的肩膀上成長起來的。

AI到底是怎么「看懂」圖像的?
很多人認(rèn)為,AI能識別圖片、看懂視頻,靠的是超強(qiáng)算力、海量數(shù)據(jù)和先進(jìn)算法,是AI本身足夠聰明。
但實際上,AI能實現(xiàn)視覺能力,核心是站在了神經(jīng)科學(xué)這位「巨人」的肩膀上,這個領(lǐng)域并不被大眾熟知,卻為AI發(fā)展鋪了第一塊路。
我們可以從一個簡單的問題開始理解:當(dāng)我們看到一張小狗的照片,是怎么判斷出這是一只小狗的?
其實大腦在無意識中完成了三步處理:
第一步接收信息:眼睛接收光線,將光信號轉(zhuǎn)化為神經(jīng)信號傳入大腦
第二步提取特征:大腦先識別出畫面中的邊緣、線條、紋理信息
第三步綜合判斷:把特征組合起來,認(rèn)出哪部分是耳朵、哪部分是胡須,最終形成判斷:這是一只小狗
也就是說,人類的視覺不是「一眼看穿」的整體識別,而是從簡單特征到復(fù)雜物體,逐層推理組合出來的結(jié)果。
早在20世紀(jì)60年代,科學(xué)家David Hubel和Torsten Wiesel就做了一個在當(dāng)時看來十分大膽的實驗。
他們將極細(xì)的電極插入貓的大腦視覺皮層,然后給貓展示不同的簡單圖案——直線、不同角度、光斑。原本只是觀察貓大腦的反應(yīng),結(jié)果卻有了意外發(fā)現(xiàn):貓大腦里的部分神經(jīng)元,只有出現(xiàn)豎線的時候才會激活放電;另一些神經(jīng)元只對橫線敏感;甚至還有神經(jīng)元只對特定角度的邊緣有反應(yīng)。
這個實驗顛覆了之前的認(rèn)知:人類大腦的視覺機(jī)制其實和貓一樣,我們不是直接「看一整張圖」,而是把圖像拆成基礎(chǔ)特征再重新組合。這就是后來神經(jīng)科學(xué)中非常重要的「感受野」概念。

更關(guān)鍵的是,兩位科學(xué)家還發(fā)現(xiàn)了視覺處理的「層級結(jié)構(gòu)」:第一層識別基礎(chǔ)邊緣,第二層把邊緣組合成形狀,第三層才識別出具體物體。
這項成果直接幫助他們拿下了1981年的諾貝爾生理學(xué)或醫(yī)學(xué)獎,這也足以說明:早在半個多世紀(jì)前,人類對視覺神經(jīng)機(jī)制的探索就已經(jīng)達(dá)到了非常高的高度。
那AI是怎么借用這些成果的呢?有「卷積神經(jīng)網(wǎng)絡(luò)之父」之稱的楊立昆(Yann LeCun)——他曾擔(dān)任Facebook首席AI科學(xué)家、紐約大學(xué)教授,還獲得了2018年的圖靈獎——很早就產(chǎn)生了一個思路:既然人腦是這樣識別圖像的,能不能讓計算機(jī)也按照這個邏輯做?
順著這個思路,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡稱CNN)誕生了,它的核心邏輯幾乎就是對人腦視覺機(jī)制的直接復(fù)刻:
第一:每次只處理一小塊區(qū)域(對應(yīng)人腦的感受野,在AI中就是卷積核)
一張圖片本質(zhì)上就是由像素組成的數(shù)字矩陣,AI不會一次性處理整張圖片,而是用一個固定大小的「小窗口」在圖片上滑動,每次只分析一小塊區(qū)域,這個小窗口就是卷積核,作用就是判斷這塊區(qū)域里的像素,能不能組成一條基礎(chǔ)邊緣。
第二:從淺到深逐層抽象理解
CNN會按照層級一步步處理:先識別邊緣,再識別紋理,接著識別出眼睛、輪廓這類部件,最終判斷出這是一只小狗,這個流程完全對應(yīng)了人腦的視覺處理路徑。
楊立昆最早開發(fā)出LeNet系統(tǒng)用來識別手寫數(shù)字,后來還做出了可以給銀行識別支票信息的系統(tǒng)。
在上世紀(jì)80-90年代,美國銀行每天需要處理上千萬張紙質(zhì)支票,支票上的金額、賬號這類關(guān)鍵信息都是手寫的,靠人工逐張錄入不僅成本高、速度慢,錯誤率也居高不下。

這種重復(fù)量大、規(guī)則模糊的任務(wù),剛好適合用CNN處理:一方面每個人的手寫字體歪歪扭扭、連筆潦草,另一方面?zhèn)鹘y(tǒng)編程根本無法適配這種靈活的識別需求,比如說同一個數(shù)字「8」,有人寫得圓、有人寫得扁,還有人會寫成兩個分開的圈,普通人能認(rèn)出來,但傳統(tǒng)規(guī)則式編程根本做不到。
當(dāng)時楊立昆在貝爾實驗室工作,實驗室非常注重研究成果向?qū)嶋H應(yīng)用轉(zhuǎn)化,就直接引入了LeNet模型。
最終這個模型成功落地,除了識別支票金額,還能用來識別信封上的郵政編碼,在上世紀(jì)90年代的美國銀行系統(tǒng)中,已經(jīng)有10%-20%的支票處理工作是由這類神經(jīng)網(wǎng)絡(luò)完成的。
不過受限于當(dāng)時的數(shù)據(jù)量和算力水平,卷積神經(jīng)網(wǎng)絡(luò)并沒有立刻引爆行業(yè)。直到2012年,Hinton和他的學(xué)生Alex Krizhevsky設(shè)計的AlexNet拿下了ImageNet競賽的冠軍,把圖像識別錯誤率直接從26%降到了15%,效果遠(yuǎn)超傳統(tǒng)算法,這件事直接點燃了整個AI行業(yè),Google、Facebook全面轉(zhuǎn)向深度學(xué)習(xí)研究,中國AI產(chǎn)業(yè)快速崛起,自動駕駛領(lǐng)域也開始加速發(fā)展。
AI發(fā)展史上這個關(guān)鍵分水嶺,本質(zhì)上依靠的就是深層卷積神經(jīng)網(wǎng)絡(luò),往根上說,依靠的是神經(jīng)科學(xué)家們幾十年前的奠基性發(fā)現(xiàn)。

為什么AI最先突破視覺領(lǐng)域?
很多人會問:我們用文字提問ChatGPT的時候,AI需要「看」嗎?
答案其實是不需要,系統(tǒng)會直接接收到我們輸入的字符序列,字符會被轉(zhuǎn)化為對應(yīng)的Token數(shù)字,再送入語言模型處理,所以這種情況下AI處理的是文本數(shù)據(jù),不需要視覺感知。
但這種情況是我們直接給AI輸入了結(jié)構(gòu)化信息,如果信息本身藏在圖像、聲音、氣味這些介質(zhì)里,AI就必須先通過傳感器完成感知、獲取數(shù)據(jù)才能處理。
機(jī)器視覺能成為AI第一個突破口,最核心的原因就是視覺信息最容易數(shù)字化:光子進(jìn)入攝像頭就能直接轉(zhuǎn)化為像素信號,不需要額外的化學(xué)反應(yīng)或者復(fù)雜物理轉(zhuǎn)換。一張圖像就是一個像素數(shù)字矩陣,在AI眼里本質(zhì)就是一組可處理的數(shù)字。
可以說,視覺數(shù)據(jù)是最規(guī)整干凈的訓(xùn)練數(shù)據(jù),很容易做模式識別,AI訓(xùn)練也更容易收斂。相比之下,聲音、氣味的信息處理要復(fù)雜得多:
聲音是隨時間變化的序列信號,需要額外轉(zhuǎn)換為頻譜才能處理
氣味是復(fù)雜的分子組合,不僅結(jié)構(gòu)多樣,往往還需要化學(xué)反應(yīng)完成識別
觸覺需要同時感知壓力、溫度、材質(zhì)等多個維度的信息
除了視覺之外,其他感知模態(tài)的信息轉(zhuǎn)換成本都要高很多。
第二個原因,是神經(jīng)科學(xué)對視覺的研究最深入充分,我們前文提到,早在1981年,視覺領(lǐng)域的研究就已經(jīng)產(chǎn)出了諾獎級成果。
人類對視覺的研究起步早、方法成熟,已經(jīng)形成了完整的理論模型,不管是感受野概念,還是簡單細(xì)胞/復(fù)雜細(xì)胞的特性,亦或是分層處理的機(jī)制,都已經(jīng)被研究得非常透徹,這些成果直接給AI的視覺模型設(shè)計提供了完整藍(lán)圖。
而嗅覺、味覺這類感知,直到現(xiàn)在神經(jīng)科學(xué)家都沒有完全搞清楚底層機(jī)制。
第三個原因是可觀的商業(yè)價值。視覺識別的商業(yè)空間十分廣闊,應(yīng)用場景非常多:
人臉識別可以用在支付驗證、門禁系統(tǒng)、公安追蹤等領(lǐng)域
自動駕駛離不開道路識別、障礙物檢測、行人判斷這些視覺能力
安防監(jiān)控需要異常行為識別、人員追蹤、風(fēng)險預(yù)警,都要依托視覺技術(shù)
電商領(lǐng)域的拍照找同款、商品識別、內(nèi)容推薦,也都需要視覺識別支撐
也正因如此,科技巨頭紛紛布局視覺AI,沒有人愿意錯過這個大市場。

當(dāng)然,現(xiàn)在AI在聲音、氣味、味道、觸覺這些領(lǐng)域的研究也在不斷推進(jìn):聽覺是第二個接近成熟的感知領(lǐng)域,已經(jīng)誕生了Siri、各類語音輸入法、會議轉(zhuǎn)寫工具等成熟產(chǎn)品,但目前還存在環(huán)境噪聲干擾、復(fù)雜語義理解不足等問題;
AI嗅覺還處于發(fā)展早期,已經(jīng)有企業(yè)開發(fā)出「電子鼻」,通過傳感器檢測氣體轉(zhuǎn)化為信號,不少歐洲企業(yè)已經(jīng)開始試驗將它用在食品變質(zhì)檢測、爆炸物識別、癌癥篩查等領(lǐng)域;
AI味覺比嗅覺發(fā)展更慢,對應(yīng)的產(chǎn)品是電子舌,主要用在食品工業(yè)和水質(zhì)檢測領(lǐng)域,難點在于人類味覺本身非常主觀,而且和嗅覺高度綁定,很難拆分處理;
AI觸覺目前正在快速發(fā)展,現(xiàn)在機(jī)器人已經(jīng)能感知壓力、判斷軟硬,完成簡單的抓取動作,也誕生了不少成熟的工業(yè)機(jī)器人產(chǎn)品,但距離人類的細(xì)膩觸覺還有很大差距。

AI發(fā)展對基礎(chǔ)科學(xué)的反向突破
聊了這么多,其實有一個很反直覺的結(jié)論:AI能看見、能聽見、能識別氣味,但本質(zhì)上AI什么都「感受」不到。
AI比人類更純粹,它的本質(zhì)就是模式匹配,識別結(jié)果也更穩(wěn)定。人類視覺會受到情緒、經(jīng)驗、偏見的影響,所以才會有那么多視覺錯覺,但AI只會輸出識別結(jié)果:它能認(rèn)出這張圖里是小狗,但不會覺得小狗可愛,也不會產(chǎn)生想要保護(hù)它的情緒。
AI本質(zhì)就是模式識別:靠邊緣、形狀識別物體,靠頻率識別聲音,靠信號特征識別氣味,如果沒有對應(yīng)的模式樣本,AI就無法做出判斷,這本質(zhì)上也契合心理學(xué)中的模式識別理論。

AI領(lǐng)域唯一不變的就是變化,當(dāng)初卷積神經(jīng)網(wǎng)絡(luò)打下的視覺江山,其實也一直在進(jìn)化。
CNN給AI視覺指明了方向,之后視覺模型一直在不斷迭代:比如ResNet就是更深層的CNN,在2014到2019年被廣泛應(yīng)用,解決了深層網(wǎng)絡(luò)訓(xùn)練難的問題。
到2020年,Transformer開始被應(yīng)用在視覺領(lǐng)域,這其實是對CNN思路的一種突破。
CNN走的是「模仿人類視覺」的路線,而Transformer完全脫離了這個思路,不參考人類的生理機(jī)制,直接找算法層面的更優(yōu)解:它一開始就能直接處理整張圖像,通過自注意力機(jī)制建立全局關(guān)聯(lián),直接打破了CNN遵循的兩個生物學(xué)原則:
不再依賴局部感受野,直接建立全局信息關(guān)聯(lián)
不再逐層模擬人類的視覺處理路徑,讓機(jī)器直接跨區(qū)域關(guān)聯(lián)信息
這種脫離仿生的思路反而效果更好,不僅更擅長處理語義、場景這類復(fù)雜關(guān)系,更容易擴(kuò)展到大模型,還能統(tǒng)一處理文本、圖像、視頻多模態(tài)信息。
所以AI的發(fā)展路徑其實發(fā)生了一次很微妙的變化:一開始AI謙虛地模仿人類,沿著神經(jīng)科學(xué)的研究成果搭建框架,但當(dāng)AI技術(shù)逐漸強(qiáng)大之后,它開始脫離人類已有的科學(xué)認(rèn)知,去尋找更高效的理解世界的方式。
從CNN到Transformer,這不僅僅是算法的迭代升級,更是AI發(fā)展路徑的轉(zhuǎn)變:從「模仿人類智能」,逐步走向「創(chuàng)造新的智能」。
本文來自微信公眾號“紀(jì)源資本”,作者:紀(jì)源資本,36氪經(jīng)授權(quán)發(fā)布。
本文僅代表作者觀點,版權(quán)歸原創(chuàng)者所有,如需轉(zhuǎn)載請在文中注明來源及作者名字。
免責(zé)聲明:本文系轉(zhuǎn)載編輯文章,僅作分享之用。如分享內(nèi)容、圖片侵犯到您的版權(quán)或非授權(quán)發(fā)布,請及時與我們聯(lián)系進(jìn)行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com






