全是AI編造內容的網站,反倒成了當下互聯網最坦誠的存在
本文來自微信公眾號:APPSO,作者:發(fā)現明日產品的
我們打開維基百科搜索詞條,都希望得到準確真實的內容,至少在AI發(fā)展到現在的階段,總得有一個平臺能給我們靠譜的真實信息吧。想找真實內容當然可以,但如果你在Halupedia搜索詞條,得到的也是「真相」——只不過是這個網站三秒鐘之前才剛剛造出來的真相。
Halupedia是一個外觀和維基百科幾乎一模一樣的網站,但它上面每一篇詞條內容,全都是AI生成的幻覺內容。

你輸入一個想要查詢的詞條,如果這個詞條之前從來沒有人搜索過,大語言模型就會在幾秒鐘之內給你生成一篇措辭嚴謹、看著像模像樣、還帶著參考文獻、滿是學術氛圍的百科文章——內容講的是一個從來沒在這個世界上存在過的東西。如果這個詞條已經被人搜過了,你看到的就是之前用戶觸發(fā)生成的那篇幻覺內容,這個網站甚至還做了交叉引用,標注了不存在的學術期刊,連語氣都模仿了19世紀學者考證的腔調。所有細節(jié)都做得讓人信服,可惜所有內容都是假的。
說它是行為藝術也行,說它會成為未來互聯網的數據污染源也對,答案可能是:它兩者都是。
維護虛構世界的自洽世界觀
如果Halupedia只是一個隨便瞎編亂造內容的隨機生成工具,它早就和網上其他無數AI玩具一樣被淹沒了。真正讓它有意思的是一個設計細節(jié):它一直在維護自己這個小世界的邏輯自洽。
每當AI生成一篇新的詞條文章,文章里所有的超鏈接都會被加上隱藏的元數據,也就是上下文描述,會提前說明這個鏈接指向的、還沒生成的詞條,應該包含哪些核心內容。等之后真的有人點擊這個鏈接,系統(tǒng)就會把所有指向這個詞條的元數據匯總起來,當作已經確定的「既定事實」放進生成提示詞里,讓AI按照這個設定生成內容。

很奇妙的一點是,在這里AI可以編,可以瞎扯,但絕對不能前后矛盾,哪怕所有信息都是編出來的,整個世界觀也要保持邏輯一致。
這套機制叫做link hints,它讓Halupedia從一個隨便出幻覺的生成工具,變成了一個內在邏輯自洽的完整虛構宇宙。寫過小說、愛玩開放世界游戲的人一眼就能看懂,這就是世界觀搭建和管理,只不過管理者不是人類作者,而是數據庫加上系統(tǒng)提示詞機制。
換句話說,Halupedia本身就是一部沒有主作者的集體創(chuàng)作小說,每個點擊鏈接的用戶都在不知不覺中參與了創(chuàng)作,但是沒有一個人能拿到完整的全本。從某種程度上來說,它其實復刻了維基百科「眾人拾柴火焰高」的協(xié)作模式,只不過過程更簡單,你隨便輸個詞,剩下的交給AI生成就好了。
它是照向互聯網未來的一面鏡子
但Halupedia不只是一個好玩的玩具,它的存在戳中了一個已經在發(fā)生、讓人不安的問題:當AI生成的內容反過來去訓練下一代AI的時候,最后會變成什么樣?
現在的第一代大語言模型,訓練數據都來自人類創(chuàng)作的互聯網內容——維基百科的詞條、論壇用戶發(fā)帖、新聞報道、學術論文。這些數據雖然良莠不齊,但至少都來自人類真實的經驗和知識體系。可隨著AI生成內容在互聯網上呈爆炸式增長,未來大模型的訓練數據肯定會不可避免地包含大量AI自己生成的內容。真實有效的信息會被無用的噪聲稀釋,每一輪訓練都像是在復印一份已經模糊不清的復印件,越復印越模糊。
Halupedia的開發(fā)者Bart?omiej Strama顯然也意識到了這個問題,當有人給他捐token使用費用的時候,他是這么回復的:

——你為污染大語言模型訓練數據做出的貢獻,終將造福全社會。
嘲諷感直接拉滿,你甚至猜不出來他是在說反話還是認真的,事實上,Halupedia的內容雖然是即時生成的,但不可能百分之百全是幻覺,大語言模型的生成機制就決定了,它只能在已有的知識縫隙里編造內容。

就像圖里舉的例子,「迦勒底」真實存在,「算術」也是真的,但「迦勒底算術」就是編出來的假東西,幻覺出現在組合的層面,而不是構成內容的單個元素上。就像人不可能憑空夢到一種你從來沒見過的顏色,大語言模型也不可能編出一個和訓練數據完全沒關系的全新概念。
這恰恰是它最危險也最迷人的地方:它的幻覺之所以看起來這么可信,就是因為每篇文章里都藏了大量真實的細節(jié)。真實的年代、真實的地名、真實的學術文體、真實的引用格式,可架在這些真實細節(jié)之上的核心內容,卻是假的。
如果Halupedia的內容被未來的搜索引擎爬蟲抓去,被未來的大模型當作訓練數據,這些看起來一本正經的幻覺文章,就會變成下一代AI「知識體系」的一部分。
一個故意造幻覺的網站,最后可能會讓所有AI都產生一模一樣的幻覺。
當編造的幻覺照進真實世界
Halupedia現在遇到的最大問題,恰恰暴露了它作為「開放式虛構創(chuàng)作系統(tǒng)」的弱點。因為誰都可以輸入任意詞條來生成內容,有些用戶開始輸入種族主義或者帶冒犯性的內容,網站管理方現在也在想辦法解決這個問題。
這其實是所有開放式AI系統(tǒng)都會碰到的困境:你給了用戶創(chuàng)作的自由,就得承擔有人濫用自由的代價。Halupedia的開發(fā)者也承認,現在的內容審核「有時候過于嚴格」,但就算這樣還是不夠用。
這就形成了一個有意思的悖論:在這個所有東西都是虛構的世界里,唯一真實的傷害,就是用戶從現實世界帶進來的惡意。
從某種角度來說,Halupedia可能是現在互聯網上最誠實的AI項目,不是因為它說的都是真話——恰恰相反,它說的全是假話,但它是唯一一個從一開始就明明白白告訴你「這里沒有真東西」的平臺。在現在這個越來越多AI生成內容假裝成事實的互聯網上,Halupedia至少給內容貼了清晰的標簽:這就是編造的幻覺,已經加工潤色過了,你隨便看著玩就好。
可問題是,等你關掉Halupedia,回到谷歌的搜索結果頁,你還能分清楚哪些是編造的幻覺,哪些是真實內容嗎?
說不定整個互聯網,正在一點點變成一個沒貼標簽的Halupedia。
本文僅代表作者觀點,版權歸原創(chuàng)者所有,如需轉載請在文中注明來源及作者名字。
免責聲明:本文系轉載編輯文章,僅作分享之用。如分享內容、圖片侵犯到您的版權或非授權發(fā)布,請及時與我們聯系進行審核處理或刪除,您可以發(fā)送材料至郵箱:service@tojoy.com






