作者|James
3月初,AI公司月之暗面(Kimi)據報完成了新一輪超過(guò)10億美元的融資,投資方包括紅杉中國、小紅書(shū)、美團、阿里等。Kimi引爆了資本市場(chǎng)的新一波熱情,甚至出現了“Kimi概念股”。
視智未來(lái)注意到,這輪融資進(jìn)行時(shí)公司估值達到25億美元,意味著(zhù)創(chuàng )始團隊在這一輪融資中出讓了 40% 的股份。換句話(huà)說(shuō),如果基于公開(kāi)報道推斷,月之暗面創(chuàng )始團隊手里的股份有可能已經(jīng)小于 50% 了。
這次陣勢極大的新融資,一舉將Kimi從原來(lái)的第二梯隊玩家,推進(jìn)了中國大模型最亮眼的獨角獸行列;同時(shí),也似乎把人們重新帶回了10年前一度暗淡下去的,那份對于中國互聯(lián)網(wǎng)行業(yè)黃金時(shí)代的回憶當中,尤其是擔心創(chuàng )始人稀釋的風(fēng)險,有時(shí)甚至會(huì )喪失對公司的控制權。這種情況之前就頻繁發(fā)生在摩拜等共享單車(chē)領(lǐng)域,以及去哪兒、拉手網(wǎng)等競爭烈度極高且資金需求極大的領(lǐng)域。
跟那個(gè)時(shí)候相比,現在的國內各路資金,不論是大廠(chǎng)還是私募,確實(shí)仍然處于“缺錢(qián)”狀態(tài)。而AI公司特別是基礎大模型公司,跟之前那些燒錢(qián)換市場(chǎng)的“微創(chuàng )新”相比,又似乎是真的需要錢(qián)。
“我覺(jué)得他們幾乎拿走了市場(chǎng)上的所有資金?!泵鎸σ曋俏磥?lái)采訪(fǎng),規模較小的AIGC應用層創(chuàng )業(yè)者這樣說(shuō)。
“我們還需要大量資金,10億肯定還不夠?!痹诿鎸σ曋俏磥?lái)提問(wèn)時(shí),Kimi相關(guān)人士這樣說(shuō)。
風(fēng)云變幻之間,原先以為斷崖式領(lǐng)跑的廠(chǎng)家們,現在再看似乎也沒(méi)有那么遙遙領(lǐng)先。初期“百模大戰”的浮躁褪去,仍有玩家在退潮后幸存,進(jìn)入下一輪游戲,但他們沒(méi)人敢高枕無(wú)憂(yōu)。
歷史確實(shí)不會(huì )重復,但是一直在押韻。Kimi帶來(lái)的熱度,是意味著(zhù)一個(gè)新的互聯(lián)網(wǎng)10年周期的開(kāi)啟?
VOL.1
誰(shuí)是真·長(cháng)文本
200萬(wàn)字(token)的長(cháng)文本處理能力,是月之暗面長(cháng)期主打的唯一差異化定位。
對上下文長(cháng)度的規模拓展(Scaling)已經(jīng)迅速成為一種趨勢。中信建投研報指出,長(cháng)文本能力能將大模型應用場(chǎng)景拓展至長(cháng)文總結、劇情創(chuàng )作、代碼復現等復雜任務(wù),且可以直接基于全文理解進(jìn)行問(wèn)答和信息處理,從而緩解大模型“幻覺(jué)”問(wèn)題。
在Kimi穩定支持200k(20萬(wàn)字)之前,其它模型的文本能力如下:
GPT-4從一開(kāi)始的4k、8k拓展到了GPT-4-turbo的128k。
Claude2支持200k的輸入。
百川、零一萬(wàn)物首次發(fā)布的模型也接近支持200k。
去年底,Gemini 1.5 Pro一次性將文本輸入長(cháng)度拉到1m,但據第三方測試,效果很差。
在月之暗面“出圈”后,其他家在支持長(cháng)文本方面的升級進(jìn)度,幾乎在一夜之間趕了上來(lái):
百度文心一言:200萬(wàn)-500萬(wàn)字;
360智腦:500萬(wàn)字;
阿里通義千問(wèn):1000萬(wàn)字;
巖山科技Yan自稱(chēng)“無(wú)限長(cháng)度”。
就在近期,阿里發(fā)布通義開(kāi)源模型1.5的32B版本時(shí),還引入了一個(gè)叫“大海撈針”的趣味能力測試,也就是在長(cháng)文本中隨機放入與主題無(wú)關(guān)的文字,并讓大模型找出。他們說(shuō),這可以證明它并不是依靠自己的知識庫或者幻覺(jué),而是依靠用戶(hù)提供的文本作答。
不過(guò),當視智未來(lái)問(wèn)到:“您怎么看待其他模型公司在發(fā)展長(cháng)文本技術(shù)?”的時(shí)候,Kimi相關(guān)人士的回答充滿(mǎn)了領(lǐng)先的自信:“我們最近發(fā)現回應這個(gè)問(wèn)題挺難的。你比如說(shuō),誰(shuí)在發(fā)展長(cháng)文本技術(shù)?(其他家)這些其實(shí)都不是真正的長(cháng)文本。他們只是用技術(shù)術(shù)語(yǔ)說(shuō)自己能做到而已?!?div style="height:15px;">
該人士提到,大模型基于前文來(lái)預測下一個(gè)字,前文越豐富,預測越準確。這里的“前文”就是預測的窗口。
“我們已經(jīng)將窗口擴展到200萬(wàn)。我們使用的是負注意力機制,進(jìn)行全面采樣,不進(jìn)行降采樣。他們還停留在8000字的限制,他們的模型基于這個(gè)范圍,從資料中搜索片段,拼合進(jìn)8000字中,然后提供信息?!?div style="height:15px;">
“他們的模型缺乏足夠的上下文來(lái)回答問(wèn)題,就像是考試時(shí)準備的小抄,可能有用,也可能沒(méi)有。我們的方法則是完整閱讀并理解每個(gè)字,然后進(jìn)行交流和討論?!?div style="height:15px;">