幾個月之前,IT行業發生了一件震驚全球的大事——ChatGPT 3.5公測版正式發佈。從那時起,我們對AI(尤其是生成式AI)的關注、創新和投資達到了空前的熱度。對比前幾次對AI的炒作,這次的不同之處在於生成式AI能讓我們以對話的方式與強大的AI工具進行交互,這種自然語言交互在與「類似人類的」創造力相結合後,能夠生成包括文本、程式碼、視訊、音訊在內的全新內容。
這一切都在告訴人們,我們正處在一次千載難逢的革命浪潮中,這將為軟體發展、客戶支援、銷售、市場等主要的業務部門帶來轉型機遇。新一輪AI創新浪潮的加快將對整個全球經濟產生深遠影響。有了生成式AI,我們可以透過解決不同學習者的差異性來重塑教育、幫助醫生做出臨床診斷、協助客戶做出投資決策等,這都還只是冰山一角,根據麥肯錫最近的一份報告顯示,生成式AI每年可為全球創造高達7.9萬億美元的經濟價值。
必須解決的三大挑戰
與以往此類大規模創新突破的早期階段一樣,我們在更加廣泛地採用AI方面,遇到了一些重大的障礙,而且若要在企業中充分發揮生成式AI的價值和潛力,我們必須共同解決三大核心挑戰。
挑戰一:將天價變成平價
訓練和管理當今的生成式AI模型既複雜又昂貴,需要耗費大量專用算力和高速網路以及無數記憶體。目前,AI模型的效能與運算基礎設施的實際比例為1:1,在這種情況下既無法擴展,也不可持續。風險投資機構Andreessen Horowitz最近將訓練ChatGPT這樣的模型描述為「人類迄今為止運算密集度最高的任務之一」5。目前,單次訓練的價格從50萬美元到460萬美元不等,而且隨著模型的更新,訓練將成為一項持續性的花費。
看到這些令人瞠目結舌的費用,許多人便得出結論:全球將只會有極少數像ChatGPT這樣的「超大型LLM」。但其實還有另一條出路,未來一般企業都將能以可承受的價格構建並運行自己的定制化AI模型,這條路的關鍵在於靈活性和選擇性,儘管大多數資訊長都計畫使用超大型LLM來處理各種案例,但他們也想要構建大量較小的AI模型,以便針對特定任務進行優化。這些模型通常基於開源軟體。事實上,目前開源AI模型的創新數量之大令人吃驚。可以預見的是,許多企業將把這些開放模型作為許多案例的首選,而不再依賴目前佔據主導地位的大型專有LLM。
這些開放的專用模型將充分利用企業獨有的知識財產——領域專用資料。我們可以在專門的基礎設施上經濟且高效地運行這些較小的AI系統,包括更加便宜的GPU(圖形處理單元)以及經過改良的低成本CPU,提供AI工作負載所需要的性能和輸送量。透過降低成本以及構建兼具靈活性和選擇性的解決方案,我們可以開闢一條對於主流企業來說更加可及的AI創新路徑。
挑戰二:將專業的AI知識變成普通人可以理解的AI知識
如今,AI模型的構建、微調和運行都需要高度專業化的人才,而且這些人才供不應求。執行長和資訊長幾乎都會把它列為首要難題之一。他們敏銳地意識到AI開源軟體領域發展迅速,並希望在最新的創新成果出現時,能夠快速、輕鬆地遷移過去,而不會被鎖定在任何一個平台或廠商上。如果只有很小一部分專業技術人員懂得當今AI模型背後的「奧秘」,那麼就很難實現這種適應性。
為了填補這一技能缺口,我們需要從根本上簡化構建和訓練AI模型的流程與工具。這便是參考架構的「用武之地」,大部分由於內部人員缺乏相關專業知識而無法從頭開始構建AI解決方案的企業機構可透過它獲得藍圖和可行的途徑。
挑戰三:將風險變成信用
最後或許也是最重要的一點是,我們需要將風險變成信用。當前的AI模型會帶來隱私問題、法律和監管問題、智慧財產權洩露等巨大的風險。這些風險有可能損害公司聲譽、傷害客戶和員工並對收入產生負面影響。在員工不小心將敏感的內部資料洩露到ChatGPT等工具上後,許多企業都制定了限制員工使用生成式AI工具的政策。同時,當今的生成式AI系統還缺乏基本的信用,它們經常會產生「幻覺」,創造出無意義、無關和/或不準確的新內容。
因此我們行業需要制定一套強有力的道德準則來保障並加強公平性、隱私性、責任追究、他人的智慧財產權以及訓練資料的透明度。一個龐大且不斷擴張的組織生態正在努力解決AI可解釋性7、資料完整性8和資料隱私9等核心問題。這個開源社群正作為這場運動的中心進行創新,努力幫助企業以安全可控的方式訓練和部署AI模型。
下一輪技術創新浪潮
正如行動應用革命在過去15年中改變了商業以及我們與技術的關係,新一輪AI應用浪潮將大幅提升工作者的生產力並加快全球經濟發展。我們正處於新一輪超級創新週期的初期。我們共同面臨的挑戰是如何讓這項強大的新技術變得更加經濟、可實現和可信。