越獄(Jailbreaking)是一種突破內建限制或「防護欄」技術,這些防護設計用來防止生成禁忌內容,這一直以來都是 AI 資安的挑戰。Unit 42 的研究人員已經識別出三種有效的方法,可以破壞 DeepSeek 的安全機制:
- Deceptive Delight:這是一種直接的多回合越獄技術,適用於大型語言模型(LLMs)。它透過將不安全的話題與無害的內容混合在正面敘事中來繞過安全措施。攻擊者首先要求 LLM 創建一個將這些話題聯繫在一起的故事,然後請求對每個元素進行詳述,這通常會觸發不安全內容的生成,即使是討論無害的元素。若加上針對不安全話題的第三個提示,則可進一步放大危險的結果。
- The Bad Likert Judge:這種越獄技術通過讓 LLM 評估回應的危害性,並使用李克特量表(Likert scale)來衡量對某一陳述的同意或反對程度,來操縱 LLM。接著,LLM 被提示生成與這些評分一致的範例,其中評分最高的範例很可能包含所需的有害內容。
- Crescendo:這是一種簡單卻非常有效的越獄技術,利用 LLM 自身的知識,通過逐步提供相關內容來引導對話,巧妙地將話題引向禁止的領域,直到模型的安全機制被有效繞過。這種逐步升級的方法通常在五次互動以內完成,使得Crescendo越獄非常有效,並且難以被傳統的越獄反制措施偵測到。
研究顯示,這些越獄技術可以提取明確的指導,供一系列惡意活動使用,包括資料竊取工具、鍵盤側錄器的創建,甚至是製作引爆裝置的指導。這些能力不僅凸顯了此類攻擊所帶來的實際資安風險,還強調了員工在業務流程中依賴未授權第三方大型語言模型(LLM)所帶來的危險。
Unit 42 的 DeepSeek 越獄研究顯示,我們不能總是信任 LLM 會按照預期運作——它們是可以被操控的,Unit 42 亞太及日本區副總裁暨執行合夥人 Philippa Cogswell 表示。「企業在將開源 LLM 應用於業務流程時,必須考慮這些漏洞。我們必須假設 LLM 的防護機制是可以被突破的,因此必須在組織層級建立防護措施。」
她進一步補充道:「隨著企業將這些模型應用於工作流程,我們必須假設威脅行為者也在做同樣的事——目標是加速網路攻擊的速度、規模與複雜度。我們已經看到國家級威脅行為者利用 OpenAI 和 Gemini 發動攻擊、改善釣魚詐騙誘餌,甚至編寫惡意程式。我們預期,隨著他們精進 AI 和 LLM 的使用,攻擊者的能力將愈加先進,甚至開始構建 AI 攻擊代理。」
儘管完全防範所有越獄技術仍具挑戰性,企業可透過監控 LLM 的使用來降低風險,特別是在使用未授權的第三方模型時。Palo Alto Networks 提供的解決方案,結合 Precision AI,旨在幫助企業減少來自公共生成式AI 應用的風險,同時繼續推動企業的 AI 採用。此外,Unit 42 的 AI 資安評估提供了一條加速創新、提升生產力和強化資安防護的途徑。
欲了解更多資訊,請點此。
- 本文為作者投稿,僅代表作者個人之觀點與意見,與本平台立場無關。涉及之著作權、言論及法律相關責任,均由作者自行承擔。
- 我已確實了解,台灣新聞聯播網擁有審核及決定是否刊登的權利。如新聞稿有違反法規或被檢舉的疑慮,台灣新聞聯播網有權將其下架刪除,且不另行通知及解釋。