生成式 AI 技術顛覆以往使用 AI 的方式,並深入各領域發展出多樣化的創新應用,而媒體產業在此波浪潮下也沒有缺席。相信大家對於在民視主播台上播報國際氣象的「敏熙」主播並不陌生,專攻影像技術的光禾感知以 AIGC(AI Generated Content,人工智慧生成內容)技術,結合微軟 Azure AI 語音服務,為民視新聞打造台灣首位 AI 生成的虛擬電視新聞主播,於六月底正式亮相以來廣受各方好評,更是擄獲無數觀眾的心。
光禾感知整合微軟技術與民視新聞專業 打造擬真 AI 主播「敏熙」
本次合作集結影像、聲音與新聞製播等三方專業技術,由光禾感知生成 AI 虛擬主播影像後,搭配微軟 Azure AI 的語音合成技術產出發音自然、流暢的播報人聲,再借助民視新聞多年新聞製播經驗,以及豐富的新聞播報、訪談節目等高畫質新聞影像資料庫進行形象優化,量身打造專屬於民視的 AI 主播模型。
身為台灣微軟及民視新聞雙邊合作多年的產業夥伴,光禾感知科技執行長王友光指出:「光禾感知 2022 年底開始投入 AI 主播製作,透過大量蒐集照片作為訓練原料,以擴散模型(Diffusion model)為技術基底,訓練出能夠生成動態圖像的模型,完成主播臉孔塑造。很高興此次與台灣微軟攜手促成民視『敏熙』主播的誕生,展現生成式 AI 於影像生成領域無限的技術發展潛力。」
除了外貌,聲音在新聞播報中亦扮演重要角色,微軟 Azure AI 語音服務的 TTS(文字轉語音)及 Viseme 技術即為實現敏熙主播自然且順暢人聲關鍵。不同於傳統如機械音般的文字轉語音服務,Azure AI 語音服務擁有豐富模型,提供 140 種語系以上、超過 400 個近似真人發音的預建神經語音模型供選擇。除了預建模型,Azure AI 語音服務還支援自訂模型,可根據您的需求調整語音的風格、速度、音調等參數,進而生成貼近真人主播具備情緒及抑揚頓挫的語音,展現出結合 AI 與美感的傳播科技成果。
此外,透過 Viseme 技術還能提升虛擬主播嘴型與播報文字精準度。Viseme 技術能夠在說話過程定義臉部及嘴唇、下顎及舌頭等位置,使虛擬主播臉部嘴型與語音的結合呈現更為自然。兩者技術相輔相成不僅能生成嘴型與聲音吻合的 AI 臉部影像,也能進一步實現多國語系主播的可能,敏熙現在已可以進行綜合中文及英文的播報內容。
AI 科技建構新聞新氣象 微軟擴大跨域產業生態圈
除了啟用虛擬 AI 主播外,民視也透過相關技術協助即時翻譯、資料搜尋整合與除錯等前期業務,在科技的輔助下增加新聞內容的豐富度。台灣微軟商務事業群總經理李光耀表示:「微軟將持續導入 AI 前瞻技術,延伸生成式 AI 觸角至各產業,實踐智慧創新應用。此次合作成功展現生成式 AI 技術為產業帶來的無限可能,我們也樂見透過電視新聞的傳播,帶動 AI 之於個人及產業的正向影響力。」
作為台灣新聞界專業領航者,民視在新聞製播擁有深厚的經驗及資源,因此能透過大量新聞播報畫面資料訓練 AI 模型,為播報的擬真程度提供絕佳樣本。民視新聞傳播群副總經理胡婉玲分享:「民視不只看到生成式 AI 技術為新聞產業帶來的嶄新機會,也充分評估相關風險並恪守相關法規與新聞倫理,禁止採用 AI 生成之新聞內容,確保所有 AI 虛擬主播的播出內容皆由編輯撰寫並依循既有審核流程,在發展新聞多樣性的同時,也維持高度正確性。」
民視 AI 主播「敏熙」六月上線後,獲得市場及觀眾熱烈迴響,並持續由三方進行播報精準度提升,在聲音方面微軟藉由結合最新 AI 技術而更加擬真的 TTS 及 Viseme 技術不斷優化聲音的呈現,光禾感知則網羅民視豐富且涵蓋中文、英文、台語、客語等語言之 4K 高畫質新聞影像資料庫,持續訓練全新影像模型,呈現細緻的臉部肌肉紋路,確保整體脣形、聲音及肢體語言更加擬真與自然。
目前「敏熙」主要於民視無線台晚間《全球看民視》、民視新聞台晚間六點十二分左右以及午夜新聞播報國際氣象,未來亦將於各時段節目或重點新聞預告播報。