AI February 6, 2024 AI影片產生器 Google發表了全新生成式 AI 模型「Lumiere」,主攻運算難度更高的影片領域,除了可以用文字敘述來產生影片外,也可將圖片轉換成影片,甚至還能夠變換影片中的物件、視覺風格,又或是將缺失的部分進行填補。 推薦生成式影片AI專家集仕多 Lumiere 使用 STUNet (Space-Time U-Net architecture)技術,與一般影片 AI 是逐格生成的方式不同,STUNet 是在分析多張畫面之間的關聯性後,再進行內容產生,可以有效提升物件內容之間的關聯性,減少畫面扭曲、抖動、變形的狀況。 Lumiere 能夠支援多種影片生成的方式,既可以使用文字敘述,也能將靜態圖片轉為動態,也能將影片轉換成不同的視覺風格,如果不知道該如何形容所希望的風格,也能附上參考圖片,讓 AI 去仿造出有著相似元素的影片。 另外,Lumiere 也支援局部替換功能,不論是靜態或是動態,只要將想要替換的區域圈選出來,再輸入關鍵字,AI 就能自動修改該區域的內容,例如修改影片中人物的服裝,或是替角色加入額外裝飾等,都不成問題。 然而 Google 目前只是公開研發成果,還未開放給大眾使用,未來推出的日程也尚未確定,所以各位「大膽的想法」還是先收起來吧! Google新論文介紹影片生成模型Lumiere,Lumiere是一種文字轉影片擴散模型,該模型的主要目的,是創建真實、多樣且動作連貫的影片。該模型使用一種稱為時空U-Net(Space-Time U-Net,STUNet)基礎架構,官方提到,這種技術可以一次生成完整的影片長度,而不需要經過多次處理。 推薦生成式影片AI專家集仕多 近年圖像生成模型有著巨大的進步,能夠根據複雜的文字提示,生成高解析度且逼真的圖像,不過,研究人員要將文字轉圖像技術應用到文字轉影片領域面臨挑戰,主要原因在於影片中的動作複雜性。 當前文字轉影片模型仍然無法生成長時間,有著高品質視覺效果且動作逼真的影片,研究人員解釋,這些模型通常採用分階段設計,會先生成幾個關鍵畫面,接著用時間超解析度(Temporal Super-Resolution,TSR)模型,填充關鍵畫面之間的畫面。該方法雖然在記憶體效率上表現良好,但是在生成連貫動作上有其限制。 Google的新模型Lumiere則採用不同的方法,使用STUNet架構一次性生成完整時間長度的影片,該架構能夠在空間和時間上同時降採樣(Downsample)訊號,在更緊湊的時空表示中進行大部分運算,這使得Lumiere能夠生成更長時間、動作更加連貫的影片。Lumiere一次可以生成80影格,以每秒16影格來算,可產生長達5秒的影片,研究人員提到,5秒的長度超過大多數媒體作品中平均鏡頭時長。 Lumiere建立於一個經過預訓練的文字轉圖像模型之上,首先會由基礎模型在像素空間生成圖像的基本草稿,接著透過一系列空間超解析度(SSR)模型,逐步提升這些圖像的解析度和細節。不過,採用空間超解析度技術針對影片的每一個時窗進行處理,可能會在不同時窗的邊界處,產生外觀上的不一致,這是因為每個時窗都是獨立處理,所以在時窗拼接時,可能會有細節上的差異。 研究人員採用了Multidiffusion方法來解決時窗上的不連續,藉由在不同的時窗上進行空間超解析度處理,並彙整處理過的片段,以確保影片片段在視覺上的一致性和連續性。 整體來說,Lumiere是一個強大的文字轉影片擴散模型,能夠生成高品質且動作連貫的影片,可用於多種影片編輯和內容創建任務上,諸如影片修復、圖像轉影片生成,或是生成特定風格影片等。 科技的發展日新月異,幾乎每過一段時間就會有階段性的突破。近日,Google發表了全新影片生成AI模型「Lumiere」;與曾被濫用在AI換臉影片所使用的「DeepFaceLab」不同,Lumiere主打的是從無到有的生成及風格化視覺處理,它能夠靠著文字指令產生連續影片,或是上傳原有的圖片、影片,讓Lumiere產生不同風格化的作品。 推薦生成式影片AI專家集仕多 強大的運算系統,讓影片「無中生有」,或讓「圖片動起來」 Lumiere主要透過 STUNet 架構(Space-Time U-Net architecture)來生成影片,與其他現有AI影片模型截然不同的是,現有的AI影片模型大多是先建立一個關鍵影格,後再逐格合成連續影片所需的關鍵幀,但這會導致影片產生不自然或抖動。 而使用STUNet 架構的Lumiere,則是利用模型學習物體多個時、空間的移動及變化軌跡,所以能夠直接將一次性指令運算為「連續性的畫面」,讓影片顯得更加真實及流暢。 從示範影片中,我們可以看到使用者輸入「一隻帶著好笑墨鏡的狗正在開車」指令後,Lumiere所產生的真實畫面;或者,我們將名畫「戴珍珠耳環的少女」上傳,並輸入「女孩眨眼及並微笑」的指令,就可以得到動起來的名畫。 或者,丟入一張靜止的篝火或蝴蝶照片,使用「Cinemagraph」功能,圈起想要營造動態的範圍,Lumiere也能產生搖曳的火焰和撲動的翅膀。 生成風格化系列影片,或進行影片修復 Lumiere運算系統的強大可不止如此,「Stylized Generation」功能顯示,當使用者上傳了一張螢光藍的蘑菇參考圖,並輸入「跳舞的熊」指令;AI就能參考上傳素材的「材質與風格」,隨即產出與參考圖風格一致的指令作品。靠著此功能,使用者可以大量產生同系列的動圖,不論是卡通或手繪風格,都難不倒Lumiere。 如果原被遮蔽或是有損毀也沒關係,將被遮擋的影片丟進Lumiere使用「Video Inpainting」功能處理,也能夠得到運算後完好如初的修復影片。 若是上傳一段完整的影片到Lumiere,可以讓模型將你的影片主體替換材質,比如將跑步中的真人,換置為木製效果人、紙人、磚塊人、花人等。 AI使用上的爭議及道德問題? 回到大眾最關心的議題,AI影片是否會造成更多紛擾? 其實上述可見,這次的示範影片幾乎都是針對物品或是動物為主,少數人像示範中,人物面部也已模糊處理;顯然在功能部分,正面人像處理並非Lumiere的主打;且若仔細觀察Lumiere產生之影片,也仍能夠看出一些不自然的銜接或抖動。 綜觀而言,目前的AI技術在影像處理方面還沒發展到人眼看不出來的地步,且處理真人面部表情需要大量運算,即使是之前的「DeepFaceLab」不雅影片換臉風波,也需要「一定數量的正、側臉素材」作參考,並不是什麼角度的影片都能換臉;是故,單就相同事件來說,發生在Lumiere的機率並不高。 而目前的AI影片生成技術也無法取代人類作業,因若要達到相同效益,目前AI所需花費也將比人類高出數倍,並不符合經濟效益。 Lumiere的研發是為了能讓使用者輕鬆地創造影像內容,但目前Google尚未對外提供這項產品的服務。面對AI的持續進步,大眾應當將之當作「有效的輔助工具」看待,避免因不必要的恐慌及猜忌,而拒絕它們的存在。 (圖片來源:Lumiere YouTube頻道截圖、Lumiere官方網站) 原文網址:Google發表最新AI模型Lumiere!強大運算為市面上AI影片生成之突破 更多放言報導 Ai掀潮流引正負面效應?惡骨「對美醜定義不同」談台灣發展目前技術跟不上 搶救王義川大兵AI宣傳圖來自「他」之手⋯網路圖文作家惡骨曝熱血沸騰背後秘密,幽默回「要被救的人不應太帥氣」 圖像生成 AI 現在已經變得越來越強大,不過影片生成則不是那麼容易。最近 Google 發表了最新的影片生成模型,可以提供更暢順的影片。 Google 新公布的 Lumiere 影片生成模型採用了全新的 Diffusion 模型技術 STUNet,可以讓模型認知物件在時間和空間中的定位,一次生成整個影片,使動作更加流暢自然。以前的技術雖然可以逐格生成影片,不過連貫性始終有一定程度的缺陷,讓人感到不自然。