男女做羞羞事网站在线观看-成人福利视频网站大全-国产乱码精品一区二区三区AV-日本黄色爱爱视频网站-91久久精品人妻一区二区-激情内射美女在线视频-三上悠亚在线观看的吗-亚洲国产午夜精品理论片在线播放-精品人妻一区二区三区午夜

【行業(yè)新聞】可靈3.0加入AI拜年戰(zhàn)場!人在工位搓好萊塢大片,分鏡邏輯封神

不是,誰也沒跟我說今年的AI春節(jié)大戰(zhàn)搞得這么猛猛猛啊!?!

年還沒到呢,可靈就超絕不經(jīng)意甩出一個「過大年計劃」:推出可靈3.0多模態(tài)全家桶。

讓每個人,都能上桌當(dāng)——大導(dǎo)演。

我主打一個先嘗為快!先看我導(dǎo)的這出《拳王》(賽博版)動作大戲,10秒鐘狂切6個分鏡頭:好萊塢大片也是手拿把掐,10秒鐘切換7個鏡頭,從引擎轟鳴火花飛濺,再到男女主激烈爭執(zhí),讓我這個導(dǎo)演有點汗流浹背了..災(zāi)難片自然我也不在怕的,濃霧封城、街道廢棄、廣告牌瘋狂搖晃……咋樣,是不是有點《后天》內(nèi)味兒了:

 

反正這波實測下來我最直觀感受就是:

智能分鏡能力確實夯,模型確實更能理解鏡頭語言了,像文字和人物的一致性上表現(xiàn)也蠻超出預(yù)期。

具體哪些功能最好用、適合啥樣的使用場景,我也幫友友們整理好了(省流版):

1)智能分鏡|音畫同步|主體一致性:特別適合做多鏡頭多對話的AIGC視頻,在AI短劇、影視這類場景非常適用。

2)文字一致性:賊適合處理AI電商廣告等場景的文字信息,文本形態(tài)基本能做到1:1還原!

具體實測效果咱往下看,順帶也歡迎大家來評評我這幾部春節(jié)檔大片,導(dǎo)的水平到底行不行?

先來測測:視頻3.0

跟手動拆分鏡說byebye

咱們?nèi)粘I梢曨l時,一直不停反復(fù)抽卡的主要原因之一便是——提示詞太長、鏡頭太多,視頻模型接不住。

尤其是經(jīng)常做AI短劇、AIGC自媒體的朋友,對鏡頭切換的數(shù)量和質(zhì)量要求都比較高,這類問題就更明顯了……

好消息是,在全新的可靈視頻3.0生成頁面中,直接給模型安排上了個「分鏡」小版塊,長下面zhei樣:平臺一共給咱提供了兩種形式:智能分鏡和自定義分鏡。

我在智能分鏡中,我們可以直接把一整段包含多鏡頭、多動作、多角色的提示詞一股腦丟進(jìn)去,AI會自動幫我們分成不同的鏡頭。

我最近正好在重溫《甄嬛傳》,但光看劇已經(jīng)有點不過癮了,索性直接讓AI來一段后宮宮斗cut,于是我給它喂了一大段帶雙人對話、明確鏡頭切換的復(fù)雜提示詞:

 

于是乎,一個陰雨夜貴妃貓娘娘和大臣小狗對峙的宮斗片段的畫面就新鮮出爐了,別說還真有點緊張刺激那味兒了?我給出的提示詞中涉及了一個場景,四個鏡頭,兩段角色對話和一個背景音樂。

先說優(yōu)點,我只能說這智能分鏡確實挺智能,涉及到的鏡頭、臺詞全部1:1地還原了,respect啊!

在音頻處理上,小貓和小狗的語氣、情緒和臺詞匹配度很高,發(fā)音里的輕重緩急也處理得不錯,角色的表情和眼神跟對白對得也很準(zhǔn)。

唯一的大bug:背景音樂沒給我生成要,是能再來一段BGM就更對味兒了……

咱再玩點有意思的,來點跨界融合看看效果,我給出的提示詞如下:

 

大明星貓貓一個眼神給出去,直接現(xiàn)場教學(xué)啥叫“身體成了一個X型”,別說這小身材搭配這小眼神整的還挺曼妙:角色情緒和眼神動作都完全拿捏到位,而且貓貓的特寫鏡頭給的特別好,看來這AI是懂點鏡頭語言的。

唯一的小bug出現(xiàn)在了臺詞上。

原本提示詞里明確是小狗說“老師”,但模型在生成時把這句臺詞順帶分給了小貓,導(dǎo)致角色說話的對應(yīng)關(guān)系被打亂,整體臺詞邏輯出現(xiàn)了點偏差~

(我猜可能跟我提示詞的動詞太多有關(guān)系……)

總的來說,智能分鏡本身是靠譜的,多鏡頭結(jié)構(gòu)基本不會出大問題,只是在臺詞和音頻分配上偶爾會冒出一些小bug~

人物一致性更穩(wěn)了

咱平日里只要生成涉及「主體角色」的AI視頻,有個幾乎90%都會遇到的問題——

角色明明只是換了個動作,結(jié)果上一秒和下一秒長得就已經(jīng)不是同一個人了……也不知道可靈這回受了啥啟發(fā),在視頻3.0中直接搞了個多圖或視頻的主體參考功能。

我們可以直接綁定人物角色形象,并上傳不同視角的參考圖,這樣一來模型在主體識別上就更穩(wěn)穩(wěn)穩(wěn)了。

當(dāng)然,穩(wěn)不穩(wěn)還得——實測說了算!

為了更好考察模型的主體遵循能力,這次我喂給AI的是一段包含人物多視角、多動作的提示詞,并上傳了兩個不同視角的人物形象照:一個火急火燎、趕著打卡的上班牛馬,在馬路上橫沖直撞的名場面視頻,這不就到手了嘛(doge):為了讓友友們更清楚地做對比,我把我輸入和輸出的角色形象截取對比了一下,大家覺得主體一致性表現(xiàn)如何???emm…我是覺得鏡頭1和3和我給的原參考形象是近乎1:1還原的,但是鏡頭2就明顯出現(xiàn)了問題。

人物的膚色明顯變深了,發(fā)型也從原本的斜偏,直接變成了寸頭……

我懷疑這里頭的原因可能是因為我喂給AI的本身沒有嚴(yán)格意義上的正面形象,所以AI自己腦補(bǔ)了一下?

整體來說可以給個80分內(nèi)樣。字形穩(wěn)得住,方言還得再練

這次,可靈視頻3.0打的第三個招牌就是——字形保留高保真。(翻譯:俺們AI生出來的字兒不變形

好大的口氣,大家都要知道,相比角色一致性,文字一致性其實更難。

那我就不客氣了,這次我給出AI的需求指令中,明確提到了光影變化、鏡頭切換以及旁白配合的多鏡頭場景,這就要求AI在不斷運動和切換的過程中,依然能保持較高的文字一致性:大家伙快來看看,AI給我搓出來了個近乎達(dá)到「商用水平」的香水廣告宣傳片demo:即便鏡頭處在持續(xù)旋轉(zhuǎn)運動中,香水瓶身的logo文字依舊保持清晰、不變形。

這其實也說明了模型在文字結(jié)構(gòu)理解、空間變換下的穩(wěn)定渲染以及跨鏡頭一致性保持上的能力已經(jīng)相當(dāng)扎實了。最后,咱再來試一個可靈3.0視頻模型中我自認(rèn)為非常有意思的一個能力——說方言。

按照官方的說法,模型支持中、英、日、韓、西多語種生成,四川話、粵語等地道方言與各地口音。

要是這樣的話,我有個大膽的想法,咱讓奧特曼和馬斯克跑天津來吃煎餅果子,順便來一段地地道道的“貫口”:倆人大褲衩子大背心一穿,吃大餅吃的那叫一個香啊,你別說,還挺入鄉(xiāng)隨俗???畫面這塊基本沒啥可挑的,直接給滿分,人物主體一致性也確實還原得很到位,馬斯克和奧特曼本人看了估計都得一愣!!!

但問題也很明顯,咱這一題考的其實是方言能力,事實上,兩位一個天津話沒說對,一個北京話也沒對上,反倒普通話說得相當(dāng)標(biāo)準(zhǔn)……

我一度懷疑是不是AI對北京話、天津話不太熟,于是我索性再加一道題,讓AI再生成了一個兵馬俑說四川方言的視頻:這回對味兒了,雖然兵馬俑長相有點驚悚,但是這四川話說的倒是蠻厲害的。

(有沒有四川的朋友點評一下,這口音說的正宗不??)

再來測測:視頻O3 OMNI

除了O3視頻模型,可靈這次還順手上新了另一位全能視頻選手——O3 OMNI,那這OMNI具體能干點啥呢:

  • 主體相似度上了一個level,模型對復(fù)雜提示詞的理解更到位了,用在多鏡頭、多動作場景里更穩(wěn)。

  • 上傳一段3–8秒的角色視頻就能提取外觀和聲音,多圖主體模式下再補(bǔ)一段3秒以上人聲就能綁定固定聲線。

  • 支持原生自定義分鏡,視頻時長也升級到15秒,很適合需要講清楚一段故事、或者做中長視頻內(nèi)容的友友。咱先來看對復(fù)雜文本指令的遵循能力如何~

這次我喂給AI一段同時考察主體一致性、連續(xù)加減速的運動理解,以及多區(qū)域切換時的鏡頭跟隨與時序控制的提示詞:

 

10秒內(nèi),萬圣節(jié)的小兔子完成了跳躍動作,并依次穿過落葉地面、南瓜燈和墓碑三個區(qū)域,自動補(bǔ)全了參考圖中未給出的萌萌視頻,不戳不戳!!接下來玩玩分鏡頭敘事功能。暴露出來的問題也不少:第一幀背景白底直接出錯,后半段香蕉貓的嘴形沒對上,角色和背景的融合度也偏低,整體看下來,這是這輪里生成效果最差的一個……

(我是覺得不如智能分鏡的效果好)

而且說實話,對我來說這種需要自定義鏡頭的方式也略微麻煩。

既要上傳參考圖,又要自己拆分鏡頭、逐一標(biāo)注每個鏡頭的主體,如果折騰這么一圈,最后生成效果還不理想,u1s1,多少會有點難受……

感覺「自定義分鏡」功能還是更適合對提示詞和分鏡腳本比較熟的朋友去用。

如果需求沒那么高、又像我一樣對提示詞不算精通的話,還是更推薦大家直接用「智能分鏡」。

注:文章來源于微信公眾號《量子位》。

首頁_07180934_815    行業(yè)新聞    【行業(yè)新聞】可靈3.0加入AI拜年戰(zhàn)場!人在工位搓好萊塢大片,分鏡邏輯封神
創(chuàng)建時間:2026-02-09
瀏覽量:0

請完善以下信息,獲取完整案例資料!

聯(lián)系電話 *

姓名

公司名稱

意向方案選擇
咨詢問題 *