當(dāng)前位置:首頁(yè) >  科技 >  IT業(yè)界 >  正文

昆侖萬(wàn)維SkyReels-V3開(kāi)源,視頻生成進(jìn)入“全能”時(shí)代

 2026-01-30 13:26  來(lái)源: 互聯(lián)網(wǎng)   我來(lái)投稿 撤稿糾錯(cuò)

  阿里云優(yōu)惠券 先領(lǐng)券再下單

1月29日,Skywork AI正式開(kāi)源自研視頻生成模型SkyReels-V3。作為一系列多模態(tài)視頻生成模型,該系列支持參考圖像轉(zhuǎn)視頻(Reference Images-to-Video)、視頻延長(zhǎng)(Video Extension)和音頻驅(qū)動(dòng)虛擬形象(Talking Avatar)三大核心能力,在單一建模架構(gòu)中實(shí)現(xiàn)高保真多模態(tài)視頻生成,達(dá)到行業(yè)領(lǐng)先水平。

三大核心能力作為獨(dú)立模塊,每個(gè)模塊深度優(yōu)化且支持靈活組合。Skywork AI團(tuán)隊(duì)通過(guò)企業(yè)級(jí)數(shù)據(jù)處理、極速推理能力和高效的訓(xùn)練架構(gòu)等技術(shù)實(shí)現(xiàn),讓生成的視頻達(dá)到專業(yè)級(jí)效果,多項(xiàng)指標(biāo)達(dá)到或超越行業(yè)領(lǐng)先水平。

SkyReels-V3現(xiàn)已開(kāi)源,期待與你共創(chuàng)無(wú)限可能!

參考圖像轉(zhuǎn)視頻(Reference Images-to-Video):讓靜態(tài)圖像"活"起來(lái)

SkyReels-V3可根據(jù)1至4張參考圖像,并結(jié)合文本提示,生成時(shí)間連貫、語(yǔ)義一致的高質(zhì)量視頻序列。無(wú)論是人物形象、商品展示還是背景場(chǎng)景,生成的視頻都能精準(zhǔn)保留原始身份特征、空間構(gòu)圖和敘事連貫性。

其背后是Skywork AI團(tuán)隊(duì)在數(shù)據(jù)構(gòu)建、多參考條件融合和混合訓(xùn)練策略上的多重技術(shù)創(chuàng)新:

高質(zhì)量數(shù)據(jù)構(gòu)建:團(tuán)隊(duì)從海量視頻中篩選具有顯著動(dòng)態(tài)運(yùn)動(dòng)的素材,并采用跨幀配對(duì)策略確保時(shí)間多樣性。更為關(guān)鍵的是,利用圖像編輯模型對(duì)主體區(qū)域進(jìn)行提取、背景補(bǔ)全和語(yǔ)義重寫(xiě),有效避免了常見(jiàn)的“復(fù)制粘貼”偽影,從數(shù)據(jù)源頭保障了生成質(zhì)量。

多參考條件融合:模型采用統(tǒng)一的策略聯(lián)合編碼視覺(jué)和文本信息,最多支持4張參考圖像。這意味著用戶無(wú)需進(jìn)行復(fù)雜的圖像拼接或手動(dòng)蒙版,即可實(shí)現(xiàn)復(fù)雜多主體、多元素的自然交互與場(chǎng)景組合。例如,在電商場(chǎng)景中,可將商品圖與虛擬主播形象結(jié)合,直接生成一段在特定環(huán)境下的帶貨視頻,精準(zhǔn)保留商品細(xì)節(jié)與主播身份特征。

混合訓(xùn)練策略:團(tuán)隊(duì)利用圖像-視頻混合訓(xùn)練,聯(lián)合利用大規(guī)模圖像和視頻數(shù)據(jù)集,且利用多分辨率聯(lián)合優(yōu)化提升不同空間尺度和寬高比的魯棒性。

在包含200對(duì)混合測(cè)試集(涵蓋電影電視、電商、廣告等多領(lǐng)域)的評(píng)估中,SkyReels-V3展現(xiàn)出卓越的性能表現(xiàn)。

面對(duì)人物、動(dòng)物、物體和背景場(chǎng)景等多種參考類型,SkyReels-V3在參考一致性指標(biāo)上達(dá)到0.6698,超越Vidu Q2(0.5961)、Kling 1.6(0.6630)和PixVerse V5(0.6542)等主流商用模型;在視覺(jué)質(zhì)量指標(biāo)上更以0.8119的得分領(lǐng)先全場(chǎng),證明了其在保持參考特征的同時(shí)生成高保真視頻的強(qiáng)大能力。

圖片1.png

圖丨SkyReels-V3與行業(yè)SOTA模型在多主體參考視頻生成上的定量指標(biāo)對(duì)比

視頻延長(zhǎng)(Video Extension):突破時(shí)長(zhǎng)限制,擴(kuò)展敘事邊界

SkyReels-V3視頻延長(zhǎng)模型可將輸入視頻片段延伸為時(shí)間連貫、語(yǔ)義一致的后續(xù)內(nèi)容,在文本指導(dǎo)下保持運(yùn)動(dòng)動(dòng)態(tài)、場(chǎng)景結(jié)構(gòu)和視覺(jué)風(fēng)格。未來(lái)有望應(yīng)用在電影/電視內(nèi)容創(chuàng)作、短視頻系列制作、 游戲過(guò)場(chǎng)動(dòng)畫(huà)和長(zhǎng)視頻增強(qiáng)等領(lǐng)域。

首先,其支持“雙模式延長(zhǎng)”功能。傳統(tǒng)視頻延長(zhǎng)技術(shù)大多局限于簡(jiǎn)單拉長(zhǎng)時(shí)間維度,而SkyReels-V3的視頻延長(zhǎng)功能實(shí)現(xiàn)了質(zhì)的飛躍。它基于視頻語(yǔ)義和用戶Prompt,能夠智能預(yù)測(cè)下一個(gè)鏡頭的合理延續(xù)與場(chǎng)景內(nèi)容,使視頻創(chuàng)作從“時(shí)間擴(kuò)展”升級(jí)為“敘事擴(kuò)展”。

這一功能提供兩種專業(yè)模式:?jiǎn)午R頭延長(zhǎng)模式保持原有視角和敘事連貫性,實(shí)現(xiàn)平滑的鏡頭延續(xù);而更具創(chuàng)新性的鏡頭切換延長(zhǎng)模式則支持五種專業(yè)轉(zhuǎn)場(chǎng)技術(shù),包括切入(Cut In)、切出(Cut Out)、多角度(Multi Angle)、正反鏡頭(Shot/Reverse Shot)和切離(Cut Away)等專業(yè)電影轉(zhuǎn)場(chǎng)手法。這意味著用戶可以從一個(gè)簡(jiǎn)單的短視頻片段出發(fā),通過(guò)智能鏡頭擴(kuò)展,構(gòu)建出具有完整敘事結(jié)構(gòu)的專業(yè)級(jí)視頻內(nèi)容。

此外,模型中內(nèi)置智能鏡頭切換檢測(cè)器,能夠自動(dòng)分析長(zhǎng)視頻中的轉(zhuǎn)場(chǎng)點(diǎn),識(shí)別并分類不同的轉(zhuǎn)場(chǎng)類型。SkyReels-V3視頻延長(zhǎng)功能支持多種輸出配置,包括480p/720p分辨率,1:1、3:4、4:3、16:9、9:16等多種寬高比,滿足不同平臺(tái)的發(fā)布需求;單鏡頭延長(zhǎng)支持5-30秒可調(diào)節(jié)長(zhǎng)度,為用戶提供了充分的創(chuàng)作靈活性。

從技術(shù)實(shí)現(xiàn)上來(lái)看,SkyReels-V3采用創(chuàng)新的統(tǒng)一多分段位置編碼技術(shù),能夠精準(zhǔn)建模復(fù)雜視頻序列中的運(yùn)動(dòng)軌跡。通過(guò)分層混合訓(xùn)練策略,模型實(shí)現(xiàn)了不同鏡頭之間的平滑切換,解決了傳統(tǒng)視頻延長(zhǎng)中常見(jiàn)的“跳躍”和“斷裂”問(wèn)題。這一技術(shù)確保即使在多主體交互、快速運(yùn)動(dòng)和場(chǎng)景劇變的情況下,延長(zhǎng)內(nèi)容也能保持高度的物理可信度和時(shí)間連貫性。

虛擬形象模型(Talking Avatar Model):聲畫(huà)同步,打造“會(huì)說(shuō)話的數(shù)字人”新時(shí)代

SkyReels-V3虛擬形象模型可從單張肖像圖和音頻片段生成高質(zhì)量、音視頻同步的視頻,支持分鐘級(jí)長(zhǎng)視頻生成和多角色交互。其卓越的音視頻同步能力和高質(zhì)量生成效果,為虛擬主播、在線教育、企業(yè)宣傳等多個(gè)行業(yè)帶來(lái)了前所未有的創(chuàng)作可能。

SkyReels-V3虛擬形象模型具備四大核心能力,重新定義行業(yè)標(biāo)準(zhǔn):

高保真視覺(jué)合成技術(shù)

SkyReels V3在視覺(jué)合成方面達(dá)到了新的高度。模型不僅能夠精準(zhǔn)還原唇部運(yùn)動(dòng),更能夠捕捉細(xì)微的面部表情變化,使虛擬形象的表現(xiàn)力更加豐富自然。無(wú)論是真實(shí)人物、卡通角色,還是動(dòng)物形象或藝術(shù)化風(fēng)格,系統(tǒng)都能保持原有的特征一致性,為不同應(yīng)用場(chǎng)景提供量身定制的解決方案。

廣泛的風(fēng)格兼容性

這一功能的突出優(yōu)勢(shì)在于其卓越的風(fēng)格適應(yīng)能力。從企業(yè)虛擬代言人到動(dòng)漫角色,從教育講解員到創(chuàng)意內(nèi)容主角,SkyReels V3能夠根據(jù)不同的肖像輸入,生成相應(yīng)風(fēng)格的虛擬形象視頻,滿足從專業(yè)商業(yè)用途到個(gè)人創(chuàng)意表達(dá)的多樣化需求。

長(zhǎng)視頻穩(wěn)定生成能力

通過(guò)關(guān)鍵幀約束生成技術(shù),系統(tǒng)能夠建立結(jié)構(gòu)重要的關(guān)鍵幀,并生成關(guān)鍵幀間的平滑過(guò)渡,確保在長(zhǎng)視頻生成過(guò)程中始終保持高度的穩(wěn)定性和一致性。這一突破使得制作高質(zhì)量的教育視頻、新聞播報(bào)、長(zhǎng)篇故事敘述成為可能,大大拓展了虛擬形象的應(yīng)用邊界。

多人物場(chǎng)景支持

SkyReels V3在多虛擬形象場(chǎng)景優(yōu)化方面展現(xiàn)了行業(yè)領(lǐng)先的技術(shù)實(shí)力。系統(tǒng)支持顯式的角色分配和協(xié)調(diào)交互,通過(guò)掩碼指定說(shuō)話人,能夠?qū)崿F(xiàn)對(duì)話、采訪等復(fù)雜場(chǎng)景的自然呈現(xiàn)。這一功能為虛擬訪談、多角色教學(xué)等應(yīng)用場(chǎng)景打開(kāi)了新的可能性。

SkyReels-V3虛擬形象模型的卓越性能源于多項(xiàng)技術(shù)創(chuàng)新。精準(zhǔn)音視頻對(duì)齊技術(shù)確保了語(yǔ)音與口型的完美匹配,即使在處理快速語(yǔ)速或特殊發(fā)音時(shí)也能保持高度同步。而關(guān)鍵幀約束生成機(jī)制則通過(guò)智能識(shí)別關(guān)鍵表情和口型節(jié)點(diǎn),在保證生成效率的同時(shí),確保了長(zhǎng)視頻的內(nèi)容連貫性和視覺(jué)穩(wěn)定性。

圖片2.png

圖丨SkyReels-V3模型和當(dāng)前主流視頻生成模型在數(shù)字人生成場(chǎng)景的定量指標(biāo)結(jié)果對(duì)比

三合一能力革新視頻生成創(chuàng)作,SkyReels-V3現(xiàn)已全面開(kāi)源

2025年至今,昆侖萬(wàn)維已經(jīng)陸續(xù)發(fā)布并開(kāi)源多個(gè)SkyReels模型,包括SkyReels V1、SkyReels V2、SkyReels A1、SkyReels A2和SkyReels A3。

截至目前,SkyReels系列開(kāi)源模型在HuggingFace中的累計(jì)總下載量近30萬(wàn)次、GitHub stars累計(jì)超10k,它們獲得開(kāi)源社區(qū)、海內(nèi)外AI機(jī)構(gòu)組織、科研學(xué)者等AI從業(yè)者和開(kāi)發(fā)者的廣泛關(guān)注與喜愛(ài)。

昆侖萬(wàn)維始終堅(jiān)守開(kāi)源理念、積極擁抱AI開(kāi)源,致力于推動(dòng)AI技術(shù)的開(kāi)放共享與社區(qū)共建。秉承昆侖萬(wàn)維“All in AGI與AIGC”的戰(zhàn)略決心,SkyReels-V3現(xiàn)已全面開(kāi)源,我們希望通過(guò)開(kāi)源實(shí)現(xiàn)AGI平權(quán),推動(dòng)AI視頻創(chuàng)作生態(tài)的持續(xù)建設(shè)和繁榮,歡迎開(kāi)發(fā)者與用戶下載SkyReels開(kāi)源模型。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
昆侖萬(wàn)維

相關(guān)文章

熱門(mén)排行

信息推薦