123,123,123

　阿里云優(yōu)惠券先領(lǐng)券再下單

1月29日，Skywork AI正式開(kāi)源自研視頻生成模型SkyReels-V3。作為一系列多模態(tài)視頻生成模型，該系列支持參考圖像轉(zhuǎn)視頻（Reference Images-to-Video）、視頻延長(zhǎng)（Video Extension）和音頻驅(qū)動(dòng)虛擬形象（Talking Avatar）三大核心能力，在單一建模架構(gòu)中實(shí)現(xiàn)高保真多模態(tài)視頻生成，達(dá)到行業(yè)領(lǐng)先水平。

三大核心能力作為獨(dú)立模塊，每個(gè)模塊深度優(yōu)化且支持靈活組合。Skywork AI團(tuán)隊(duì)通過(guò)企業(yè)級(jí)數(shù)據(jù)處理、極速推理能力和高效的訓(xùn)練架構(gòu)等技術(shù)實(shí)現(xiàn)，讓生成的視頻達(dá)到專業(yè)級(jí)效果，多項(xiàng)指標(biāo)達(dá)到或超越行業(yè)領(lǐng)先水平。

SkyReels-V3現(xiàn)已開(kāi)源，期待與你共創(chuàng)無(wú)限可能！

1 參考圖像轉(zhuǎn)視頻（Reference Images-to-Video）：讓靜態(tài)圖像"活"起來(lái)

SkyReels-V3可根據(jù)1至4張參考圖像，并結(jié)合文本提示，生成時(shí)間連貫、語(yǔ)義一致的高質(zhì)量視頻序列。無(wú)論是人物形象、商品展示還是背景場(chǎng)景，生成的視頻都能精準(zhǔn)保留原始身份特征、空間構(gòu)圖和敘事連貫性。

其背后是Skywork AI團(tuán)隊(duì)在數(shù)據(jù)構(gòu)建、多參考條件融合和混合訓(xùn)練策略上的多重技術(shù)創(chuàng)新：

高質(zhì)量數(shù)據(jù)構(gòu)建：團(tuán)隊(duì)從海量視頻中篩選具有顯著動(dòng)態(tài)運(yùn)動(dòng)的素材，并采用跨幀配對(duì)策略確保時(shí)間多樣性。更為關(guān)鍵的是，利用圖像編輯模型對(duì)主體區(qū)域進(jìn)行提取、背景補(bǔ)全和語(yǔ)義重寫(xiě)，有效避免了常見(jiàn)的“復(fù)制粘貼”偽影，從數(shù)據(jù)源頭保障了生成質(zhì)量。

多參考條件融合：模型采用統(tǒng)一的策略聯(lián)合編碼視覺(jué)和文本信息，最多支持4張參考圖像。這意味著用戶無(wú)需進(jìn)行復(fù)雜的圖像拼接或手動(dòng)蒙版，即可實(shí)現(xiàn)復(fù)雜多主體、多元素的自然交互與場(chǎng)景組合。例如，在電商場(chǎng)景中，可將商品圖與虛擬主播形象結(jié)合，直接生成一段在特定環(huán)境下的帶貨視頻，精準(zhǔn)保留商品細(xì)節(jié)與主播身份特征。

混合訓(xùn)練策略：團(tuán)隊(duì)利用圖像-視頻混合訓(xùn)練，聯(lián)合利用大規(guī)模圖像和視頻數(shù)據(jù)集，且利用多分辨率聯(lián)合優(yōu)化提升不同空間尺度和寬高比的魯棒性。

在包含200對(duì)混合測(cè)試集（涵蓋電影電視、電商、廣告等多領(lǐng)域）的評(píng)估中，SkyReels-V3展現(xiàn)出卓越的性能表現(xiàn)。

面對(duì)人物、動(dòng)物、物體和背景場(chǎng)景等多種參考類型，SkyReels-V3在參考一致性指標(biāo)上達(dá)到0.6698，超越Vidu Q2（0.5961）、Kling 1.6（0.6630）和PixVerse V5（0.6542）等主流商用模型；在視覺(jué)質(zhì)量指標(biāo)上更以0.8119的得分領(lǐng)先全場(chǎng)，證明了其在保持參考特征的同時(shí)生成高保真視頻的強(qiáng)大能力。

圖片1.png

圖丨SkyReels-V3與行業(yè)SOTA模型在多主體參考視頻生成上的定量指標(biāo)對(duì)比

2 視頻延長(zhǎng)（Video Extension）：突破時(shí)長(zhǎng)限制，擴(kuò)展敘事邊界

SkyReels-V3視頻延長(zhǎng)模型可將輸入視頻片段延伸為時(shí)間連貫、語(yǔ)義一致的后續(xù)內(nèi)容，在文本指導(dǎo)下保持運(yùn)動(dòng)動(dòng)態(tài)、場(chǎng)景結(jié)構(gòu)和視覺(jué)風(fēng)格。未來(lái)有望應(yīng)用在電影/電視內(nèi)容創(chuàng)作、短視頻系列制作、游戲過(guò)場(chǎng)動(dòng)畫(huà)和長(zhǎng)視頻增強(qiáng)等領(lǐng)域。

首先，其支持“雙模式延長(zhǎng)”功能。傳統(tǒng)視頻延長(zhǎng)技術(shù)大多局限于簡(jiǎn)單拉長(zhǎng)時(shí)間維度，而SkyReels-V3的視頻延長(zhǎng)功能實(shí)現(xiàn)了質(zhì)的飛躍。它基于視頻語(yǔ)義和用戶Prompt，能夠智能預(yù)測(cè)下一個(gè)鏡頭的合理延續(xù)與場(chǎng)景內(nèi)容，使視頻創(chuàng)作從“時(shí)間擴(kuò)展”升級(jí)為“敘事擴(kuò)展”。

這一功能提供兩種專業(yè)模式：?jiǎn)午R頭延長(zhǎng)模式保持原有視角和敘事連貫性，實(shí)現(xiàn)平滑的鏡頭延續(xù)；而更具創(chuàng)新性的鏡頭切換延長(zhǎng)模式則支持五種專業(yè)轉(zhuǎn)場(chǎng)技術(shù)，包括切入（Cut In）、切出（Cut Out）、多角度（Multi Angle）、正反鏡頭（Shot/Reverse Shot）和切離（Cut Away）等專業(yè)電影轉(zhuǎn)場(chǎng)手法。這意味著用戶可以從一個(gè)簡(jiǎn)單的短視頻片段出發(fā)，通過(guò)智能鏡頭擴(kuò)展，構(gòu)建出具有完整敘事結(jié)構(gòu)的專業(yè)級(jí)視頻內(nèi)容。

此外，模型中內(nèi)置智能鏡頭切換檢測(cè)器，能夠自動(dòng)分析長(zhǎng)視頻中的轉(zhuǎn)場(chǎng)點(diǎn)，識(shí)別并分類不同的轉(zhuǎn)場(chǎng)類型。SkyReels-V3視頻延長(zhǎng)功能支持多種輸出配置，包括480p/720p分辨率，1:1、3:4、4:3、16:9、9:16等多種寬高比，滿足不同平臺(tái)的發(fā)布需求；單鏡頭延長(zhǎng)支持5-30秒可調(diào)節(jié)長(zhǎng)度，為用戶提供了充分的創(chuàng)作靈活性。

從技術(shù)實(shí)現(xiàn)上來(lái)看，SkyReels-V3采用創(chuàng)新的統(tǒng)一多分段位置編碼技術(shù)，能夠精準(zhǔn)建模復(fù)雜視頻序列中的運(yùn)動(dòng)軌跡。通過(guò)分層混合訓(xùn)練策略，模型實(shí)現(xiàn)了不同鏡頭之間的平滑切換，解決了傳統(tǒng)視頻延長(zhǎng)中常見(jiàn)的“跳躍”和“斷裂”問(wèn)題。這一技術(shù)確保即使在多主體交互、快速運(yùn)動(dòng)和場(chǎng)景劇變的情況下，延長(zhǎng)內(nèi)容也能保持高度的物理可信度和時(shí)間連貫性。

3 虛擬形象模型（Talking Avatar Model）：聲畫(huà)同步，打造“會(huì)說(shuō)話的數(shù)字人”新時(shí)代

SkyReels-V3虛擬形象模型可從單張肖像圖和音頻片段生成高質(zhì)量、音視頻同步的視頻，支持分鐘級(jí)長(zhǎng)視頻生成和多角色交互。其卓越的音視頻同步能力和高質(zhì)量生成效果，為虛擬主播、在線教育、企業(yè)宣傳等多個(gè)行業(yè)帶來(lái)了前所未有的創(chuàng)作可能。

SkyReels-V3虛擬形象模型具備四大核心能力，重新定義行業(yè)標(biāo)準(zhǔn)：

高保真視覺(jué)合成技術(shù)

SkyReels V3在視覺(jué)合成方面達(dá)到了新的高度。模型不僅能夠精準(zhǔn)還原唇部運(yùn)動(dòng)，更能夠捕捉細(xì)微的面部表情變化，使虛擬形象的表現(xiàn)力更加豐富自然。無(wú)論是真實(shí)人物、卡通角色，還是動(dòng)物形象或藝術(shù)化風(fēng)格，系統(tǒng)都能保持原有的特征一致性，為不同應(yīng)用場(chǎng)景提供量身定制的解決方案。

廣泛的風(fēng)格兼容性

這一功能的突出優(yōu)勢(shì)在于其卓越的風(fēng)格適應(yīng)能力。從企業(yè)虛擬代言人到動(dòng)漫角色，從教育講解員到創(chuàng)意內(nèi)容主角，SkyReels V3能夠根據(jù)不同的肖像輸入，生成相應(yīng)風(fēng)格的虛擬形象視頻，滿足從專業(yè)商業(yè)用途到個(gè)人創(chuàng)意表達(dá)的多樣化需求。

長(zhǎng)視頻穩(wěn)定生成能力

通過(guò)關(guān)鍵幀約束生成技術(shù)，系統(tǒng)能夠建立結(jié)構(gòu)重要的關(guān)鍵幀，并生成關(guān)鍵幀間的平滑過(guò)渡，確保在長(zhǎng)視頻生成過(guò)程中始終保持高度的穩(wěn)定性和一致性。這一突破使得制作高質(zhì)量的教育視頻、新聞播報(bào)、長(zhǎng)篇故事敘述成為可能，大大拓展了虛擬形象的應(yīng)用邊界。

多人物場(chǎng)景支持

SkyReels V3在多虛擬形象場(chǎng)景優(yōu)化方面展現(xiàn)了行業(yè)領(lǐng)先的技術(shù)實(shí)力。系統(tǒng)支持顯式的角色分配和協(xié)調(diào)交互，通過(guò)掩碼指定說(shuō)話人，能夠?qū)崿F(xiàn)對(duì)話、采訪等復(fù)雜場(chǎng)景的自然呈現(xiàn)。這一功能為虛擬訪談、多角色教學(xué)等應(yīng)用場(chǎng)景打開(kāi)了新的可能性。

SkyReels-V3虛擬形象模型的卓越性能源于多項(xiàng)技術(shù)創(chuàng)新。精準(zhǔn)音視頻對(duì)齊技術(shù)確保了語(yǔ)音與口型的完美匹配，即使在處理快速語(yǔ)速或特殊發(fā)音時(shí)也能保持高度同步。而關(guān)鍵幀約束生成機(jī)制則通過(guò)智能識(shí)別關(guān)鍵表情和口型節(jié)點(diǎn)，在保證生成效率的同時(shí)，確保了長(zhǎng)視頻的內(nèi)容連貫性和視覺(jué)穩(wěn)定性。

圖片2.png

圖丨SkyReels-V3模型和當(dāng)前主流視頻生成模型在數(shù)字人生成場(chǎng)景的定量指標(biāo)結(jié)果對(duì)比

4 三合一能力革新視頻生成創(chuàng)作，SkyReels-V3現(xiàn)已全面開(kāi)源

2025年至今，昆侖萬(wàn)維已經(jīng)陸續(xù)發(fā)布并開(kāi)源多個(gè)SkyReels模型，包括SkyReels V1、SkyReels V2、SkyReels A1、SkyReels A2和SkyReels A3。

截至目前，SkyReels系列開(kāi)源模型在HuggingFace中的累計(jì)總下載量近30萬(wàn)次、GitHub stars累計(jì)超10k，它們獲得開(kāi)源社區(qū)、海內(nèi)外AI機(jī)構(gòu)組織、科研學(xué)者等AI從業(yè)者和開(kāi)發(fā)者的廣泛關(guān)注與喜愛(ài)。

昆侖萬(wàn)維始終堅(jiān)守開(kāi)源理念、積極擁抱AI開(kāi)源，致力于推動(dòng)AI技術(shù)的開(kāi)放共享與社區(qū)共建。秉承昆侖萬(wàn)維“All in AGI與AIGC”的戰(zhàn)略決心，SkyReels-V3現(xiàn)已全面開(kāi)源，我們希望通過(guò)開(kāi)源實(shí)現(xiàn)AGI平權(quán)，推動(dòng)AI視頻創(chuàng)作生態(tài)的持續(xù)建設(shè)和繁榮，歡迎開(kāi)發(fā)者與用戶下載SkyReels開(kāi)源模型。

申請(qǐng)創(chuàng)業(yè)報(bào)道，分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處，共同探討創(chuàng)業(yè)新機(jī)遇！

當(dāng)前位置：首頁(yè) > 科技 > IT業(yè)界 > 正文

昆侖萬(wàn)維SkyReels-V3開(kāi)源，視頻生成進(jìn)入“全能”時(shí)代

相關(guān)文章

昆侖萬(wàn)維正式發(fā)布Skywork R1V4-Lite，多模態(tài)智能體邁向開(kāi)放式交互時(shí)代

昆侖萬(wàn)維「Matrix-Game 2.0」發(fā)布，國(guó)產(chǎn)開(kāi)源的Genie 3來(lái)啦！

AI淘汰歌手又近一步，昆侖萬(wàn)維正式上線Mureka V7

我們不是“鋼鐵俠”，但每個(gè)人都需要一個(gè)“賈維斯”

熱門(mén)排行

信息推薦

編輯推薦

阿里一元店是新解“囊”雜貨鋪？

億企聯(lián)解答互聯(lián)網(wǎng)廣告的存在意義何在？

熱門(mén)標(biāo)簽

當(dāng)前位置：首頁(yè) > 科技 > IT業(yè)界 > 正文

昆侖萬(wàn)維SkyReels-V3開(kāi)源，視頻生成進(jìn)入“全能”時(shí)代