国产黄的网站免费,亚洲精品午夜久久久伊人,久久久久久精品一级毛片,成年男女免费视频观看性

国产黄的网站免费,亚洲精品午夜久久久伊人,久久久久久精品一级毛片,成年男女免费视频观看性

科研學(xué)術(shù)
科研學(xué)術(shù)
多項關(guān)鍵技術(shù)助力AI視覺(jué)內容生成,打造第一批“哈工大版Sora”
發(fā)布人:李彤??發(fā)布時(shí)間:2024-03-27?? 瀏覽次數:452

近年來(lái),文生圖像和文生視頻模型取得了重大進(jìn)展并獲得了廣泛關(guān)注,涌現了DALLE 2/3、Stable Diffusion、Stable Video Diffusion等一批代表性模型。2024年2月15日,OpenAI發(fā)布了AI文生視頻大模型Sora,Sora不僅能夠一段文字生成長(cháng)時(shí)間高質(zhì)量流暢視頻,更可為通用物理世界模擬提供一種有效的構造方式,為未來(lái)的多媒體內容創(chuàng )作與體驗開(kāi)辟了新的可能性。

2023年以來(lái),哈爾濱工業(yè)大學(xué)計算學(xué)部機器學(xué)習研究中心左旺孟團隊針對文生圖像的個(gè)體可控性差、文生3D的多面問(wèn)題、以及文生視頻的單幀質(zhì)量較低和時(shí)域不平滑現象,提出了一系列新模型和新方法,在定制化圖像生成、文生3D和文生視頻等方面取得顯著(zhù)進(jìn)展,成果相繼發(fā)表于ICCV、AAAI、ICLR和CVPR等領(lǐng)域頂級會(huì )議。

在定制化圖像生成方面,團隊提出了一種基于模型的快速定制化文本到圖像生成方法ELITE。ELITE利用全局編碼網(wǎng)絡(luò )將視覺(jué)概念直接映射為文本嵌入,并在訓練時(shí)引入多層特征策略以提升文本嵌入的可編輯性。與此同時(shí),ELITE采用局部編碼網(wǎng)絡(luò )來(lái)補充細節,以更好地平衡定制化生成的一致性和可編輯性。實(shí)驗表明ELITE可以在極短的時(shí)間內(小于0.1秒)學(xué)習新的視覺(jué)概念,并可以進(jìn)行高效的編輯。ELITE為定制化文本圖像生成領(lǐng)域帶來(lái)了新的方法和思路,不僅提高了生成速度,還保持了生成圖像的質(zhì)量和可控性,對于實(shí)際應用中快速生成特定個(gè)體的圖像具有重要意義。

image-20240327155427-1

與現有方法比較

image-20240327155427-2

Elite生成結果

在文生3D方面,團隊分析了多面(Janus)問(wèn)題的產(chǎn)生原因,即2D擴散模型中的視角偏差和優(yōu)化目標的過(guò)擬合。提出了一個(gè)兩階段的2D提升框架DreamControl,通過(guò)初步NeRF場(chǎng)景作為3D自身先驗,利用基于ControlNet的分數蒸餾生成精細3D模型。在第一階段,提出了自適應視角采樣和邊界完整性度量。在第二階段,利用條件LoRA和加權分數進(jìn)一步優(yōu)化3D模型的細節紋理,有效避免了文生3D的多面問(wèn)題。

image-20240327155427-3

文生3D結果

在文生視頻方面,團隊分別研究了有無(wú)引導信息的文生視頻任務(wù)。針對引導視頻生成,團隊提出了ControlVideo,利用交錯幀平滑器、完全互注意力機制和分層采樣策略,使得僅用單張NVIDIA 2080Ti GPU生成穩定視頻成為可能。針對文生視頻,團隊提出了一種無(wú)需訓練即插即用視頻質(zhì)量提升方法VideoElevator,利用文生圖像的的優(yōu)越性能提升文生視頻性能。VideoElevator主要包括時(shí)域運動(dòng)改善和空域質(zhì)量提升模塊,時(shí)域運動(dòng)改善模塊利用封裝的文生視頻模型來(lái)增強時(shí)間一致性,空域質(zhì)量提升模塊文生圖像模型增加更多逼真的細節。VideoElevator不僅可以通過(guò)基礎文生圖像模型改進(jìn)文生視頻基線(xiàn)模型的性能,還通過(guò)個(gè)性化文生圖像模型實(shí)現風(fēng)格化視頻生成。

Sora相比,VideoElevator能夠達到相當的圖像幀質(zhì)量,但在視頻生成的長(cháng)度和場(chǎng)景復雜性方面仍有顯著(zhù)差距。今后,團隊將圍繞復雜場(chǎng)景長(cháng)視頻生成及真實(shí)性建模繼續開(kāi)展研究,力爭在整體上達到接近Sora的性能,并在若干單點(diǎn)技術(shù)上實(shí)現性能趕超。

image-20240327155427-4

文生視頻結果

除日常生活和娛樂(lè )外,在許多航空航天和工業(yè)應用中,AI視覺(jué)內容生成技術(shù)還可用于生成訓練數據,緩解數據稀缺和分布不均衡,支持人工智能系統的快速開(kāi)發(fā)與迭代更新。

 

相關(guān)科研成果:

[1] Yuxiang Wei, Yabo Zhang, Zhilong Ji, Jinfeng Bai, Lei Zhang, Wangmeng Zuo,ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation, ICCV 2023.

[2] Yufei Cai, Yuxiang Wei, Zhilong Ji, Jinfeng Bai, Hu Han, Wangmeng Zuo, Decoupled Textual Embeddings for Customized Image Generation, AAAI 2024.

[3] Tianyu Huang, Yihan Zeng, Bowen Dong, Hang Xu, Songcen Xu, Rynson WH Lau, Wangmeng Zuo, Textfield3d: Towards enhancing open-vocabulary 3d generation with noisy text fields, ICLR 2024.

[4] Tianyu Huang, Yihan Zeng, Zhilu Zhang, Wan Xu, Hang Xu, Songcen Xu, Rynson WH Lau, Wangmeng Zuo, Dreamcontrol: Control-based text-to-3d generation with 3d self-prior, CVPR 2024.

[5] Yabo Zhang, Yuxiang Wei, Dongsheng Jiang, Xiaopeng Zhang, Wangmeng Zuo, Qi Tian, Controlvideo: Training-free controllable text-to-video generation, ICLR 2024.

[6] Yabo Zhang, Yuxiang Wei, Xianhui Lin, Zheng Hui, Peiran Ren, Xuansong Xie, Xiangyang Ji, Wangmeng Zuo, VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models, Arxiv 2024.