国产黄的网站免费,亚洲精品午夜久久久伊人,久久久久久精品一级毛片,成年男女免费视频观看性

国产黄的网站免费,亚洲精品午夜久久久伊人,久久久久久精品一级毛片,成年男女免费视频观看性

<tfoot id="4aa0c"></tfoot>

<xmp id="4aa0c"></xmp>

English Version

科研學(xué)術(shù)

科研學(xué)術(shù)

當前位置：首頁(yè) 科研學(xué)術(shù)

多項關(guān)鍵技術(shù)助力AI視覺(jué)內容生成，打造第一批“哈工大版Sora”

發(fā)布人：李彤??發(fā)布時(shí)間：2024-03-27?? 瀏覽次數:452

近年來(lái)，文生圖像和文生視頻模型取得了重大進(jìn)展并獲得了廣泛關(guān)注，涌現了DALLE 2/3、Stable Diffusion、Stable Video Diffusion等一批代表性模型。2024年2月15日，OpenAI發(fā)布了AI文生視頻大模型Sora，Sora不僅能夠一段文字生成長(cháng)時(shí)間高質(zhì)量流暢視頻，更可為通用物理世界模擬提供一種有效的構造方式，為未來(lái)的多媒體內容創(chuàng )作與體驗開(kāi)辟了新的可能性。

自2023年以來(lái)，哈爾濱工業(yè)大學(xué)計算學(xué)部機器學(xué)習研究中心左旺孟團隊針對文生圖像的個(gè)體可控性差、文生3D的多面問(wèn)題、以及文生視頻的單幀質(zhì)量較低和時(shí)域不平滑現象，提出了一系列新模型和新方法，在定制化圖像生成、文生3D和文生視頻等方面取得顯著(zhù)進(jìn)展，成果相繼發(fā)表于ICCV、AAAI、ICLR和CVPR等領(lǐng)域頂級會(huì )議。

在定制化圖像生成方面，團隊提出了一種基于模型的快速定制化文本到圖像生成方法ELITE。ELITE利用全局編碼網(wǎng)絡(luò )將視覺(jué)概念直接映射為文本嵌入，并在訓練時(shí)引入多層特征策略以提升文本嵌入的可編輯性。與此同時(shí)，ELITE采用局部編碼網(wǎng)絡(luò )來(lái)補充細節，以更好地平衡定制化生成的一致性和可編輯性。實(shí)驗表明ELITE可以在極短的時(shí)間內（小于0.1秒）學(xué)習新的視覺(jué)概念，并可以進(jìn)行高效的編輯。ELITE為定制化文本圖像生成領(lǐng)域帶來(lái)了新的方法和思路，不僅提高了生成速度，還保持了生成圖像的質(zhì)量和可控性，對于實(shí)際應用中快速生成特定個(gè)體的圖像具有重要意義。

image-20240327155427-1

與現有方法比較

image-20240327155427-2

Elite生成結果

在文生3D方面，團隊分析了多面（Janus）問(wèn)題的產(chǎn)生原因，即2D擴散模型中的視角偏差和優(yōu)化目標的過(guò)擬合。提出了一個(gè)兩階段的2D提升框架DreamControl，通過(guò)將初步的NeRF場(chǎng)景作為3D自身先驗，利用基于ControlNet的分數蒸餾生成精細3D模型。在第一階段，提出了自適應視角采樣和邊界完整性度量。在第二階段，利用條件LoRA和加權分數進(jìn)一步優(yōu)化3D模型的細節紋理，有效避免了文生3D的多面問(wèn)題。

image-20240327155427-3

文生3D結果

在文生視頻方面，團隊分別研究了有無(wú)引導信息的文生視頻任務(wù)。針對引導視頻生成，團隊提出了ControlVideo，利用交錯幀平滑器、完全互注意力機制和分層采樣策略，使得僅用單張NVIDIA 2080Ti GPU生成穩定視頻成為可能。針對文生視頻，團隊提出了一種無(wú)需訓練的即插即用視頻質(zhì)量提升方法VideoElevator，利用文生圖像的的優(yōu)越性能提升文生視頻性能。VideoElevator主要包括時(shí)域運動(dòng)改善和空域質(zhì)量提升模塊，時(shí)域運動(dòng)改善模塊利用封裝的文生視頻模型來(lái)增強時(shí)間一致性，空域質(zhì)量提升模塊利文生圖像模型增加更多逼真的細節。VideoElevator不僅可以通過(guò)基礎文生圖像模型改進(jìn)文生視頻基線(xiàn)模型的性能，還通過(guò)個(gè)性化文生圖像模型實(shí)現風(fēng)格化視頻生成。

與Sora相比，VideoElevator能夠達到相當的圖像幀質(zhì)量，但在視頻生成的長(cháng)度和場(chǎng)景復雜性方面仍有顯著(zhù)差距。今后，團隊將圍繞復雜場(chǎng)景長(cháng)視頻生成及真實(shí)性建模繼續開(kāi)展研究，力爭在整體上達到接近Sora的性能，并在若干單點(diǎn)技術(shù)上實(shí)現性能趕超。

image-20240327155427-4

文生視頻結果

除日常生活和娛樂(lè )外，在許多航空航天和工業(yè)應用中，AI視覺(jué)內容生成技術(shù)還可用于生成訓練數據，緩解數據稀缺和分布不均衡，支持人工智能系統的快速開(kāi)發(fā)與迭代更新。

相關(guān)科研成果：

[1] Yuxiang Wei, Yabo Zhang, Zhilong Ji, Jinfeng Bai, Lei Zhang, Wangmeng Zuo，ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation, ICCV 2023.

[2] Yufei Cai, Yuxiang Wei, Zhilong Ji, Jinfeng Bai, Hu Han, Wangmeng Zuo, Decoupled Textual Embeddings for Customized Image Generation, AAAI 2024.

[3] Tianyu Huang, Yihan Zeng, Bowen Dong, Hang Xu, Songcen Xu, Rynson WH Lau, Wangmeng Zuo, Textfield3d: Towards enhancing open-vocabulary 3d generation with noisy text fields, ICLR 2024.

[4] Tianyu Huang, Yihan Zeng, Zhilu Zhang, Wan Xu, Hang Xu, Songcen Xu, Rynson WH Lau, Wangmeng Zuo, Dreamcontrol: Control-based text-to-3d generation with 3d self-prior, CVPR 2024.

[5] Yabo Zhang, Yuxiang Wei, Dongsheng Jiang, Xiaopeng Zhang, Wangmeng Zuo, Qi Tian, Controlvideo: Training-free controllable text-to-video generation, ICLR 2024.

[6] Yabo Zhang, Yuxiang Wei, Xianhui Lin, Zheng Hui, Peiran Ren, Xuansong Xie, Xiangyang Ji, Wangmeng Zuo, VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models, Arxiv 2024.

Copyright (C) 2020 哈爾濱工業(yè)大學(xué)計算學(xué)部. 地址：中國.哈爾濱市西大直街92號電話(huà)：0451-86403260 傳真：0451-86403260 E_mail：csoffice@hit.edu.cn
Addr.:92 West Da Zhi St. Harbin China, Tel.:0451-86403260, Fax:0451-86403260, P.C.:150001

<tfoot id="2sc0w"></tfoot>

<ul id="2sc0w"><center id="2sc0w"></center></ul>

<strike id="2sc0w"></strike>

<strike id="2sc0w"></strike>

<tfoot id="2sc0w"></tfoot>

<abbr id="2sc0w"><center id="2sc0w"></center></abbr>