爱卿坞-97久久人国产精品婷婷-实用范文大全,97久久免费视频,您的专属文书库

3D AI生成出新玩法了:只要45秒,單

網絡 分享 時間: 收藏本文

3D AI生成出新玩法了:只要45秒,單

機器之心專欄

機器之心編輯部

45 秒單張圖片變 3D,無需大量 3D 數據和逐物體優化。

3D AI 生成最近發展得如火如荼,不少最新工作都能夠從一句話 / 一張圖生成高質量的三維模型。然而從去年下半年的 和 到最新的 ,絕大多數工作都通過對每個物體進行優化的方式來生成 3D 模型。這種方式使得現有的 3D AI 生成方法都非常耗時,譬如 的作者就曾在知乎上表示方法目前的主要局限之一便是生成時間太慢了!

“一般而言,使用 - 生成一張圖片在 PC 上只需要幾秒鐘,哪怕微調 LoRA 也很快;然而,我們生成一個 3D 物體需要數個小時,尤其是分辨率越高越慢。這主要是因為我們本質上還是借助于隨機梯度下降來優化 3D 表示(NeRF 或 Mesh)的參數,這樣的優化過程需要很多步的迭代,并且對 GPU 的顯存也有一定要求。我們最終展示的效果是 512 分辨率的結果,這些結果的優化確實非常耗時,所以目前個人使用者還是很難在 PC 上直接使用我們的算法。”

高昂的推斷成本不僅使得研究者的實驗迭代變慢,也阻礙了 3D AIGC 技術對于很多實時應用的商業落地和推廣。

然而就在最近,來自 UCSD 等機構的研究者發布了一項最新工作,One-2-3-45,它擺脫了逐物體優化的生成范式,能夠在 45 秒內從任意單張圖片 / 文本生成 3D 紋理網格,且在測試時無需針對每個物體進行優化。

能生成圖片的app_圖片生成api_可以生成圖片的ai

Page:

:

Code:

Demo:

單張圖片生成 3D

通過與現有的文生圖模型(如 DALL-E2)結合,One-2-3-45 也支持從任意文本生成 3D 模型。

文本生成 3D

論文一發布,就被推特大佬 AK 宣傳轉發,并受到網友的廣泛關注。

圖片生成api_能生成圖片的app_可以生成圖片的ai

網友 Xin Kong 評論到:“這是最好的時代,也是最壞的時代。這可能是 3D 擴散生成中的 NGP 時刻。30 分鐘 ->45 秒,無分數蒸餾,2D 視圖到 3D 是必經之路!”

可以生成圖片的ai_圖片生成api_能生成圖片的app

方法

由于 3D 數據的稀缺性,學術界最近的絕大多數 3D AI 生成工作都通過利用 2D 擴散生成模型來指導 3D 表示(如 NeRF)的優化,從而實現 3D 內容生成。One-2-3-45 沒有遵循這個范式,而是先利用 2D 擴散模型生成多視角圖像,然后希望利用這些多視角圖像來重建 3D 模型。

具體而言,One-2-3-45 利用了一個基于視角控制的 2D 擴散生成模型,。該模型通過微調 ,實現了輸入單張圖片和一個相機的相對位姿變換,便能夠預測該物體在變換后的視角下的對應圖像的能力。

可以生成圖片的ai_圖片生成api_能生成圖片的app

通過借助這類 2D 擴散生成模型,我們能夠從一張圖片預測生成對應的多視角圖像。

能生成圖片的app_圖片生成api_可以生成圖片的ai

一個很自然的想法,便是將這些多視角圖像傳給經典的基于 NeRF 的重建方法來生成 3D 模型。然而研究者發現這樣并不能生成高質量的 3D 模型(如下圖所示)。

可以生成圖片的ai_圖片生成api_能生成圖片的app

這其實是因為網絡預測的多視角圖像具有潛在的不一致性。然而對于基于 NeRF 的優化類重建方法,一些微小的不一致便已足以使得方法崩潰。

能生成圖片的app_可以生成圖片的ai_圖片生成api

如上圖所示,通過將預測的多視角圖像與真實數據進行對比,研究者發現 預測的多視角圖像雖然不具備像素級別的高精確度(PSNR 不高)。但整體輪廓(mIoU)以及語義 / 感知相似性(CLIP 相似度)都很高,尤其當相機相對位姿變換較小時。這些結果說明了用網絡預測的多視角圖像進行三維重建的可能性。

在 One-2-3-45 中,研究者使用了基于 cost 的可泛化 NeRF 類的方法來實現三維重建。這類方法將多視角圖像作為輸入,在訓練后能夠直接推斷 3D 內容而無需額外優化。由于這類方法通過從訓練數據學習了有關多視角預測不一致性的先驗知識,他們更有希望能從不一致的多視角預測中生成 3D 模型。

圖片生成api_可以生成圖片的ai_能生成圖片的app

One-2-3-45 方法流程圖

具體來說,One-2-3-45 首先通過對多視角圖像抽取 2D 圖像特征,并通過相機位姿來構建 3D cost 。然后 One-2-3-45 通過 3D 卷積神經網絡來從 3D cost 推斷輸入多視角圖像對應的潛在 3D 幾何,并最后通過 MLP 來預測物體的 SDF 和顏色,進行體積渲染。

通過結合 2D 擴散生成模型和基于 cost 的可泛化 NeRF,One-2-3-45 能夠在一次前向傳播中生成 3D 模型。擺脫了耗時的逐物體 3D 優化后,One-2-3-45 生成一個高質量 3D 紋理網格的時間從數小時降到了 45 秒!

然而在實現這個想法的過程中,研究人員卻遇到了一些具體的挑戰:

1. 現有的可泛化 NeRF 方法大都是將具有一致性的多視角圖像作為輸入(渲染自真實物體)。但如何將這類方法擴展到不完全一致的多視角預測上呢?

2. 現有的可泛化 NeRF 方法很多都專注于前景區域的重建。但在 3D 生成的問題中,我們希望得到 360 度的完整模型。

3. 由于 采用了球坐標系來描述相對相機位姿。為了提供多視角圖像的相機位姿給重建模塊,我們需要得到輸入圖片對應的相機俯仰角()。

為了解決這些挑戰,研究者提出了一系列關鍵的訓練策略(如分階段預測多視角圖像)和一個俯仰角預測模塊。詳情請參考原論文。

研究者還特別指出由于重建模塊主要依賴于局部的對應關系(),因此其只需少量的數據進行訓練,并具有很強的可泛化性。

與現有 3D AI 生成方法的比較

研究者表示,得益于 “2D 多視角預測 + 3D 可泛化重建” 的技術路線,One-2-3-45 與現有的 3D AI 生成方法相比,除了推斷時間顯著降低外,還在輸入的多樣性、輸出的幾何表示、結果的 3D 一致性、與輸入的相似性,以及所需的 3D 數據規模上,具有多方面的優勢。

能生成圖片的app_可以生成圖片的ai_圖片生成api

具體來說,許多基于逐物體優化的方法雖然能生成高質量 3D 內容,但目前只支持文字生成 3D(如 , 和 )。而 One-2-3-45 既支持文字生成 3D 也支持圖片生成 3D。下圖展示了 One-2-3-45 與現有的主要圖生 3D 的方法的對比。

與現有圖生 3D 方法的比較

可以看到一些基于 NeRF 優化的方法(如 和 3D Fuse)雖然從新視角合成的角度上得到了還不錯的結果,但 NeRF 所輸出的幾何質量卻不盡人意。類似地,-E 的原生輸出是稀疏點云,在經過后處理重建后仍易存在部分區域破碎缺失的問題。而 One-2-3-45 通過預測 SDF 來提取網格,輸出的幾何質量要更具優勢。

另外一個重要的點便是現有方法的輸出沒有完全遵循()輸入圖片的指示。比如對于第一列的背包,+SD 生成的背包只有一條背帶;Shap-E 生成的背包沒有背帶。對于第二列的單只滅火器,Shap-E 和 -E 都預測了兩個兩個連體的滅火器。對于第四列的凳子,可以看到只有 One-2-3-45 和 保留了輸入圖片的椅腿結構。但需要注意的是, 生成的所有 3D 內容在具體風格和細節上均與輸入圖片有較大出入。

此外,研究者還指出基于逐物體優化的方法通常會遇到 3D 一致性的挑戰。他們生成的 3D 模型通常會出現多面現象(或者 問題)。比如在上圖中, 生成了一個雙面背包。相比之下,One-2-3-45 生成結果的 3D 一致性要好很多。

研究者還提到了 的 -E 和 Shap-E 在訓練時用到了數百萬級別的內部 3D 數據。由于 3D 數據的稀缺性,這樣的訓練數據規模目前對于很多研究者 / 機構來說還是比較嚴苛的條件。

與現有文生 3D 方法的比較

可以看到除了之前提過的問題外,現有的文生 3D 方法對輸入文本的把握能力并不是很強。比如,對于輸入文本 “一棵空心的大樹”,“一只有綠腿的橙色凳子”,“一頂哈瓦那風格菠蘿形狀的帽子” 以及 “一只木頭質地的蘑菇” 等,現有方法都無法生成精確對應的 3D 內容。相比之下,One-2-3-45 所采納的在 2D 生成對應圖片再提升到 3D 似乎是一條能夠對輸入文本有更加精確控制的路線。

結語

One-2-3-45 提出了 “2D 多視角預測 + 3D 可泛化重建” 這樣一項新穎的 3D AI 生成玩法,并在許多方面都展示出了其優越性。雖然目前 One-2-3-45 的生成質量可能還比不上部分基于逐物體優化的文生 3D 模型,但這個新玩法的探索和提高空間可能是充滿潛力的。

? THE END

周易 易經 代理招生 二手車 網絡營銷 旅游攻略 非物質文化遺產 查字典 精雕圖 戲曲下載 抖音代運營 易學網 互聯網資訊 成語 詩詞 工商注冊 抖音帶貨 云南旅游網 網絡游戲 代理記賬 短視頻運營 在線題庫 國學網 抖音運營 雕龍客 雕塑 奇石 散文 常用文書 河北生活網 好書推薦 游戲攻略 心理測試 石家莊人才網 考研真題 漢語知識 心理咨詢 手游安卓版下載 興趣愛好 網絡知識 十大品牌排行榜 商標交易 單機游戲下載 短視頻代運營 寶寶起名 范文網 電商設計 免費發布信息 服裝服飾 律師咨詢 搜救犬 Chat GPT中文版 經典范文 優質范文 工作總結 二手車估價 實用范文 石家莊點痣 養花 名酒回收 石家莊代理記賬 女士發型 搜搜作文 鋼琴入門指法教程 詞典 讀后感 玄機派 企業服務 法律咨詢 chatGPT國內版 chatGPT官網 勵志名言 文玩 語料庫 游戲推薦 男士發型 高考作文 PS修圖 兒童文學 工作計劃 舟舟培訓 IT教程 手機游戲推薦排行榜 暖通,電地暖, 女性健康 苗木供應 ps素材庫 短視頻培訓 優秀個人博客 包裝網 創業賺錢 養生 民間借貸律師 綠色軟件 安卓手機游戲 手機軟件下載 手機游戲下載 單機游戲大全 石家莊論壇 網賺 職業培訓 資格考試 成語大全 英語培訓 藝術培訓 少兒培訓 苗木網 雕塑網 好玩的手機游戲推薦 漢語詞典 中國機械網 美文欣賞 紅樓夢 道德經 標準件 電地暖 鮮花 書包網 英語培訓機構 電商運營
主站蜘蛛池模板: 扬州市检测仪器科技有限公司 | 欣宇航化工-湖北片碱-冰醋酸厂家联系方式-工业氨水价格-工业片碱厂家-武汉宇航化工 | 数控滑台,机床滑台,十字滑台,直线滑台,三轴滑台,立柱滑台厂家-泊头市北重机械制造有限公司 | 七评-爱美儿信息科技有限公司〖官网〗? | 童程童美少儿编程培训课程 - 上市公司缔造少儿编程专业化品牌20年 | 精密机械加工_零件加工_机械零部件加工厂_高精密零件加工定制—深圳精密机械加工厂 | 浙江德威不锈钢管业股份有限公司| 上饶环亚电脑会计培训学校--电脑学校|上饶电脑学校|上饶电脑培训|会计培训|上饶会计培训|上饶县会计培训|广丰会计培训|玉山会计培训|横峰会计培训|上饶网店培训 上进电缆(嘉兴)股份有限公司官网 - 光伏电缆|防火电缆|电力电缆|铝合金电缆专业生产厂家 | 离婚协议书怎么写_离婚协议书模板标准版_离婚协议书范本下载 - 离婚协议书 | 郑州长城冶金设备有限公司 | 九九信息网-专业的分类信息网站| 移动破碎机,欧版颚式破碎机-淄博巨鑫矿山机械有限公司 | 湖州搬家公司_档案搬迁_货物运输_钟点搬运价格「湖州蓝天家政综合服务有限公司」 | 烘干机_回转窑_破碎机_制砂机_洗砂机_球磨机-瑞光金属制品 | 通风方式信号控制箱_人防呼叫按钮_人防设备厂家–西安鼎兴自控工程有限公司 | 南通市科脉电子科技有限公司| 黄山市惠康膳食管理服务有限公司 - 官网首页| 信管飞软件官网 - 亚拓软件旗下精细化管理软件、进销存管理软件、混凝土ERP、通风设备ERP、风管报价软件、出纳软件、送货单打印软件、ERP软件等免费下载 | 郑州课桌椅|学生课桌椅|升降课桌椅批发|厂家|价格-新科教育用品 郑州井盖雨水篦子厂家-建联建材 | 疲劳试验机|电子万能试验机|摩擦磨损试验机|冲击试验机|济南全力测试技术有限公司 | 暖气片,暖气片厂家,散热器,暖气片品牌-青岛瑞雪兆散热器有限公司 | 蒸汽流量计_涡轮流量计_涡街流量计_雷达液位计_污水流量计_分体式_大口径工业流量计-江苏长顺仪表 | 医疗器械招标网—打造医械厂家专业服务平台 | 真石漆-防火涂料-氟碳漆-地坪漆-广田外墙涂料 | 频谱矢量网络分析仪_鼎阳数字示波器-苏州东伟元电子有限公司 | 启东华立石油化工机械设备有限公司|过滤器|混合机|消声器|混合器|管道过滤器|空气过滤器|精细过滤器 | 无线计量仪表-电力物联网仪表-CE认证电表 | 网络舆情_网络舆情监控系统_舆情监测软件_舆情监控平台-北鲲舆情 | 长沙物流公司|湖南货物运输公司|长沙第三方物流公司-国联物流 湖南第三方物流专家 | 上海栋彤物流有限公司-可信赖的物流服务提供商 | 陕西锐锋建筑安装有限公司,锐锋建筑,总承包,专业分包,市政综合,劳务,水电钢构,铁路公路,房建,房屋建筑施工 | 深圳市中控智能科技有限公司| 山东自保温砌块_泰安自保温砌块厂家_山东润德新型建材有限公司【网站】 | 无尘车间_净化工程_GMP食品药品化妆品电子厂无尘净化车间_无尘室 | 碳化硅微粉_超细碳化硅微粉-潍坊凯华碳化硅微粉有限公司 | 酒博会丨京酒展丨北京国际酒业博览会 | 信管飞软件官网 - 亚拓软件旗下精细化管理软件、进销存管理软件、混凝土ERP、通风设备ERP、风管报价软件、出纳软件、送货单打印软件、ERP软件等免费下载 | 质量技术监督12365防伪追溯平台-www.12365china.net | 机械配件加工_数控车床加工_零件加工_精密件加工_cnc加工定制—深圳精密机械加工 | 河北安润防腐管业股份有限公司-远程供液管路_远距离供液管路_远程供液系统 | 青州东威机械有限公司,洗沙机,脱水筛、细沙回收机,淘金设备,洗石机,砂石分离机,筛沙机,采沙船,清淤船,破碎制砂机,海沙淡化设备 |