Նորություններ - OpenAI Point E. Ստեղծեք 3D կետային ամպ բարդ ալիքային ձևերից րոպեների ընթացքում մեկ GPU-ով

Նոր հոդվածում Point-E. համալիր ազդանշաններից 3D կետային ամպեր ստեղծելու համակարգ, OpenAI հետազոտական թիմը ներկայացնում է Point E-ը՝ 3D կետային ամպի տեքստի պայմանական սինթեզի համակարգ, որն օգտագործում է դիֆուզիոն մոդելներ՝ ստեղծելու բազմազան և բարդ 3D ձևեր՝ պայմանավորված բարդ տեքստով: ազդանշաններ.րոպեների ընթացքում մեկ GPU-ով:
Ներկայիս պատկերների ստեղծման ժամանակակից մոդելների զարմանալի կատարումը խթանել է 3D տեքստային օբյեկտների ստեղծման հետազոտությունը:Այնուամենայնիվ, ի տարբերություն 2D մոդելների, որոնք կարող են ելք ստեղծել րոպեների կամ նույնիսկ վայրկյանների ընթացքում, օբյեկտների գեներացնող մոդելները սովորաբար պահանջում են մի քանի ժամ GPU աշխատանք մեկ նմուշ ստեղծելու համար:
Նոր հոդվածում Point-E. Համակարգ՝ բարդ ազդանշաններից 3D կետային ամպեր ստեղծելու համար, OpenAI հետազոտական թիմը ներկայացնում է Point·E՝ տեքստային պայմանական սինթեզի համակարգ 3D կետային ամպերի համար:Այս նոր մոտեցումը օգտագործում է տարածման մոդել՝ բարդ տեքստային ազդանշաններից բազմազան և բարդ 3D ձևեր ստեղծելու համար մեկ կամ երկու րոպեում մեկ GPU-ում:
Թիմը կենտրոնացած է տեքստը 3D-ի վերածելու մարտահրավերի վրա, ինչը կարևոր է իրական աշխարհի հավելվածների համար 3D բովանդակության ստեղծման դեմոկրատացման համար՝ սկսած վիրտուալ իրականությունից և խաղերից մինչև արդյունաբերական դիզայն:Տեքստը 3D-ի փոխակերպելու գոյություն ունեցող մեթոդները բաժանվում են երկու կատեգորիայի, որոնցից յուրաքանչյուրն ունի իր թերությունները.2) նախապես պատրաստված տեքստային պատկերի մոդել՝ բարդ և բազմազան տեքստային ազդանշանների մշակման համար, սակայն այս մոտեցումը հաշվողականորեն ինտենսիվ է, և մոդելը կարող է հեշտությամբ խրվել տեղական նվազագույնի մեջ, որը չի համապատասխանում իմաստալից կամ համահունչ 3D օբյեկտներին:
Հետևաբար, թիմը ուսումնասիրեց այլընտրանքային մոտեցում, որը նպատակ ունի միավորել վերը նշված երկու մոտեցումների ուժեղ կողմերը՝ օգտագործելով տեքստ-պատկեր դիֆուզիոն մոդելը, որը պատրաստված էր տեքստ-պատկեր զույգերի մեծ հավաքածուի վրա (թույլ տալով նրան կարգավորել տարբեր և բարդ ազդանշանները) և 3D պատկերի դիֆուզիոն մոդել՝ պատրաստված տեքստ-պատկեր զույգերի ավելի փոքր հավաքածուի վրա:image-3D զույգ տվյալների հավաքածու:Տեքստ-պատկեր մոդելը սկզբում նմուշառում է մուտքագրված պատկերը՝ մեկ սինթետիկ ներկայացում ստեղծելու համար, իսկ պատկերից 3D մոդելը ընտրված պատկերի հիման վրա ստեղծում է 3D կետային ամպ:
Հրամանի գեներատիվ կույտը հիմնված է վերջերս առաջարկված գեներատիվ շրջանակների վրա՝ տեքստից պայմանականորեն պատկերներ ստեղծելու համար (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020):Նրանք օգտագործում են GLIDE մոդելը 3 միլիարդ GLIDE պարամետրով (Nichol et al., 2021), մանրակրկիտ կարգավորված 3D մոդելների վրա, որպես իրենց տեքստից պատկեր փոխակերպման մոդել, և դիֆուզիոն մոդելների մի շարք, որոնք առաջացնում են RGB կետային ամպեր՝ որպես իրենց: փոխակերպման մոդել.պատկերներ՝ պատկեր:3D մոդելներ.
Մինչ նախորդ աշխատանքում օգտագործվել են 3D ճարտարապետություններ՝ կետային ամպերը մշակելու համար, հետազոտողները օգտագործել են փոխակերպիչի վրա հիմնված պարզ մոդել (Vaswani et al., 2017) արդյունավետությունը բարելավելու համար:Իրենց դիֆուզիոն մոդելի ճարտարապետության մեջ կետային ամպային պատկերները սկզբում սնվում են նախապես պատրաստված ViT-L/14 CLIP մոդելի մեջ, այնուհետև ելքային ցանցերը սնվում են փոխարկիչի մեջ՝ որպես մարկեր:
Իրենց էմպիրիկ ուսումնասիրության ժամանակ թիմը համեմատել է առաջարկվող Point·E մեթոդը այլ գեներացնող 3D մոդելների հետ՝ COCO օբյեկտների հայտնաբերման, սեգմենտավորման և ստորագրության տվյալների հավաքածուներից ազդանշանների գնահատման վրա:Արդյունքները հաստատում են, որ Point·E-ն ի վիճակի է բարդ տեքստային ազդանշաններից առաջացնել տարբեր և բարդ 3D ձևեր և արագացնել եզրակացության ժամանակը մեկից երկու կարգով:Թիմը հուսով է, որ իրենց աշխատանքը կոգեշնչի 3D տեքստի սինթեզի հետագա հետազոտությունները:
Նախապատրաստված կետային ամպի տարածման մոդելը և գնահատման կոդը հասանելի են նախագծի GitHub-ում:Document Point-E. ArXiv-ում տեղադրված է բարդ ակնարկներից 3D կետային ամպեր ստեղծելու համակարգը:
Մենք գիտենք, որ դուք չեք ցանկանում բաց թողնել ոչ մի նորություն կամ գիտական բացահայտում:Բաժանորդագրվեք մեր հանրահայտ Synced Global AI Weekly տեղեկագրին՝ շաբաթական AI թարմացումներ ստանալու համար:

Հրապարակման ժամանակը՝ Dec-28-2022