• बॅनर

ओपनएआय पॉइंट ई: एकाच GPU वर काही मिनिटांत जटिल वेव्हफॉर्ममधून 3D पॉइंट क्लाउड तयार करा

एका नवीन लेखात पॉइंट-ई: कॉम्प्लेक्स सिग्नल्समधून 3D पॉइंट क्लाउड तयार करण्यासाठी एक प्रणाली, ओपनएआय संशोधन टीम पॉइंट ई सादर करते, एक 3D पॉइंट क्लाउड टेक्स्ट कंडिशनल सिंथेसिस सिस्टम जी जटिल मजकूराद्वारे चालविलेले विविध आणि जटिल 3D आकार तयार करण्यासाठी प्रसार मॉडेल वापरते. संकेतएकाच GPU वर मिनिटांत.
आजच्या अत्याधुनिक प्रतिमा निर्मिती मॉडेल्सच्या आश्चर्यकारक कामगिरीने 3D मजकूर वस्तूंच्या निर्मितीमध्ये संशोधनाला चालना दिली आहे.तथापि, 2D मॉडेल्सच्या विपरीत, जे काही मिनिटांत किंवा अगदी सेकंदात आउटपुट तयार करू शकतात, ऑब्जेक्ट जनरेटिव्ह मॉडेल्सना सामान्यत: एक नमुना व्युत्पन्न करण्यासाठी अनेक तासांच्या GPU कामाची आवश्यकता असते.
एका नवीन लेखात Point-E: क्लिष्ट सिग्नल्समधून 3D पॉइंट क्लाउड तयार करण्यासाठी एक प्रणाली, OpenAI संशोधन कार्यसंघ Point·E सादर करते, 3D पॉइंट क्लाउडसाठी मजकूर सशर्त संश्लेषण प्रणाली.हा नवीन दृष्टिकोन एका GPU वर फक्त एक किंवा दोन मिनिटांत जटिल मजकूर सिग्नलमधून विविध आणि जटिल 3D आकार तयार करण्यासाठी प्रसार मॉडेल वापरतो.
कार्यसंघ मजकूर 3D मध्ये रूपांतरित करण्याच्या आव्हानावर केंद्रित आहे, जे आभासी वास्तविकता आणि गेमिंगपासून औद्योगिक डिझाइनपर्यंतच्या वास्तविक जगातील अनुप्रयोगांसाठी 3D सामग्री निर्मितीचे लोकशाहीकरण करण्यासाठी महत्त्वपूर्ण आहे.मजकूर 3D मध्ये रूपांतरित करण्याच्या विद्यमान पद्धती दोन श्रेणींमध्ये मोडतात, ज्यापैकी प्रत्येकाचे त्याचे दोष आहेत: 1) जनरेटिव्ह मॉडेल्स कार्यक्षमतेने नमुने तयार करण्यासाठी वापरली जाऊ शकतात, परंतु विविध आणि जटिल मजकूर सिग्नलसाठी कार्यक्षमतेने स्केल करू शकत नाहीत;2) जटिल आणि विविध मजकूर संकेत हाताळण्यासाठी एक पूर्व-प्रशिक्षित मजकूर-प्रतिमा मॉडेल, परंतु हा दृष्टीकोन संगणकीयदृष्ट्या गहन आहे आणि मॉडेल सहजपणे स्थानिक मिनिमामध्ये अडकले जाऊ शकते जे अर्थपूर्ण किंवा सुसंगत 3D ऑब्जेक्ट्सशी सुसंगत नाही.
म्हणून, संघाने पर्यायी दृष्टीकोन शोधला ज्याचा उद्देश मजकूर-प्रतिमेच्या जोड्यांच्या मोठ्या संचावर प्रशिक्षित टेक्स्ट-टू-इमेज डिफ्यूजन मॉडेल वापरून (त्याला विविध आणि जटिल सिग्नल हाताळण्याची परवानगी देऊन) आणि मजकूर-प्रतिमा जोड्यांच्या लहान संचावर प्रशिक्षित 3D प्रतिमा प्रसार मॉडेल.प्रतिमा-3D जोडी डेटासेट.मजकूर-ते-प्रतिमा मॉडेल प्रथम एकल सिंथेटिक प्रतिनिधित्व तयार करण्यासाठी इनपुट प्रतिमेचे नमुने घेते आणि इमेज-टू-3D मॉडेल निवडलेल्या प्रतिमेवर आधारित 3D पॉइंट क्लाउड तयार करते.
कमांडचा जनरेटिव्ह स्टॅक मजकूरातून सशर्त प्रतिमा निर्माण करण्यासाठी अलीकडे प्रस्तावित जनरेटिव्ह फ्रेमवर्कवर आधारित आहे (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).ते 3 अब्ज ग्लाइड पॅरामीटर्स (निकोल एट अल., 2021) असलेले ग्लाइड मॉडेल वापरतात, प्रस्तुत केलेल्या 3D मॉडेल्सवर त्यांचे टेक्स्ट-टू-इमेज ट्रान्स्फॉर्मेशन मॉडेल आणि डिफ्यूजन मॉडेल्सचा संच जे आरजीबी पॉइंट क्लाउड तयार करतात. परिवर्तन मॉडेल.प्रतिमा ते प्रतिमा.3D मॉडेल.
मागील कामात पॉइंट क्लाउडवर प्रक्रिया करण्यासाठी 3D आर्किटेक्चरचा वापर केला जात असताना, संशोधकांनी कार्यक्षमता सुधारण्यासाठी एक साधे ट्रान्सड्यूसर-आधारित मॉडेल (वासवानी एट अल., 2017) वापरले.त्यांच्या डिफ्यूजन मॉडेल आर्किटेक्चरमध्ये, पॉइंट क्लाउड प्रतिमा प्रथम पूर्व-प्रशिक्षित ViT-L/14 CLIP मॉडेलमध्ये फीड केल्या जातात आणि नंतर मार्कर म्हणून आउटपुट मेश कन्व्हर्टरमध्ये दिले जातात.
त्यांच्या अनुभवजन्य अभ्यासामध्ये, टीमने प्रस्तावित पॉइंट·ई पद्धतीची तुलना COCO ऑब्जेक्ट डिटेक्शन, सेगमेंटेशन आणि सिग्नेचर डेटासेटवरून स्कोअरिंग सिग्नलवर इतर जनरेटिव्ह 3D मॉडेलशी केली.परिणाम पुष्टी करतात की पॉइंट·ई जटिल मजकूर सिग्नलमधून वैविध्यपूर्ण आणि जटिल 3D आकार निर्माण करण्यास सक्षम आहे आणि एक ते दोन ऑर्डरच्या परिमाणाने अनुमान वेळ वाढवते.संघाला आशा आहे की त्यांचे कार्य 3D मजकूर संश्लेषणासाठी पुढील संशोधनास प्रेरणा देईल.
प्रकल्पाच्या GitHub वर पूर्वप्रशिक्षित पॉइंट क्लाउड प्रॉपगेशन मॉडेल आणि मूल्यांकन कोड उपलब्ध आहेत.डॉक्युमेंट पॉइंट-ई: क्लिष्ट क्लूजमधून 3D पॉइंट क्लाउड तयार करण्याची प्रणाली arXiv वर आहे.
आम्हाला माहित आहे की तुम्हाला कोणतीही बातमी किंवा वैज्ञानिक शोध चुकवायचा नाही.साप्ताहिक AI अद्यतने प्राप्त करण्यासाठी आमच्या लोकप्रिय समक्रमित ग्लोबल AI साप्ताहिक वृत्तपत्राची सदस्यता घ्या.


पोस्ट वेळ: डिसेंबर-28-2022