LoGeR – 3D rekonstrukcija iš itin ilgų vaizdo įrašų (DeepMind, UC Berkeley)
komentarai
Mewayz Team
Editorial Team
Valandų vaizdo įrašų pavertimas nuosekliu 3D pasauliu
Įsivaizduokite, kad filmuojate visą įvykį – vestuvių ceremoniją, statybos projektą ar pasivaikščiojimą gamtoje per mišką. Jūs gaunate valandų filmuotą medžiagą, tačiau tai yra plokščia, linijinė seka. O kas, jei galėtumėte paversti tą ilgą, sudėtingą vaizdo įrašą į vieną, naršytiną visos scenos 3D modelį? Tai yra ambicingas LoGeR, novatoriško DeepMind ir UC Berkeley bendradarbiavimo mokslinių tyrimų bendradarbiavimo tikslas. Ši technologija ne tik sujungia nuotraukas; ji išmaniai atkuria nuolatinį 3D pasaulį iš vaizdo srautų, kurių trukmė ir fizinis kelias yra ilgas, sprendžiant vieną iš svarbiausių kompiuterinio regėjimo iššūkių.
Pagrindinis iššūkis: nuoseklumas plačiu mastu
Tradiciniai 3D atkūrimo metodai puikiai tinka trumpais vaizdo klipais arba nuotraukų rinkiniu, padarytu iš skirtingų kampų tuo pačiu metu. Tačiau jie labai kovoja su „ilgais“ vaizdo įrašais. Sunkumai yra dvejopi. Pirma, laiko trukmė: kai vaizdo įrašas tęsiasi minutes ar valandas, keičiasi apšvietimas, juda objektai, o žmonės ateina ir išeina. Antra, erdvinis mastelis: fotoaparatas gali įveikti didelę teritoriją, pvz., eiti per parką ir patekti į pastatą, sukurdamas didžiulę ir sudėtingą aplinką, kurią galima atvaizduoti. Esamos sistemos dažnai nesugeba išlaikyti nuoseklaus pasaulinio žemėlapio, todėl susidaro nevienodos rekonstrukcijos arba „plūduriai“ – vaiduokliški artefaktai, nepriklausantys jokiam paviršiui. „LoGeR“ tai sprendžia, sutelkdamas dėmesį į vieningos reprezentacijos kūrimą, kuri išliktų nuosekli šiose didžiulėse laiko ir erdvės skalėse.
Kaip LoGeR pasiekia nuoseklią rekonstrukciją
LoGeR, reiškiantis ilgalaikę generuojamąją rekonstrukciją, pristato naują požiūrį, kurio centre yra „sėklos inicijavimo“ strategija. Užuot mėginusi sukurti visą 3D sceną iš karto iš chaotiško vaizdo srauto, sistema pirmiausia identifikuoja nedidelį, valdomą vaizdo įrašo segmentą, kurį lengviau atkurti su dideliu pasitikėjimu. Šis aukštos kokybės 3D pleistras tarnauja kaip stabilus inkaras arba „sėkla“. Tada modelis laipsniškai didina šį 3D vaizdą, kadras po kadro, kruopščiai įtraukdamas naują vaizdinę informaciją, kartu remdamasis nustatyta pradžia, kad būtų užtikrintas visuotinis nuoseklumas. Šis metodas efektyviai leidžia modeliui išvengti įprastų masto spąstų, sukuriant tikslesnį ir patikimesnį 3D modelį iš itin ilgo įvesties. Tai perėjimas nuo bandymo matyti visą vaizdą iš karto prie jo kūrimo iš patikimo branduolio.
„Mūsų metodas leidžia atkurti visame pasaulyje nuoseklią 3D sceną iš ilgo vaizdo įrašo, o tai yra sudėtinga aplinka esamiems metodams, kurie dažnai sukuria atskirtą geometriją. - LoGeR tyrimų autoriai
Praktinės programos verslui ir kūrėjams
Galimi tokios technologijos kaip „LoGeR“ pritaikymo galimybės yra didžiulės. Architektams ir nekilnojamojo turto plėtotojams jis galėtų pakeisti svetainių tyrimus, kad paprastas vaizdo įrašas būtų sukurtas detaliam 3D nuosavybės modeliui. Pramogų srityje filmų kūrėjai galėtų sukurti skaitmeninius rinkinius iš daugybės vietos paieškos filmuotos medžiagos. Logistikos ir sandėlių valdymo tikslais jis galėtų sudaryti sąlygas dinamiškai 3D žemėlapiams sudaryti didžiulius objektus. Šis gebėjimas sukurti darnų skaitmeninį dvynį iš nestruktūrizuoto vaizdo įrašo yra galingas įrankis. „Mewayz“ matome natūralią sinergiją su šia technologija. Mūsų modulinė verslo OS sukurta siekiant integruoti ir struktūrizuoti sudėtingus duomenų srautus. Įsivaizduokite projekto valdymo modulį, kuriame vietos apžiūros vaizdo įrašas automatiškai apdorojamas tokiu įrankiu kaip „LoGeR“, o gautas 3D modelis akimirksniu susiejamas su užduočių sąrašais, inventoriumi ir laiko juostomis „Mewayz“ platformoje, suteikiant tikrai įtraukiantį ir daug duomenų turintį projekto eigos vaizdą.
Žvilgsnis į priekį: erdvėlaikio supratimo ateitis
LoGeR reiškia didelį šuolį link dirbtinio intelekto sistemų, kurios gali suprasti mūsų pasaulį ne tik kaip momentinių vaizdų seriją, bet ir kaip nuolatinę, besivystančią 4D erdvę (3D + laikas). Ateities iteracijos galėtų sklandžiai sekti objektus ir žmones per kelias valandas, suprasdamos ne tik kur viskas yra, bet ir kaip jie keičiasi ir sąveikauja ilgą laiką. Šis erdvėlaikis supratimas yra kita riba. Tokiose platformose kaip „Mewayz“, kurios siekia būti centrine verslo operacine sistema, tokių pažangių erdvinių duomenų galimybių integravimas gali pakeisti tai, kaip įmonės planuoja, stebi ir analizuoja fizines operacijas. Tai priartina mus prie ateities, kurioje skaitmeninis ir fizinis pasauliai yra sklandžiai susipynę, kad būtų lengviau priimti sprendimus.
Nors vis dar yra mokslinių tyrimų projektas, „LoGeR“ rodo ateitį, kurioje sukurti išsamią skaitmeninę bet kokios aplinkos kopiją bus taip paprasta, kaip įrašyti vaizdo įrašą. Dokumentacijos, analizės ir virtualios sąveikos pasekmės yra didžiulės, todėl ilgi įrašai paverčiami ilgalaikiais, tyrinėjamais pasauliais.
💡 DID YOU KNOW?
Mewayz replaces 8+ business tools in one platform
CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.
Start Free →Dažniausiai užduodami klausimai
Valandų vaizdo įrašų pavertimas nuosekliu 3D pasauliu
Įsivaizduokite, kad filmuojate visą įvykį – vestuvių ceremoniją, statybos projektą ar pasivaikščiojimą gamtoje per mišką. Jūs gaunate valandų filmuotą medžiagą, tačiau tai yra plokščia, linijinė seka. O kas, jei galėtumėte paversti tą ilgą, sudėtingą vaizdo įrašą į vieną, naršytiną visos scenos 3D modelį? Tai yra ambicingas LoGeR, novatoriško DeepMind ir UC Berkeley bendradarbiavimo mokslinių tyrimų bendradarbiavimo tikslas. Ši technologija ne tik sujungia nuotraukas; ji išmaniai atkuria nuolatinį 3D pasaulį iš vaizdo srautų, kurių trukmė ir fizinis kelias yra ilgas, sprendžiant vieną iš svarbiausių kompiuterinio regėjimo iššūkių.
Pagrindinis iššūkis: nuoseklumas plačiu mastu
Tradiciniai 3D atkūrimo metodai puikiai tinka trumpais vaizdo klipais arba nuotraukų rinkiniu, padarytu iš skirtingų kampų tuo pačiu metu. Tačiau jie labai kovoja su „ilgais“ vaizdo įrašais. Sunkumai yra dvejopi. Pirma, laiko trukmė: kai vaizdo įrašas tęsiasi minutes ar valandas, keičiasi apšvietimas, juda objektai, o žmonės ateina ir išeina. Antra, erdvinis mastelis: fotoaparatas gali pereiti didelį plotą, pavyzdžiui, eiti per parką ir patekti į pastatą, sukurdamas didžiulę ir sudėtingą aplinką, kurią galima atvaizduoti. Esamos sistemos dažnai nesugeba išlaikyti nuoseklaus pasaulinio žemėlapio, todėl susidaro nevienodos rekonstrukcijos arba „plūduriai“ – vaiduokliški artefaktai, nepriklausantys jokiam paviršiui. „LoGeR“ tai sprendžia, sutelkdamas dėmesį į vieningos reprezentacijos kūrimą, kuri išliktų nuosekli šiose didžiulėse laiko ir erdvės skalėse.
Kaip LoGeR pasiekia nuoseklią rekonstrukciją
LoGeR, reiškiantis ilgalaikę generuojamąją rekonstrukciją, pristato naują požiūrį, kurio centre yra „sėklos inicijavimo“ strategija. Užuot mėginusi sukurti visą 3D sceną iš karto iš chaotiško vaizdo srauto, sistema pirmiausia identifikuoja nedidelį, valdomą vaizdo įrašo segmentą, kurį lengviau atkurti su dideliu pasitikėjimu. Šis aukštos kokybės 3D pleistras tarnauja kaip stabilus inkaras arba „sėkla“. Tada modelis laipsniškai didina šį 3D vaizdą, kadras po kadro, kruopščiai įtraukdamas naują vaizdinę informaciją, kartu remdamasis nustatyta pradžia, kad būtų užtikrintas visuotinis nuoseklumas. Šis metodas efektyviai leidžia modeliui išvengti įprastų masto spąstų, sukuriant tikslesnį ir patikimesnį 3D modelį iš itin ilgo įvesties. Tai perėjimas nuo bandymo matyti visą vaizdą iš karto prie jo kūrimo iš patikimo branduolio.
Praktinės programos verslui ir kūrėjams
Galimi tokios technologijos kaip „LoGeR“ pritaikymo galimybės yra didžiulės. Architektams ir nekilnojamojo turto plėtotojams jis galėtų pakeisti svetainių tyrimus, kad paprastas vaizdo įrašas būtų sukurtas detaliam 3D nuosavybės modeliui. Pramogų srityje filmų kūrėjai galėtų sukurti skaitmeninius rinkinius iš daugybės vietos paieškos filmuotos medžiagos. Logistikos ir sandėlių valdymo tikslais jis galėtų sudaryti sąlygas dinamiškai 3D žemėlapiams sudaryti didžiulius objektus. Šis gebėjimas sukurti darnų skaitmeninį dvynį iš nestruktūrizuoto vaizdo įrašo yra galingas įrankis. „Mewayz“ matome natūralią sinergiją su šia technologija. Mūsų modulinė verslo OS sukurta siekiant integruoti ir struktūrizuoti sudėtingus duomenų srautus. Įsivaizduokite projekto valdymo modulį, kuriame vietos apžiūros vaizdo įrašas automatiškai apdorojamas tokiu įrankiu kaip „LoGeR“, o gautas 3D modelis akimirksniu susiejamas su užduočių sąrašais, inventoriumi ir laiko juostomis „Mewayz“ platformoje, suteikiant tikrai įtraukiantį ir daug duomenų turintį projekto eigos vaizdą.
Žvilgsnis į priekį: erdvėlaikio supratimo ateitis
LoGeR reiškia didelį šuolį link dirbtinio intelekto sistemų, kurios gali suprasti mūsų pasaulį ne tik kaip momentinių vaizdų seriją, bet ir kaip nuolatinę, besivystančią 4D erdvę (3D + laikas). Ateities iteracijos galėtų sklandžiai sekti objektus ir žmones per kelias valandas, suprasdamos ne tik kur viskas yra, bet ir kaip jie keičiasi ir sąveikauja ilgą laiką. Šis erdvėlaikis supratimas yra kita riba. Tokiose platformose kaip „Mewayz“, kurios siekia būti centrine verslo operacine sistema, tokių pažangių erdvinių duomenų galimybių integravimas gali pakeisti tai, kaip įmonės planuoja, stebi ir analizuoja fizines operacijas. Tai priartina mus prie ateities, kurioje skaitmeninis ir fizinis pasauliai yra sklandžiai susipynę, kad būtų lengviau priimti sprendimus.
Supaprastinkite savo verslą naudodami „Mewayz“
Mewayz vienoje platformoje sujungia 208 verslo modulius – CRM, sąskaitų faktūrų išrašymą, projektų valdymą ir kt. Prisijunkite prie daugiau nei 138 000 naudotojų, kurie supaprastino savo darbo eigą.
Pradėkite nemokamai šiandien →We use cookies to improve your experience and analyze site traffic. Cookie Policy