LoGeR – بازسازی سه بعدی از ویدیوهای بسیار طولانی (DeepMind، UC Berkeley) | Mewayz Blog Skip to main content
Hacker News

LoGeR – بازسازی سه بعدی از ویدیوهای بسیار طولانی (DeepMind، UC Berkeley)

نظرات

1 min read Via loger-project.github.io

Mewayz Team

Editorial Team

Hacker News
<مقاله>

تبدیل ساعت‌های ویدیو به دنیای سه بعدی منسجم

تصور کنید که یک ویدیو از یک رویداد کامل گرفته‌اید—یک مراسم عروسی، یک پروژه ساخت‌وساز یا پیاده‌روی در طبیعت در جنگل. در نهایت ساعت ها فیلم خواهید داشت، اما این یک دنباله مسطح و خطی است. اگر بتوانید آن ویدیوی طولانی و سخت را به یک مدل سه بعدی و قابل پیمایش از کل صحنه تبدیل کنید، چه؟ این هدف بلندپروازانه LoGeR، یک همکاری تحقیقاتی پیشگامانه بین DeepMind و UC Berkeley است. این فناوری فقط عکس‌ها را به هم متصل نمی‌کند. به طور هوشمندانه ای یک دنیای سه بعدی پایدار را از جریان های ویدئویی که هم از نظر مدت زمان و هم در مسیر فیزیکی طولانی هستند، بازسازی می کند و یکی از مهم ترین چالش ها در بینایی کامپیوتر را حل می کند.

چالش اصلی: ثبات در مقیاس های وسیع

روش‌های سنتی بازسازی سه‌بعدی با کلیپ‌های ویدیویی کوتاه یا مجموعه‌ای از عکس‌های گرفته‌شده از زوایای مختلف در یک لحظه عالی هستند. با این حال، آنها به شدت با ویدیوهای "طولانی" مبارزه می کنند. سختی ها دوگانه است. اول، طول زمانی: زمانی که یک ویدیو در طول چند دقیقه یا ساعت طول می‌کشد، نور تغییر می‌کند، اشیا حرکت می‌کنند و افراد می‌آیند و می‌روند. دوم، مقیاس فضایی: دوربین ممکن است از یک منطقه بزرگ عبور کند، مانند قدم زدن در یک پارک و داخل یک ساختمان، و یک محیط عظیم و پیچیده برای نقشه‌برداری ایجاد کند. سیستم‌های موجود اغلب در حفظ یک نقشه جهانی ثابت شکست می‌خورند، که منجر به بازسازی‌های ناپیوسته یا «شناورها» می‌شود - مصنوعات شبح‌واری که به هیچ سطحی تعلق ندارند. LoGeR با تمرکز بر ساختن یک نمایش واحد که در این مقیاس های وسیع زمانی و مکانی منسجم باقی می ماند، به این موضوع می پردازد.

چگونه LoGeR به بازسازی منسجم دست می یابد

LoGeR که مخفف Long Generative Reconstruction است، یک رویکرد جدید را با محوریت استراتژی "Seed Initialization" معرفی می کند. به جای تلاش برای ساخت کل صحنه سه بعدی به یکباره از یک جریان ویدئویی پر هرج و مرج، سیستم ابتدا بخش کوچک و قابل مدیریتی از ویدئو را شناسایی می کند که بازسازی با اطمینان بالا آسان تر است. این پچ سه بعدی با کیفیت بالا به عنوان یک لنگر پایدار یا "seed" عمل می کند. سپس این مدل به‌طور تدریجی این نمایش سه‌بعدی را، فریم به فریم، رشد می‌دهد و اطلاعات بصری جدید را با دقت ترکیب می‌کند و در عین حال به دانه‌های تثبیت‌شده برای اطمینان از سازگاری جهانی ارجاع می‌دهد. این روش به طور موثر به مدل اجازه می دهد تا از مشکلات رایج مقیاس جلوگیری کند و یک مدل سه بعدی دقیق تر و قابل اعتمادتر از ورودی بسیار طولانی ایجاد کند. این تغییری از تلاش برای دیدن کل تصویر به یکباره به ایجاد آن از یک هسته قابل اعتماد است.

"رویکرد ما امکان بازسازی یک صحنه سه‌بعدی جهانی سازگار را از یک ویدیوی طولانی فراهم می‌کند، که یک محیط چالش برانگیز برای روش‌های موجود است که اغلب هندسه‌ای ناپیوسته ایجاد می‌کنند." - نویسندگان تحقیقات LoGeR

برنامه های کاربردی برای مشاغل و سازندگان

کاربردهای بالقوه برای فناوری مانند LoGeR بسیار گسترده است. برای معماران و توسعه‌دهندگان املاک، می‌تواند نظرسنجی‌های سایت را متحول کند و به یک ویدیوی ساده برای تولید یک مدل سه بعدی دقیق از یک ملک اجازه دهد. در زمینه سرگرمی، فیلمسازان می‌توانند مجموعه‌های دیجیتالی را از فیلم‌های گسترده جستجوی مکان بسازند. برای مدیریت تدارکات و انبار، می تواند نقشه سه بعدی پویا از امکانات عظیم را فعال کند. این توانایی برای ایجاد یک دوقلو دیجیتال منسجم از ویدیوی بدون ساختار یک ابزار قدرتمند است. در Mewayz، ما شاهد یک هم افزایی طبیعی با این فناوری هستیم. سیستم عامل کسب و کار ماژولار ما برای یکپارچه سازی و ساختاردهی جریان های داده پیچیده ساخته شده است. یک ماژول مدیریت پروژه را تصور کنید که در آن یک ویدیوی بازرسی سایت به طور خودکار توسط ابزاری مانند LoGeR پردازش می‌شود و مدل سه‌بعدی به‌دست‌آمده فوراً به فهرست‌های وظایف، موجودی‌ها و جدول‌های زمانی در پلتفرم Mewayz مرتبط می‌شود و نمای واقعاً همه‌جانبه و غنی از داده از پیشرفت پروژه ارائه می‌دهد.

نگاه به آینده: آینده درک مکانی و زمانی

LoGeR نشان‌دهنده یک جهش قابل توجه به سمت سیستم‌های هوش مصنوعی است که می‌توانند دنیای ما را نه تنها به‌عنوان مجموعه‌ای از عکس‌های فوری، بلکه به‌عنوان یک فضای ۴ بعدی پیوسته و در حال تکامل (۳ بعدی + زمان) درک کنند. تکرارهای آینده می توانند اشیاء و افراد را به طور یکپارچه در طول ساعت ها ردیابی کنند و نه تنها درک کنند که اشیا کجا هستند، بلکه چگونه تغییر می کنند و چگونه در دوره های طولانی با هم تعامل دارند. این درک مکانی-زمانی مرز بعدی است. برای پلتفرم هایی مانند Mewayz، که هدف آنها سیستم عامل مرکزی یک تجارت است، یکپارچه سازی چنین قابلیت های پیشرفته داده های مکانی می تواند نحوه برنامه ریزی، نظارت و تجزیه و تحلیل عملیات فیزیکی شرکت ها را متحول کند. این ما را به آینده ای نزدیک می کند که در آن دنیای دیجیتال و فیزیکی به طور یکپارچه برای تصمیم گیری هوشمندانه در هم تنیده شده اند.

در حالی که LoGeR هنوز یک پروژه تحقیقاتی است، به آینده ای اشاره می کند که در آن ایجاد یک کپی دیجیتال جامع از هر محیطی به سادگی ضبط یک ویدیو است. پیامدهای مستندسازی، تجزیه و تحلیل و تعامل مجازی عمیق است و ضبط های طولانی را به جهان های ماندگار و قابل کاوش تبدیل می کند.

💡 DID YOU KNOW?

Mewayz replaces 8+ business tools in one platform

CRM · Invoicing · HR · Projects · Booking · eCommerce · POS · Analytics. Free forever plan available.

Start Free →

سوالات متداول

تبدیل ساعت‌های ویدیو به دنیای سه بعدی منسجم

تصور کنید که یک ویدیو از یک رویداد کامل گرفته‌اید—یک مراسم عروسی، یک پروژه ساخت‌وساز یا پیاده‌روی در طبیعت در جنگل. در نهایت ساعت ها فیلم خواهید داشت، اما این یک دنباله مسطح و خطی است. اگر بتوانید آن ویدیوی طولانی و سخت را به یک مدل سه بعدی و قابل پیمایش از کل صحنه تبدیل کنید، چه؟ این هدف بلندپروازانه LoGeR، یک همکاری تحقیقاتی پیشگامانه بین DeepMind و UC Berkeley است. این فناوری فقط عکس‌ها را به هم متصل نمی‌کند. به طور هوشمندانه ای یک دنیای سه بعدی پایدار را از جریان های ویدئویی که هم از نظر مدت زمان و هم در مسیر فیزیکی طولانی هستند، بازسازی می کند و یکی از مهم ترین چالش ها در بینایی کامپیوتر را حل می کند.

چالش اصلی: ثبات در مقیاس های وسیع

روش‌های سنتی بازسازی سه‌بعدی با کلیپ‌های ویدیویی کوتاه یا مجموعه‌ای از عکس‌های گرفته‌شده از زوایای مختلف در یک لحظه عالی هستند. با این حال، آنها به شدت با ویدیوهای "طولانی" مبارزه می کنند. سختی ها دوگانه است. اول، طول زمانی: زمانی که یک ویدیو در طول چند دقیقه یا چند ساعت طول می‌کشد، نور تغییر می‌کند، اشیا حرکت می‌کنند و افراد می‌آیند و می‌روند. دوم، مقیاس فضایی: دوربین ممکن است از یک منطقه بزرگ عبور کند، مانند قدم زدن در یک پارک و داخل یک ساختمان، و یک محیط عظیم و پیچیده برای نقشه‌برداری ایجاد کند. سیستم‌های موجود اغلب در حفظ یک نقشه جهانی ثابت شکست می‌خورند، که منجر به بازسازی‌های ناپیوسته یا «شناورها» می‌شود - مصنوعات شبح‌واری که به هیچ سطحی تعلق ندارند. LoGeR با تمرکز بر ساختن یک نمایش واحد که در این مقیاس های وسیع زمانی و مکانی منسجم باقی می ماند، به این موضوع می پردازد.

چگونه LoGeR به بازسازی منسجم دست می یابد

LoGeR که مخفف Long Generative Reconstruction است، یک رویکرد جدید را با محوریت استراتژی "Seed Initialization" معرفی می کند. به جای تلاش برای ساخت کل صحنه سه بعدی به یکباره از یک جریان ویدئویی پر هرج و مرج، سیستم ابتدا بخش کوچک و قابل مدیریتی از ویدئو را شناسایی می کند که بازسازی با اطمینان بالا آسان تر است. این پچ سه بعدی با کیفیت بالا به عنوان یک لنگر پایدار یا "seed" عمل می کند. سپس این مدل به‌طور تدریجی این نمایش سه‌بعدی را، فریم به فریم، رشد می‌دهد و اطلاعات بصری جدید را با دقت ترکیب می‌کند و در عین حال به دانه‌های تثبیت‌شده برای اطمینان از سازگاری جهانی ارجاع می‌دهد. این روش به طور موثر به مدل اجازه می دهد تا از مشکلات رایج مقیاس جلوگیری کند و یک مدل سه بعدی دقیق تر و قابل اعتمادتر از ورودی بسیار طولانی ایجاد کند. این تغییری از تلاش برای دیدن کل تصویر به یکباره به ایجاد آن از یک هسته قابل اعتماد است.

برنامه های کاربردی برای مشاغل و سازندگان

کاربردهای بالقوه برای فناوری مانند LoGeR بسیار گسترده است. برای معماران و توسعه‌دهندگان املاک، می‌تواند نظرسنجی‌های سایت را متحول کند و به یک ویدیوی ساده برای تولید یک مدل سه بعدی دقیق از یک ملک اجازه دهد. در زمینه سرگرمی، فیلمسازان می‌توانند مجموعه‌های دیجیتالی را از فیلم‌های گسترده جستجوی مکان بسازند. برای مدیریت تدارکات و انبار، می تواند نقشه سه بعدی پویا از امکانات عظیم را فعال کند. این توانایی برای ایجاد یک دوقلو دیجیتال منسجم از ویدیوی بدون ساختار یک ابزار قدرتمند است. در Mewayz، ما شاهد یک هم افزایی طبیعی با این فناوری هستیم. سیستم عامل کسب و کار ماژولار ما برای یکپارچه سازی و ساختاردهی جریان های داده پیچیده ساخته شده است. یک ماژول مدیریت پروژه را تصور کنید که در آن یک ویدیوی بازرسی سایت به طور خودکار توسط ابزاری مانند LoGeR پردازش می‌شود و مدل سه‌بعدی به‌دست‌آمده فوراً به فهرست‌های وظایف، موجودی‌ها و جدول‌های زمانی در پلتفرم Mewayz مرتبط می‌شود و نمای واقعاً همه‌جانبه و غنی از داده از پیشرفت پروژه ارائه می‌دهد.

نگاه به آینده: آینده درک مکانی و زمانی

LoGeR نشان‌دهنده یک جهش قابل توجه به سمت سیستم‌های هوش مصنوعی است که می‌توانند دنیای ما را نه تنها به‌عنوان مجموعه‌ای از عکس‌های فوری، بلکه به‌عنوان یک فضای ۴ بعدی پیوسته و در حال تکامل (۳ بعدی + زمان) درک کنند. تکرارهای آینده می توانند اشیاء و افراد را به طور یکپارچه در طول ساعت ها ردیابی کنند و نه تنها درک کنند که اشیا کجا هستند، بلکه چگونه تغییر می کنند و چگونه در دوره های طولانی با هم تعامل دارند. این درک مکانی-زمانی مرز بعدی است. برای پلتفرم هایی مانند Mewayz، که هدف آنها سیستم عامل مرکزی یک تجارت است، یکپارچه سازی چنین قابلیت های پیشرفته داده های مکانی می تواند نحوه برنامه ریزی، نظارت و تجزیه و تحلیل عملیات فیزیکی شرکت ها را متحول کند. این ما را به آینده ای نزدیک می کند که در آن دنیای دیجیتال و فیزیکی به طور یکپارچه برای تصمیم گیری هوشمندانه در هم تنیده شده اند.

کسب و کار خود را با Mewayz ساده کنید

Mewayz 208 ماژول کسب و کار را در یک پلتفرم - CRM، صورتحساب، مدیریت پروژه و غیره آورده است. به 138000+ کاربر بپیوندید که گردش کار خود را ساده کرده اند.

استارت امروز رایگان