شبکه D2NET
می 20, 2023مقاله ASpanFormer
آگوست 10, 2023شبکه دی تو نت
در این کار به مسئله یافتن مطابقت های سطح پیکسل قابل اعتماد در شرایط تصویربرداری دشوار می پردازیم.ما رویکردی را پیشنهاد میکنیم که در آن یک شبکه عصبی کانولوشن نقش دوگانه ایفا میکند: یعنی به طور همزمان یک توصیفگر ویژگی متراکم و یک آشکارساز ویژگی .با به تعویق انداختن تشخیص به مرحله بعدی، نقاط کلیدی بهدستآمده از همتایان سنتی خود بر اساس تشخیص زودهنگام ساختارهای سطح پایین پایدارتر هستند. ما نشان میدهیم که این مدل را میتوان با استفاده ازتناطرهای پیکسلی استخراجشده از بازسازیهای SfM در مقیاس بزرگ، بدون هیچ گونه حاشیهنویسی، آموزش داد. روش پیشنهادی عملکرد پیشرفتهای را در مجموعه دادههای دشوار محلیسازی روز-شب آخن و محلیسازی داخلی InLoc و همچنین عملکرد رقابتی در سایر معیارها برای تطبیق تصویر و بازسازی سهبعدی به دست میآورد.
معرفی
ایجاد تطابق در سطح پیکسل بین تصاویر ، با کاربردهایی در بینایی رایانه ای سه بعدی، فشرده سازی ویدیو، ردیابی، بازیابی تصویر و محلی سازی بصری یکی از مسائل اساسی بینایی رایانه است. ویژگی های محلی پراکنده [6-8، 13، 14، 19، 30،32-34، 50، 55،56،60،65] یک رویکرد محبوب برای تخمین تناظرها است. این روشها از یک رویکرد تشخیص و سپس توصیف پیروی میکنند که ابتدا یک آشکارساز ویژگی [7،13،19،30،32،34،50،65] را برای شناسایی مجموعهای از نقاط کلیدی اعمال میکند. سپس آشکارساز پجچ های استخراج شده از تصویر در اطراف نقاط کلیدی را به مرحله توصیف ویژگی ارائه می کند [6-8، 14، 30، 33، 55، 56، 60، 65]. خروجی این مرحله یک نمایش فشرده برای هر پچ است.
ویژگیهای محلی پراکنده مجموعهای از مزیتها را ارائه میدهند: میتوان از طریق جستجوی نزدیکترین همسایه [37] و فاصله اقلیدسی، تناظرها را بهطور مؤثر مطابقت داد. ویژگیهای پراکنده یک نمایش کارآمد در حافظه ارائه میدهند و بنابراین رویکردهایی مانند ساختار از حرکت (SfM) [21،53] یا محلیسازی بصری [26، 47، 58] را برای مقیاسبندی ممکن میسازند.
آشکارساز نقطه کلیدی معمولاً اطلاعات سطح پایین تصویر مانند گوشه ها [19] یا ساختارهای حبابی مانند را در نظر می گیرد [30، 32]. به این ترتیب، ویژگی های محلی اغلب می توانند به طور دقیق در یک تصویر محلی سازی شوند، که این یک ویژگی مهم برای بازسازی سه بعدی است [17، 53].
ویژگیهای محلی پراکنده تحت طیف وسیعی از شرایط تصویربرداری با موفقیت به کارگرفته شدهاند. با این حال، آنها معمولاً تحت تغییرات ظاهری شدید عملکرد ضعیفی دارند، به عنوان مثال، بین روز و شب [71] یا فصل ها [46]، یا در صحنه های با بافت ضعیف [59]. نتایج اخیر نشان میدهد که دلیل اصلی این افت مشاهدهشده در عملکرد، عدم تکرارپذیری در آشکارساز نقطه کلیدی است: در حالی که توصیفگرهای محلی پچ های بزرگتر را در نظر میگیرند و به طور بالقوه ساختارهای سطح بالاتر را رمزگذاری میکنند، آشکارساز نقطه کلید فقط مناطق کوچک تصویر را در نظر میگیرد. در نتیجه، تشخیص ها تحت تغییرات ظاهری قوی ناپایدار هستند
این به دلیل این واقعیت است که اطلاعات سطح پایین مورد استفاده توسط آشکارسازها اغلب به طور قابل توجهی بیشتر تحت تأثیر تغییرات آماری سطح پایین تصویر مانند روشنایی پیکسل است. با این وجود، مشاهده شده است که توصیفگرهای محلی همچنان می توانند با موفقیت تطبیق داده شوند، حتی اگر نقاط کلیدی به طور قابل اعتماد شناسایی نشوند [46، 59، 62، 71]. بنابراین، رویکردهایی که از مرحله تشخیص صرف نظر میکنند و به جای آن توصیفگرها را به طور متراکم استخراج میکنند، در شرایط چالشبرانگیز بسیار بهتر عمل میکنند. با این حال، این افزایش استحکام به قیمت زمان تطبیق بیشتر و مصرف حافظه است.
در این مقاله، هدف ما دستیابی به بهترین هر دو بخش است، به عنوان مثال، مجموعه پراکنده از ویژگیهایی که در شرایط چالشبرانگیز قوی هستند و برای مطابقت و ذخیره کارآمد هستند. برای این منظور، ما یک رویکرد توصیف و تشخیص برای تشخیص و توصیف پراکنده ویژگی محلی پیشنهاد میکنیم: به جای انجام زودهنگام تشخیص ویژگی بر اساس اطلاعات سطح پایین، پیشنهاد میکنیم مرحله تشخیص را به تعویق بیندازیم.
ما ابتدا مجموعه ای از نقشه های ویژگی را از طریق یک شبکه عصبی کانولوشن عمیق (CNN) محاسبه می کنیم. سپس این نقشه های ویژگی برای محاسبه توصیفگرها (به عنوان برش هایی از تمام نقشه ها در یک موقعیت خاص پیکسل) و برای شناسایی نقاط کلیدی (به عنوان ماکزیمم محلی نقشه های ویژگی) استفاده می شوند. در نتیجه، آشکارساز ویژگی با توصیفگر ویژگی همراه است. بدین ترتیب تشخیصها با پیکسلهایی با توصیفگرهای محلی مجزا مطابقت داده می شوند که برای تطبیق مناسب باشند.
در عین حال، استفاده از نقشههای ویژگی از لایههای عمیقتر یک CNN ما را قادر میسازد که تشخیص و توصیف ویژگیها را بر اساس اطلاعات سطح بالاتر قرار دهیم [69]. آزمایشها نشان میدهند که رویکرد ما به حافظه کمتری نسبت به روشهای متراکم نیاز دارد. در عین حال، در شرایط چالش برانگیز (شکل 1) مانند تغییرات روشنایی روز و شب [46] و صحنههای با بافت ضعیف [59]، عملکرد نسبتاً خوبی یا حتی بهتری دارد. رویکرد ما در حال حاضر به عملکرد پیشرفته و بدون هیچ آموزشی دست می یابد. میتوان آن را با تنظیم دقیق مجموعه دادههای بزرگ از صحنههای شاخص [27] بهبود بخشید.
به طور طبیعی، رویکرد ما دارای اشکالاتی نیز است: در مقایسه با ویژگیهای پراکنده کلاسیک، رویکرد ما به دلیل نیاز به استخراج متراکم توصیفگرها، کارآمدی کمتری دارد. با این حال، این مرحله را می توان با کارایی کاملاً معقول از طریق یک گذر به جلو از طریق یک CNN انجام داد.تشخیص مبتنی بر اطلاعات سطح بالاتر ذاتاً به نقاط کلیدی قوی تر اما کمتر دقیق تر منجر می شود – با این حال، ما نشان می دهیم که رویکرد ما هنوز به اندازه کافی برای محلی سازی بصری و SfM دقیق است.
شکل 2: مقایسه بین رویکردهای مختلف برای تشخیص و توصیف ویژگی. خط لوله (a) مربوط به انواع مختلف روش تشخیص و سپس توصیف دو مرحله ای است. در مقابل، خط لوله پیشنهادی ما (b) از یک CNN استفاده میکند که هم ویژگیهای متراکمی را استخراج میکند یعنی هم به عنوان توصیفگر و هم به عنوان آشکارساز عمل میکنند
خط لوله تشخیص و توصیف مشترک
برخلاف روشهای کلاسیک یعنی تشخیص-سپس توصیف، که از یک خط لوله دو مرحلهای استفاده میکنند، ما پیشنهاد میکنیم که استخراج ویژگی متراکم را برای به دست آوردن بازنمایی که به طور همزمان آشکارساز و توصیفگر است انجام دهیم. از آنجایی که آشکارساز و توصیفگر هر دو نمایش اساسی را به اشتراک می گذارند، ما رویکرد خود را D2 می نامیم. رویکرد ما در شکل 3 نشان داده شده است
اولین مرحله از روش به کار گیری یک CNN F بر روی تصویر ورودی I برای به دست آوردن یک تانسور سه بعدی F = F(I)، F∈ R و h×w×n است، که در آن h×w وضوح مکانی از نقشه ویژگی و n تعداد کانال ها است.
3.1. توصیف ویژگی
مانند سایر کارهای قبلی [38,44,59]، ساده ترین تفسیر از تانسور سه بعدی F به صورت مجموعه متراکمی از بردارهای توصیفگر d است: