شبکه دی تو نت

شبکه D2NET
می 20, 2023
مقاله ASpanFormer
آگوست 10, 2023

شبکه دی تو نت

در این کار به مسئله یافتن مطابقت های سطح پیکسل قابل اعتماد در شرایط تصویربرداری دشوار می پردازیم.ما رویکردی را پیشنهاد می‌کنیم که در آن یک شبکه عصبی کانولوشن نقش دوگانه ایفا می‌کند: یعنی به طور همزمان یک توصیفگر ویژگی متراکم و یک آشکارساز ویژگی .با به تعویق انداختن تشخیص به مرحله بعدی، نقاط کلیدی به‌دست‌آمده از همتایان سنتی خود بر اساس تشخیص زودهنگام ساختارهای سطح پایین پایدارتر هستند. ما نشان می‌دهیم که این مدل را می‌توان با استفاده ازتناطرهای پیکسلی استخراج‌شده از بازسازی‌های SfM در مقیاس بزرگ، بدون هیچ گونه حاشیه‌نویسی، آموزش داد. روش پیشنهادی عملکرد پیشرفته‌ای را در مجموعه داده‌های دشوار محلی‌سازی روز-شب آخن و محلی‌سازی داخلی InLoc و همچنین عملکرد رقابتی در سایر معیارها برای تطبیق تصویر و بازسازی سه‌بعدی به دست می‌آورد.

معرفی
ایجاد تطابق در سطح پیکسل بین تصاویر ، با کاربردهایی در بینایی رایانه ای سه بعدی، فشرده سازی ویدیو، ردیابی، بازیابی تصویر و محلی سازی بصری یکی از مسائل اساسی بینایی رایانه است. ویژگی های محلی پراکنده [6-8، 13، 14، 19، 30،32-34، 50، 55،56،60،65] یک رویکرد محبوب برای تخمین تناظرها است. این روش‌ها از یک رویکرد تشخیص و سپس توصیف پیروی می‌کنند که ابتدا یک آشکارساز ویژگی [7،13،19،30،32،34،50،65] را برای شناسایی مجموعه‌ای از نقاط کلیدی اعمال می‌کند. سپس آشکارساز پجچ های استخراج شده از تصویر در اطراف نقاط کلیدی را به مرحله توصیف ویژگی ارائه می کند [6-8، 14، 30، 33، 55، 56، 60، 65]. خروجی این مرحله یک نمایش فشرده برای هر پچ است.

ویژگی‌های محلی پراکنده مجموعه‌ای از مزیت‌ها را ارائه می‌دهند: می‌توان از طریق جستجوی نزدیک‌ترین همسایه [37] و فاصله اقلیدسی، تناظرها را به‌طور مؤثر مطابقت داد. ویژگی‌های پراکنده یک نمایش کارآمد در حافظه ارائه می‌دهند و بنابراین رویکردهایی مانند ساختار از حرکت (SfM) [21،53] یا محلی‌سازی بصری [26، 47، 58] را برای مقیاس‌بندی ممکن می‌سازند.

آشکارساز نقطه کلیدی معمولاً اطلاعات سطح پایین تصویر مانند گوشه ها [19] یا ساختارهای حبابی مانند را در نظر می گیرد [30، 32]. به این ترتیب، ویژگی های محلی اغلب می توانند به طور دقیق در یک تصویر محلی سازی شوند، که این یک ویژگی مهم برای بازسازی سه بعدی است [17، 53].

ویژگی‌های محلی پراکنده تحت طیف وسیعی از شرایط تصویربرداری با موفقیت به کارگرفته شده‌اند. با این حال، آنها معمولاً تحت تغییرات ظاهری شدید عملکرد ضعیفی دارند، به عنوان مثال، بین روز و شب [71] یا فصل ها [46]، یا در صحنه های با بافت ضعیف [59]. نتایج اخیر نشان می‌دهد که دلیل اصلی این افت مشاهده‌شده در عملکرد، عدم تکرارپذیری در آشکارساز نقطه کلیدی است: در حالی که توصیف‌گرهای محلی پچ های بزرگ‌تر را در نظر می‌گیرند و به طور بالقوه ساختارهای سطح بالاتر را رمزگذاری می‌کنند، آشکارساز نقطه کلید فقط مناطق کوچک تصویر را در نظر می‌گیرد. در نتیجه، تشخیص ها تحت تغییرات ظاهری قوی ناپایدار هستند

این به دلیل این واقعیت است که اطلاعات سطح پایین مورد استفاده توسط آشکارسازها اغلب به طور قابل توجهی بیشتر تحت تأثیر تغییرات آماری سطح پایین تصویر مانند روشنایی پیکسل است. با این وجود، مشاهده شده است که توصیفگرهای محلی همچنان می توانند با موفقیت تطبیق داده شوند، حتی اگر نقاط کلیدی به طور قابل اعتماد شناسایی نشوند [46، 59، 62، 71]. بنابراین، رویکردهایی که از مرحله تشخیص صرف نظر می‌کنند و به جای آن توصیفگرها را به طور متراکم استخراج می‌کنند، در شرایط چالش‌برانگیز بسیار بهتر عمل می‌کنند. با این حال، این افزایش استحکام به قیمت زمان تطبیق بیشتر و مصرف حافظه است.

در این مقاله، هدف ما دستیابی به بهترین هر دو بخش است، به عنوان مثال، مجموعه پراکنده از ویژگی‌هایی که در شرایط چالش‌برانگیز قوی هستند و برای مطابقت و ذخیره کارآمد هستند. برای این منظور، ما یک رویکرد توصیف و تشخیص برای تشخیص و توصیف پراکنده ویژگی محلی پیشنهاد می‌کنیم: به جای انجام زودهنگام تشخیص ویژگی بر اساس اطلاعات سطح پایین، پیشنهاد می‌کنیم مرحله تشخیص را به تعویق بیندازیم.

ما ابتدا مجموعه ای از نقشه های ویژگی را از طریق یک شبکه عصبی کانولوشن عمیق (CNN) محاسبه می کنیم. سپس این نقشه های ویژگی برای محاسبه توصیفگرها (به عنوان برش هایی از تمام نقشه ها در یک موقعیت خاص پیکسل) و برای شناسایی نقاط کلیدی (به عنوان ماکزیمم محلی نقشه های ویژگی) استفاده می شوند. در نتیجه، آشکارساز ویژگی با توصیفگر ویژگی همراه است. بدین ترتیب تشخیص‌ها با پیکسل‌هایی با توصیفگرهای محلی مجزا مطابقت داده می شوند که برای تطبیق مناسب باشند.

در عین حال، استفاده از نقشه‌های ویژگی از لایه‌های عمیق‌تر یک CNN ما را قادر می‌سازد که تشخیص و توصیف ویژگی‌ها را بر اساس اطلاعات سطح بالاتر قرار دهیم [69]. آزمایش‌ها نشان می‌دهند که رویکرد ما به حافظه کمتری نسبت به روش‌های متراکم نیاز دارد. در عین حال، در شرایط چالش برانگیز (شکل 1) مانند تغییرات روشنایی روز و شب [46] و صحنه‌های با بافت ضعیف [59]، عملکرد نسبتاً خوبی یا حتی بهتری دارد. رویکرد ما در حال حاضر به عملکرد پیشرفته و بدون هیچ آموزشی دست می یابد. می‌توان آن را با تنظیم دقیق مجموعه داده‌های بزرگ از صحنه‌های شاخص [27] بهبود بخشید.

به طور طبیعی، رویکرد ما دارای اشکالاتی نیز است: در مقایسه با ویژگی‌های پراکنده کلاسیک، رویکرد ما به دلیل نیاز به استخراج متراکم توصیفگرها، کارآمدی کمتری دارد. با این حال، این مرحله را می توان با کارایی کاملاً معقول از طریق یک گذر به جلو از طریق یک CNN انجام داد.تشخیص مبتنی بر اطلاعات سطح بالاتر ذاتاً به نقاط کلیدی قوی تر اما کمتر دقیق تر منجر می شود – با این حال، ما نشان می دهیم که رویکرد ما هنوز به اندازه کافی برای محلی سازی بصری و SfM دقیق است.

شکل 2: مقایسه بین رویکردهای مختلف برای تشخیص و توصیف ویژگی. خط لوله (a) مربوط به انواع مختلف روش تشخیص و سپس توصیف دو مرحله ای است. در مقابل، خط لوله پیشنهادی ما (b) از یک CNN استفاده می‌کند که هم ویژگی‌های متراکمی را استخراج می‌کند یعنی هم به عنوان توصیفگر و هم به عنوان آشکارساز عمل می‌کنند

خط لوله تشخیص و توصیف مشترک
برخلاف روش‌های کلاسیک یعنی تشخیص-سپس توصیف، که از یک خط لوله دو مرحله‌ای استفاده می‌کنند، ما پیشنهاد می‌کنیم که استخراج ویژگی متراکم را برای به دست آوردن بازنمایی که به طور همزمان آشکارساز و توصیفگر است انجام دهیم. از آنجایی که آشکارساز و توصیفگر هر دو نمایش اساسی را به اشتراک می گذارند، ما رویکرد خود را D2 می نامیم. رویکرد ما در شکل 3 نشان داده شده است

اولین مرحله از روش به کار گیری یک CNN F بر روی تصویر ورودی I برای به دست آوردن یک تانسور سه بعدی F = F(I)، F∈ R و h×w×n است، که در آن h×w وضوح مکانی از نقشه ویژگی و n تعداد کانال ها است.

3.1. توصیف ویژگی
مانند سایر کارهای قبلی [38,44,59]، ساده ترین تفسیر از تانسور سه بعدی F به صورت مجموعه متراکمی از بردارهای توصیفگر d است:

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *