یک روش جدید ثبت دو مرحله ای برای تصاویر سنجش از راه دور بر اساس ویژگی های عمیق و محلی
آوریل 10, 2023مقاله خلاصه تطبیق تصاویر ماهواره ای با یادگیری عمیق
آوریل 15, 2023مقاله D2Net
خلاصه
در این کار به مشکل یافتن مطابقت های قابل اعتماد در سطح پیکسل در شرایط تصویربرداری دشوار می پردازیم. ما رویکردی را پیشنهاد میکنیم که در آن یک شبکه عصبی کانولوشن نقش دوگانه ایفا میکند: این نقش دوگانه به طور همزمان یک توصیفگر ویژگی متراکم و یک آشکارساز ویژگی است. با به تعویق انداختن تشخیص به مرحله بعدی، نقاط کلیدی بهدستآمده نسبت به قطعات مشابه سنتی خود بر اساس تشخیص زودهنگام سازههای سطح پایین پایدارتر هستند. ما نشان میدهیم که این مدل را میتوان با استفاده از تطبیق های پیکسلی استخراجشده از بازسازیهای SfM در مقیاس بزرگ، بدون هیچ گونه حاشیهنویسی، آموزش داد. روش پیشنهادی عملکرد پیشرفتهای را در مجموعه دادههای دشوار Aachen Day-Night و معیار محلیسازی داخلی InLoc و همچنین عملکرد رقابتی در سایر معیارها برای تطبیق تصویر و بازسازی سهبعدی به دست میآورد.
معرفی
ایجاد تناظر در سطح پیکسل بین تصاویر یکی از مشکلات اساسی بینایی رایانه است، با برنامه های کاربردی در بینایی رایانه سه بعدی، فشرده سازی ویدیو، ردیابی، بازیابی تصویر، و محلی سازی بصری. ویژگی های محلی پراکنده [6-8، 13، 14، 19، 30 ، 32-34، 50، 55،56،60،65] یک رویکرد محبوب برای تخمین تناظرهاست است. این روشها از یک رویکرد شناسایی-سپس-توصیف پیروی میکنند که ابتدا یک آشکارساز ویژگی [7،13،19،30،32،34،50،65] را برای شناسایی مجموعهای از نقاط کلیدی یا نقاط علاقه اعمال میکند. سپس آشکارساز پچ های تصویر استخراج شده در اطراف نقاط کلیدی را به مرحله شرح ویژگی زیر ارائه می کند [6-8، 14،30، 33، 55، 56، 60، 65]. خروجی این مرحله یک بازنمایی فشرده برای هر پچ است. ویژگیهای محلی پراکنده مجموعهای از مزیتها را ارائه میدهند: میتوان از طریق (تقریبی) جستجوی نزدیکترین همسایه [37] و فاصله اقلیدسی، مطابقتها را بهطور مؤثر مطابقت داد. ویژگیهای پراکنده یک نمایش کارآمد در حافظه ارائه میدهند و بنابراین رویکردهایی مانند ساختار از حرکت (SfM) [21،53] یا محلیسازی بصری [26، 47، 58] را برای مقیاسبندی ممکن میسازند. آشکارساز نقطه کلیدی معمولاً اطلاعات تصویر سطح پایین مانند گوشه ها [19] یا ساختارهای حباب مانند را در نظر می گیرد [30، 32].به این ترتیب، ویژگی های محلی اغلب می توانند به طور دقیق در یک تصویر محلی سازی شوند، که یک ویژگی مهم برای بازسازی سه بعدی است [17، 53].
ویژگیهای محلی پراکنده تحت طیف وسیعی از شرایط تصویربرداری با موفقیت اعمال شدهاند. با این حال، آنها معمولاً تحت تغییرات ظاهری شدید عملکرد ضعیفی دارند، به عنوان مثال، بین روز و شب [71] یا فصل ها [46]، یا در صحنه های با بافت ضعیف [59]. نتایج اخیر نشان میدهد که دلیل اصلی این افت مشاهدهشده در عملکرد، عدم تکرارپذیری در آشکارساز نقطه کلیدی است: در حالی که توصیفکنندههای محلی پچهای بزرگتر را در نظر میگیرند و به طور بالقوه ساختارهای سطح بالاتر را رمزگذاری میکنند، آشکارساز نقطه کلید فقط ناحیه کوچک تصویر را در نظر میگیرد. در نتیجه، تشخیص ها تحت تغییرات ظاهری قوی ناپایدار هستند. این به دلیل این واقعیت است که اطلاعات سطح پایین مورد استفاده توسط آشکارسازها اغلب به طور قابل توجهی بیشتر تحت تأثیر تغییرات آماری سطح پایین تصویر مانند روشنایی پیکسل قرار می گیرند. با این وجود، مشاهده شده است که توصیفگرهای محلی همچنان می توانند با موفقیت تطبیق داده شوند، حتی اگر نقاط کلیدی به طور قابل اعتماد شناسایی نشوند [46، 59، 62، 71]. بنابراین، رویکردهایی که از مرحله تشخیص صرف نظر میکنند و به جای آن توصیفگرها را به طور متراکم استخراج میکنند، در شرایط چالشبرانگیز بسیار بهتر عمل میکنند. با این حال، این افزایش در استحکام به قیمت زمان تطبیق بیشتر و مصرف حافظه است.
در این مقاله، هدف ما دستیابی به بهترین هر دوحالت است، یعنی مجموعه کمی از ویژگیها که در شرایط چالشبرانگیز قوی هستند و برای مطابقت و ذخیره کارآمد هستند. برای این منظور، ما یک رویکرد توصیف و تشخیص را برای تشخیص و توصیف پراکنده ویژگی محلی پیشنهاد میکنیم: به جای انجام زودهنگام تشخیص ویژگی بر اساس اطلاعات سطح پایین، پیشنهاد میکنیم مرحله تشخیص را به تعویق بیندازیم. ما ابتدا مجموعه ای از نقشه های ویژگی را از طریق یک شبکه عصبی پیچیده عمیق (CNN) محاسبه می کنیم.سپس این نقشههای ویژگی برای محاسبه توصیفگرها (به عنوان برشهایی از تمام نقشهها در یک موقعیت پیکسلی خاص) و برای شناسایی نقاط کلیدی (به عنوان ماکزیمم محلی نقشههای ویژگی) استفاده میشوند. در نتیجه، آشکارساز ویژگی با توصیفگر ویژگی همراه است. بدین ترتیب تشخیصها با پیکسلهایی با توصیفگرهای محلی مجزا مطابقت دارند که باید برای تطبیق مناسب باشند. در عین حال، استفاده از نقشههای ویژگی از لایههای عمیقتر یک CNN ما را قادر میسازد که تشخیص و توصیف ویژگی را بر اساس اطلاعات سطح بالاتر قرار دهیم [69]. آزمایشها نشان میدهند که رویکرد ما به حافظه کمتری نسبت به روشهای متراکم نیاز دارد. در عین حال، در شرایط چالشبرانگیز (شکل 1) مانند تغییرات روشنایی روز و شب [46] و صحنههای با بافت ضعیف [59]، عملکرد نسبتاً خوبی یا حتی بهتری دارد. رویکرد ما در حال حاضر به عملکردی پیشرفته و بدون هیچ آموزشی دست یافته است. میتوان آن را با تنظیم دقیق مجموعه دادههای بزرگ از صحنههای شاخص [27] بهبود بخشید.
به طور طبیعی، رویکرد ما دارای اشکالاتی نیز است: در مقایسه با ویژگیهای پراکنده کلاسیک، رویکرد ما به دلیل نیاز به استخراج متراکم توصیفگرها، کارآمدی کمتری دارد. با این حال، این مرحله را می توان با یک کارایی معقول از طریق یک گذر به جلو از طریق یک CNN انجام داد. تشخیص مبتنی بر اطلاعات سطح بالاتر ذاتاً به نقاط کلیدی قوی تر اما دقیق تر منجر می شود – با این حال، ما نشان می دهیم که رویکرد ما هنوز به اندازه کافی برای محلی سازی بصری و SfM دقیق است.
خط لوله تشخیص و توصیف مشترک
برخلاف روشهای کلاسیک تشخیص و سپس توصیف، که از یک خط لوله دو مرحلهای استفاده میکنند، ما پیشنهاد میکنیم که استخراج ویژگی متراکم را برای به دست آوردن بازنمایی که همزمان یک آشکارساز و یک توصیفگر است انجام دهیم. از آنجایی که آشکارساز و توصیفگر هر دو بازنمایی زیربنایی را به اشتراک می گذارند، ما رویکرد خود را D2 می نامیم. رویکرد ما در شکل 3 نشان داده شده است. اولین مرحله روش اعمال یک CNN F بر روی تصویر ورودی I برای به دست آوردن یک تانسور سه بعدی F = F(I)، F∈ R h×w×n است، که در آن h×w وضوح مکانی نقشه های ویژگی است. و n تعداد کانال.
توصیف ویژگی
مانند سایر کارهای قبلی [38،44،59]، مستقیم ترین تفسیر تانسور سه بعدی F به عنوان مجموعه ای متراکم از بردارهای توصیف کننده است.
d:dij = Fij:، d ∈ Rn، (1)
با i = 1، . . . ، h و j = 1، . . . ، w.
این بردارهای توصیفگر را می توان به راحتی بین تصاویر مقایسه کرد تا با استفاده از فاصله اقلیدسی مطابقت داشته باشند. در طول مرحله آموزش، این توصیفگرها به گونه ای تنظیم می شوند که نقاط مشابه در صحنه توصیفگرهای مشابهی تولید کنند، حتی زمانی که تصاویر دارای تغییرات ظاهری قوی هستند. در عمل، قبل از مقایسه آنها، یک نرمال سازی L2 را روی توصیفگرها اعمال می کنیم: dˆ
ij = dij/kdijk2.