مقاله D2Net

یک روش جدید ثبت دو مرحله ای برای تصاویر سنجش از راه دور بر اساس ویژگی های عمیق و محلی
آوریل 10, 2023
مقاله خلاصه تطبیق تصاویر ماهواره ای با یادگیری عمیق
آوریل 15, 2023

مقاله D2Net

خلاصه
در این کار به مشکل یافتن مطابقت های قابل اعتماد در سطح پیکسل در شرایط تصویربرداری دشوار می پردازیم. ما رویکردی را پیشنهاد می‌کنیم که در آن یک شبکه عصبی کانولوشن نقش دوگانه ایفا می‌کند: این نقش دوگانه به طور همزمان یک توصیفگر ویژگی متراکم و یک آشکارساز ویژگی است. با به تعویق انداختن تشخیص به مرحله بعدی، نقاط کلیدی به‌دست‌آمده نسبت به قطعات مشابه سنتی خود بر اساس تشخیص زودهنگام سازه‌های سطح پایین پایدارتر هستند. ما نشان می‌دهیم که این مدل را می‌توان با استفاده از تطبیق های پیکسلی استخراج‌شده از بازسازی‌های SfM در مقیاس بزرگ، بدون هیچ گونه حاشیه‌نویسی، آموزش داد. روش پیشنهادی عملکرد پیشرفته‌ای را در مجموعه داده‌های دشوار Aachen Day-Night و معیار محلی‌سازی داخلی InLoc و همچنین عملکرد رقابتی در سایر معیارها برای تطبیق تصویر و بازسازی سه‌بعدی به دست می‌آورد.

معرفی
ایجاد تناظر در سطح پیکسل بین تصاویر یکی از مشکلات اساسی بینایی رایانه است، با برنامه های کاربردی در بینایی رایانه سه بعدی، فشرده سازی ویدیو، ردیابی، بازیابی تصویر، و محلی سازی بصری. ویژگی های محلی پراکنده [6-8، 13، 14، 19، 30 ، 32-34، 50، 55،56،60،65] یک رویکرد محبوب برای تخمین تناظرهاست است. این روش‌ها از یک رویکرد شناسایی-سپس-توصیف پیروی می‌کنند که ابتدا یک آشکارساز ویژگی [7،13،19،30،32،34،50،65] را برای شناسایی مجموعه‌ای از نقاط کلیدی یا نقاط علاقه اعمال می‌کند. سپس آشکارساز پچ های تصویر استخراج شده در اطراف نقاط کلیدی را به مرحله شرح ویژگی زیر ارائه می کند [6-8، 14،30، 33، 55، 56، 60، 65]. خروجی این مرحله یک بازنمایی فشرده برای هر پچ است. ویژگی‌های محلی پراکنده مجموعه‌ای از مزیت‌ها را ارائه می‌دهند: می‌توان از طریق (تقریبی) جستجوی نزدیک‌ترین همسایه [37] و فاصله اقلیدسی، مطابقت‌ها را به‌طور مؤثر مطابقت داد. ویژگی‌های پراکنده یک نمایش کارآمد در حافظه ارائه می‌دهند و بنابراین رویکردهایی مانند ساختار از حرکت (SfM) [21،53] یا محلی‌سازی بصری [26، 47، 58] را برای مقیاس‌بندی ممکن می‌سازند. آشکارساز نقطه کلیدی معمولاً اطلاعات تصویر سطح پایین مانند گوشه ها [19] یا ساختارهای حباب مانند را در نظر می گیرد [30، 32].به این ترتیب، ویژگی های محلی اغلب می توانند به طور دقیق در یک تصویر محلی سازی شوند، که یک ویژگی مهم برای بازسازی سه بعدی است [17، 53].

ویژگی‌های محلی پراکنده تحت طیف وسیعی از شرایط تصویربرداری با موفقیت اعمال شده‌اند. با این حال، آنها معمولاً تحت تغییرات ظاهری شدید عملکرد ضعیفی دارند، به عنوان مثال، بین روز و شب [71] یا فصل ها [46]، یا در صحنه های با بافت ضعیف [59]. نتایج اخیر نشان می‌دهد که دلیل اصلی این افت مشاهده‌شده در عملکرد، عدم تکرارپذیری در آشکارساز نقطه کلیدی است: در حالی که توصیف‌کننده‌های محلی پچهای بزرگ‌تر را در نظر می‌گیرند و به طور بالقوه ساختارهای سطح بالاتر را رمزگذاری می‌کنند، آشکارساز نقطه کلید فقط ناحیه کوچک تصویر را در نظر می‌گیرد. در نتیجه، تشخیص ها تحت تغییرات ظاهری قوی ناپایدار هستند. این به دلیل این واقعیت است که اطلاعات سطح پایین مورد استفاده توسط آشکارسازها اغلب به طور قابل توجهی بیشتر تحت تأثیر تغییرات آماری سطح پایین تصویر مانند روشنایی پیکسل قرار می گیرند. با این وجود، مشاهده شده است که توصیفگرهای محلی همچنان می توانند با موفقیت تطبیق داده شوند، حتی اگر نقاط کلیدی به طور قابل اعتماد شناسایی نشوند [46، 59، 62، 71]. بنابراین، رویکردهایی که از مرحله تشخیص صرف نظر می‌کنند و به جای آن توصیفگرها را به طور متراکم استخراج می‌کنند، در شرایط چالش‌برانگیز بسیار بهتر عمل می‌کنند. با این حال، این افزایش در استحکام به قیمت زمان تطبیق بیشتر و مصرف حافظه است.

در این مقاله، هدف ما دستیابی به بهترین هر دوحالت است، یعنی مجموعه کمی از ویژگی‌ها که در شرایط چالش‌برانگیز قوی هستند و برای مطابقت و ذخیره کارآمد هستند. برای این منظور، ما یک رویکرد توصیف و تشخیص را برای تشخیص و توصیف پراکنده ویژگی محلی پیشنهاد می‌کنیم: به جای انجام زودهنگام تشخیص ویژگی بر اساس اطلاعات سطح پایین، پیشنهاد می‌کنیم مرحله تشخیص را به تعویق بیندازیم. ما ابتدا مجموعه ای از نقشه های ویژگی را از طریق یک شبکه عصبی پیچیده عمیق (CNN) محاسبه می کنیم.سپس این نقشه‌های ویژگی برای محاسبه توصیف‌گرها (به عنوان برش‌هایی از تمام نقشه‌ها در یک موقعیت پیکسلی خاص) و برای شناسایی نقاط کلیدی (به عنوان ماکزیمم محلی نقشه‌های ویژگی) استفاده می‌شوند. در نتیجه، آشکارساز ویژگی با توصیفگر ویژگی همراه است. بدین ترتیب تشخیص‌ها با پیکسل‌هایی با توصیفگرهای محلی مجزا مطابقت دارند که باید برای تطبیق مناسب باشند. در عین حال، استفاده از نقشه‌های ویژگی از لایه‌های عمیق‌تر یک CNN ما را قادر می‌سازد که تشخیص و توصیف ویژگی را بر اساس اطلاعات سطح بالاتر قرار دهیم [69]. آزمایش‌ها نشان می‌دهند که رویکرد ما به حافظه کمتری نسبت به روش‌های متراکم نیاز دارد. در عین حال، در شرایط چالش‌برانگیز (شکل 1) مانند تغییرات روشنایی روز و شب [46] و صحنه‌های با بافت ضعیف [59]، عملکرد نسبتاً خوبی یا حتی بهتری دارد. رویکرد ما در حال حاضر به عملکردی پیشرفته و بدون هیچ آموزشی دست یافته است. می‌توان آن را با تنظیم دقیق مجموعه داده‌های بزرگ از صحنه‌های شاخص [27] بهبود بخشید.

به طور طبیعی، رویکرد ما دارای اشکالاتی نیز است: در مقایسه با ویژگی‌های پراکنده کلاسیک، رویکرد ما به دلیل نیاز به استخراج متراکم توصیفگرها، کارآمدی کمتری دارد. با این حال، این مرحله را می توان با یک کارایی معقول از طریق یک گذر به جلو از طریق یک CNN انجام داد. تشخیص مبتنی بر اطلاعات سطح بالاتر ذاتاً به نقاط کلیدی قوی تر اما دقیق تر منجر می شود – با این حال، ما نشان می دهیم که رویکرد ما هنوز به اندازه کافی برای محلی سازی بصری و SfM دقیق است.

خط لوله تشخیص و توصیف مشترک
برخلاف روش‌های کلاسیک تشخیص و سپس توصیف، که از یک خط لوله دو مرحله‌ای استفاده می‌کنند، ما پیشنهاد می‌کنیم که استخراج ویژگی متراکم را برای به دست آوردن بازنمایی که همزمان یک آشکارساز و یک توصیفگر است انجام دهیم. از آنجایی که آشکارساز و توصیفگر هر دو بازنمایی زیربنایی را به اشتراک می گذارند، ما رویکرد خود را D2 می نامیم. رویکرد ما در شکل 3 نشان داده شده است. اولین مرحله روش اعمال یک CNN F بر روی تصویر ورودی I برای به دست آوردن یک تانسور سه بعدی F = F(I)، F∈ R h×w×n است، که در آن h×w وضوح مکانی نقشه های ویژگی است. و n تعداد کانال.

توصیف ویژگی
مانند سایر کارهای قبلی [38،44،59]، مستقیم ترین تفسیر تانسور سه بعدی F به عنوان مجموعه ای متراکم از بردارهای توصیف کننده است.
d:dij = Fij:، d ∈ Rn، (1)
با i = 1، . . . ، h و j = 1، . . . ، w.
این بردارهای توصیفگر را می توان به راحتی بین تصاویر مقایسه کرد تا با استفاده از فاصله اقلیدسی مطابقت داشته باشند. در طول مرحله آموزش، این توصیفگرها به گونه ای تنظیم می شوند که نقاط مشابه در صحنه توصیفگرهای مشابهی تولید کنند، حتی زمانی که تصاویر دارای تغییرات ظاهری قوی هستند. در عمل، قبل از مقایسه آنها، یک نرمال سازی L2 را روی توصیفگرها اعمال می کنیم: dˆ
ij = dij/kdijk2.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *