شبکه سوپر پوینت
می 19, 2023شبکه دی تو نت
می 20, 2023شبکه D2NET
This research focuses on pixel-level correspondence under various image conditions. The conditions can be either day/night difference, season changing, and weakly textured scene
این تحقیق بر روی مطابقت سطح پیکسل در شرایط مختلف تصویر تمرکز دارد. شرایط می تواند تفاوت روز/شب، تغییر فصل، و صحنه با بافت ضعیف باشد.
However, this approach has a limitation: the local descriptors consider larger patches and potentially encode higher-level structures, the keypoint detector only finds small image regions. Thus, the methods suffer from significant performance drop in extreme appearance changes.
کارهای قبلی آشکارساز ویژگی و توصیفگر ویژگی را متمایز می کند، به طوری که به آن رویکرد تشخیص-سپس-توصیف می گویند. آنها ابتدا ویژگی های موجود در تصاویر را شناسایی می کنند وپچ هایی در اطراف نقاط کلیدی شناسایی شده ایجاد می کنند. سپس با استفاده از توصیفگرهای ویژگی، ویژگی هایی در بردار N بعدی را مشخص می کنند. با این حال، این رویکرد دارای یک محدودیت است: توصیفگرهای محلی پچ های بزرگتر را در نظر میگیرند و به طور بالقوه ساختارهای سطح بالاتر را رمزگذاری میکنند، آشکارساز نقطه کلید فقط مناطق کوچک تصویر را پیدا میکند. بنابراین، روش ها از افت عملکرد قابل توجهی در تغییرات ظاهری شدید رنج می برند.
این تحقیق یک رویکرد توصیف و تشخیص را پیشنهاد میکند: به جای انجام زودهنگام تشخیص ویژگی در اطلاعات سطح پایین، به طور همزمان آشکارسازهای ویژگی و توصیفگرهای ویژگی ایجاد می کند. از معماری CNN برای تولید نقشه های ویژگی استفاده کرد که ستون فقرات آن VGGNet است. (VGGNet در مقایسه با ResNet مقاوم تر نسبت به تغییرات روشنایی است)
استخراج ویژگی
همانطور که در بالا توضیح داده شد، D2-Net از لایه های CNN برای استخراج ویژگی استفاده می کند. برای جزئیات پیاده سازی، نویسنده به شما توصیه می کند که مقاله اصلی را بخوانید. در نهایت یک 3D Tensor F را خروجی می دهد.
در طول مرحله آموزش، این توصیفگرها مقادیر مشابهی را برای صحنه های یکسان بدون توجه به تغییرات شدید شرایط تولید می کنند.
هر کانال یک آشکارساز از ویژگی ها است.
نحوه طراحی تابع ضرر
برای دستیابی به هدف، طراحی تابع ضرر حیاتی ترین بخش است. وقتی شرط ضروری ما برآورده نمی شود، تابع ضرر باید با ارزش بالا باشد، زمانی که شرط ضروری ما برآورده شود باید تقریباً صفر باشد. میتوانیم شرایطی را که باید برآورده شوند، خلاصه کنیم.
1) نقطه شناسایی شده تمایل دارد تا حداکثر محلی در همسایگی خود باشد.
(2) نقطه شناسایی شده تمایل دارد حداکثر در بین یک مکان در کانال های مختلف باشد.
(3) نقاط کلیدی مرتبط مشابه خواهند بود. یعنی نقاط مرتبط فاصله اقلیدسی کمتری خواهد داشت.
(4) همسایه نقاط مرتبط مشابه نخواهد بود. یعنی همسایگی متناظر فاصله اقلیدسی بالایی خواهد داشت.
بنابراین، شبکه از معیارهای تشخیص + توصیف برای تابع ضرر استفاده می کند.
تشخیص ویژگی نرم
برای ایجاد یک شبکه انتها به انتها، از soft local-max استفاده می کند که قابل تمایز است.
soft local-max میزان تبعیض بین همسایگان خود را محاسبه می کند . از آنجایی که در مقایسه با همسایه متمایز است، مقدار بزرگتری را برمی گرداند. با این حال، اگر به اندازه کافی متمایز نباشد، مقدار کوچکتر را برمی گرداند. معیار بعدی استفاده شده به شرح زیر است.
معیار از روش نسبت به حداکثر استفاده می کند. این محاسبه است که آیا در بین موقعیت های مشابه در کانال های مختلف به حداکثر نزدیک است یا خیر. سپس برای بدست آوردن یک نقشه امتیازی به حداکثر می رسد.
و در نهایت با نرمال سازی سطح تصویر انجام می شود.
سپس با احراز شرط (1) و (2) که در بالا معرفی شد، این امتیاز بالا خواهد بود.
فاصله توصیفگر
دو فاصله وجود دارد که اصلی ترین آنها خواهد بود: توصیف کننده مثبت p و توصیفگر منفی n. بیایید c را به عنوان مطابقت بین پیکسل A و پیکسل B نشان دهیم.
توصیفگر مثبت p شباهت بین پیکسل A و پیکسل B را تخمین می زند. برای اطمینان بیشتر تطبیقهای c، امتیاز باید به اندازه کافی کوچک باشد. فاصله منفی n شباهت بین پیکسل A و همسایه پیکسل B و همچنین شباهت بین پیکسل B و همسایه پیکسل A را محاسبه می کند. با این حال، اگر همسایگان پیکسل های مجاور باشند، مشکل تطبیق یک مشکل بسیار چالش برانگیز است. بنابراین، این مقاله یک فراپارامتر K را ارائه می دهد که به عنوان یک تلورانس برای سهولت مسئله تطبیق کار می کند.
سپس در نهایت تابع حاشیه به صورت زیر طراحی شده است
این حاشیه , الزامات (3) و (4) را برآورده می کند. از آنجایی که تناظر اشتباه باعث افزایش p و کاهش n می شود، این یک معیار عالی برای مطابقت خواهد بود. در نهایت، تابع ضرر به عنوان ترکیبی از تابع حاشیه و امتیاز نرمال شده در سطح تصویر طراحی شده است.
نتایج پروتکل ارزیابی معرفی شده یک تطابق صحیح تنها در صورتی در نظر می گیرد که نقطه reprojected شده توسط هموگرافی در داخل آستانه باشد. آزمایش در آستانه های مختلف برای بررسی تمایل عملکرد انجام شد.
در مقایسه با الگوریتم های تطبیق قبلی، عملکرد پایین تری در دقت مکانی با آستانه محکم دارد. این آزمایش بر روی مجموعه داده HPatches انجام می شود که یک معیار برای مسائل تطبیق است. از آنجایی که CNN هم توصیفگرها و هم آشکارسازها را انجام می دهد، عملکرد فردی را می توان نادیده گرفت. استفاده اخیر از آشکارسازها سطح پایین مثل ساختارهای حبابی که بهتر از ویژگی های سطح بالاتر محلی سازی می شوند، از دست می دهد.
با این حال، با یک آستانه (6.5 پیکسل یا بیشتر)، D2-Net از سایر الگوریتمهای منطبق بهتر عمل میکند. همانطور که در شکل زیر نشان داده شده است، در تغییرات روشنایی و تغییرات دیدگاه ثابت است.
اگرچه D2-Net عملکرد کمتری در آستانه های محکم دارد، اما برای ساختن بازسازی سه بعدی (ساخت یک مدل سه بعدی بر اساس تصاویر) کافی است. نویسندگان از مجموعه دادههای «Madrid Metropolis»، «Gendramenmarkt» و «Tower of London» استفاده کردند. اگرچه D2-Net در مقایسه با کارهای قبلی دقت کمتری دارد، اما افت قابل توجهی نداشت. افت عملکرد به این دلیل است که کار بازسازی سه بعدی به ویژگی های به خوبی محلی سازی شده نیاز دارد
این مقاله همچنین عملکرد محلی سازی را در شرایط چالش برانگیز بررسی کرد. D2-Net در مسئله محلیسازی هم در مجموعه داده Aachen Day-Night و هم در مجموعه داده InLoc بهتر عمل کرد.
نتیجه
روش توصیف و شناسایی در مشکلات محلی سازی خوب عمل کرده است. با این حال، هنوز محدودیتی در مشکل تطبیق تصویر و مشکل بازسازی سه بعدی دارد. این تحقیق به این دلیل معنادار است که روش جدیدی را در مسائل تطبیق پیشنهاد می کند.