شبکه RF- NET
آوریل 22, 2023شبکه سوپر پوینت
می 19, 2023شبکه ASLFEAT
این کار بر کاهش دو محدودیت در یادگیری مشترک آشکارسازها و توصیفگرهای ویژگی محلی تمرکز دارد:
اول، توانایی تخمین شکل محلی (مقیاس، جهت و غیره) نقاط کلیدی که اغلب در طول استخراج ویژگی متراکم نادیده گرفته میشود، در حالی که آگاهی از شکل برای به دست آوردن تغییر ناپذیری هندسی قویتر بسیار مهم است.
دوم، دقت محلی سازی نقاط کلیدی شناسایی شده برای بازیابی قابل اعتماد هندسه دوربین کافی نیست، که به گلوگاه کارهایی مانند بازسازی سه بعدی تبدیل شده است.
در این مقاله، ما ASLFeat را با سه اصلاح کم و در عین حال موثر برای کاهش مشکلات فوق ارائه میکنیم. اول، ما به شبکههای کانولوشن قابل تغییر شکل متوسل میشویم تا تبدیل محلی را به طور متراکم برآورد و به کار بگیریم. دوم، ما ازمزایا ذاتی ویژگی برای بازیابی وضوح مکانی و جزئیات سطح پایین برای محلیسازی دقیق نقطه کلید استفاده میکنیم.در نهایت، ما از یک معیارpeakiness برای ارتباط دادن پاسخهای ویژگی و استخراج امتیازات derive more indicative استفاده میکنیم. تأثیر هر اصلاح به طور کامل مورد مطالعه قرار می گیرد و ارزیابی به طور گسترده در انواع سناریوهای عملی انجام می شود. نتایج پیشرفتهای گزارش شدهاند که برتری روشهای ما را نشان میدهد.
معرفی
طراحی ویژگیهای محلی قدرتمند پایهای ضروری برای طیف وسیعی از وظایف بینایی کامپیوتری است [31، 43، 44، 30،40، 15، 40]. طی چند سال گذشته، یادگیری مشترک آشکارسازها و توصیفگرهای ویژگی محلی محبوبیت فزاینده ای به دست آورده است و نتایج امیدوارکننده ای در کاربردهای واقعی به دست آورده است.با این حال، دو محدودیت وجود دارد که ممکن است در عملکرد تاثیر داشته باشد: 1) عدم آگاهی از شکل نقاط کلیدی برای دستیابی به تغییر ناپذیری هندسی قوی تر، و 2) عدم دقت محلی سازی نقطه کلیدی برای حل هندسه دوربین.
به طور سنتی، شکل محلی توسط تخمین مقیاس/چرخش [17، 29] یا تبدیل شکل افاین [20] توسط دست دارای پارامتر می شود، اما اخیراً، رویکردهای مبتنی بر داده [23، 22، 39] ظهور کرده اند که یک شبکه مجزا برای رگرسیون پارامترهای شکل ایجاد می کنند. سپس ورودی های پچ را قبل از توصیف ویژگی تبدیل می کنید. با توجه به شیوع روزافزون یادگیری مشترک با آشکارسازهای نقطه کلیدی [6، 25، 27، 7، 4]، تمرکز تحقیقات اخیر به چارچوب هایی تغییر کرده است که به طور متراکم ویژگی ها را از ورودی های تصویر استخراج می کنند، در حالی که هیچ نقطه کلیدی از پیش تعریف شده ارائه نشده است و بنابراین تخمین شکل پچ از قبل غیر قابل اجرا می شود. به عنوان یک جایگزین، LF-Net [25] ویژگیهای متراکم را استخراج میکند و نقشههای ویژگی میانی را از طریق شبکههای ترانسفورماتور مکانی (STN) [12] نگاشت میکند، در حالی که چندین پاس رو به جلو مورد نیاز است و فقط پیشبینیهای پراکنده پارامترهای شکل عملا امکانپذیر است. در این دیدگاه، هنوز راهحلی وجود ندارد که تخمین شکل محلی کارآمد را در یک چارچوب پیشبینی متراکم ممکن کند.
علاوه بر این، دقت محلی سازی نقاط کلیدی آموخته شده هنوز در حل مسائل حساس به هندسه مطرح است. به عنوان مثال، LF-Net [25] و D2-Net [7] به طور تجربی دقت پایینی را در تطبیق دو نمای ارائه می دهند. یا خطای بازپرداخت بزرگ را در وظایف ساختار از حرکت (SfM) نمایان می شود، که در اصل میتوان آن را به عدم دقت مکانی نسبت داد زیرا تشخیصها از نقشههای ویژگی با وضوح پایین مشتق شدهاند (به عنوان مثال، ۱/۴ برابر اندازه اصلی) . برای بازیابی وضوح مکانی، SuperPoint [6] یاد می گیرد که نقشه های ویژگی را با نظارت در سطح پیکسلی از نقاط مصنوعی نمونه برداری کند. در حالی که R2D2 [27] از کانولوشن های بزرگ شده برای حفظ وضوح مکانی استفاده می کند، اما محاسبات بیش از حد GPU و استفاده از حافظه را کاهش می دهد. علاوه بر این، این موضوع جای سوال دارد که آیا تشخیصها از عمیقترین لایه قادر به شناسایی ساختارهای سطح پایین (گوشهها، لبهها و غیره) هستند که نقاط کلیدی اغلب در آن قرار دارند.اگرچه به طور گسترده در وظایف پیش بینی متراکم مورد بحث قرار گرفته شده [28، 10، 16]، درمقاله ما، نه دقت محلی سازی نقطه کلید، و نه ماهیت سطح پایین تشخیص نقطه کلیدی توجه کافی را به خود جلب نکرده است.