شبکه ASLFEAT

شبکه RF- NET
آوریل 22, 2023
شبکه سوپر پوینت
می 19, 2023

شبکه ASLFEAT

این کار بر کاهش دو محدودیت در یادگیری مشترک آشکارسازها و توصیفگرهای ویژگی محلی تمرکز دارد:

اول، توانایی تخمین شکل محلی (مقیاس، جهت‌ و غیره) نقاط کلیدی که اغلب در طول استخراج ویژگی متراکم نادیده گرفته می‌شود، در حالی که آگاهی از شکل برای به دست آوردن تغییر ناپذیری هندسی قوی‌تر بسیار مهم است.

دوم، دقت محلی سازی نقاط کلیدی شناسایی شده برای بازیابی قابل اعتماد هندسه دوربین کافی نیست، که به گلوگاه کارهایی مانند بازسازی سه بعدی تبدیل شده است.

در این مقاله، ما ASLFeat را با سه اصلاح کم و در عین حال موثر برای کاهش مشکلات فوق ارائه می‌کنیم. اول، ما به شبکه‌های کانولوشن قابل تغییر شکل متوسل می‌شویم تا تبدیل محلی را به طور متراکم برآورد و به کار بگیریم. دوم، ما ازمزایا ذاتی ویژگی برای بازیابی وضوح مکانی و جزئیات سطح پایین برای محلی‌سازی دقیق نقطه کلید استفاده می‌کنیم.در نهایت، ما از یک معیارpeakiness برای ارتباط دادن پاسخ‌های ویژگی و استخراج امتیازات derive more indicative استفاده می‌کنیم. تأثیر هر اصلاح به طور کامل مورد مطالعه قرار می گیرد و ارزیابی به طور گسترده در انواع سناریوهای عملی انجام می شود. نتایج پیشرفته‌ای گزارش شده‌اند که برتری روش‌های ما را نشان می‌دهد.

معرفی

طراحی ویژگی‌های محلی قدرتمند پایه‌ای ضروری برای طیف وسیعی از وظایف بینایی کامپیوتری است [31، 43، 44، 30،40، 15، 40]. طی چند سال گذشته، یادگیری مشترک آشکارسازها و توصیفگرهای ویژگی محلی محبوبیت فزاینده ای به دست آورده است و نتایج امیدوارکننده ای در کاربردهای واقعی به دست آورده است.با این حال، دو محدودیت وجود دارد که ممکن است در عملکرد تاثیر داشته باشد: 1) عدم آگاهی از شکل نقاط کلیدی برای دستیابی به تغییر ناپذیری هندسی قوی تر، و 2) عدم دقت محلی سازی نقطه کلیدی برای حل هندسه دوربین.

به طور سنتی، شکل محلی توسط تخمین مقیاس/چرخش [17، 29] یا تبدیل شکل افاین [20] توسط دست دارای پارامتر می شود، اما اخیراً، رویکردهای مبتنی بر داده [23، 22، 39] ظهور کرده اند که یک شبکه مجزا برای رگرسیون پارامترهای شکل ایجاد می کنند. سپس ورودی های پچ را قبل از توصیف ویژگی تبدیل می کنید. با توجه به شیوع روزافزون یادگیری مشترک با آشکارسازهای نقطه کلیدی [6، 25، 27، 7، 4]، تمرکز تحقیقات اخیر به چارچوب هایی تغییر کرده است که به طور متراکم ویژگی ها را از ورودی های تصویر استخراج می کنند، در حالی که هیچ نقطه کلیدی از پیش تعریف شده ارائه نشده است و بنابراین تخمین شکل پچ از قبل غیر قابل اجرا می شود. به عنوان یک جایگزین، LF-Net [25] ویژگی‌های متراکم را استخراج می‌کند و نقشه‌های ویژگی میانی را از طریق شبکه‌های ترانسفورماتور مکانی (STN) [12] نگاشت می‌کند، در حالی که چندین پاس رو به جلو مورد نیاز است و فقط پیش‌بینی‌های پراکنده پارامترهای شکل عملا امکان‌پذیر است. در این دیدگاه، هنوز راه‌حلی وجود ندارد که تخمین شکل محلی کارآمد را در یک چارچوب پیش‌بینی متراکم ممکن کند.

علاوه بر این، دقت محلی سازی نقاط کلیدی آموخته شده هنوز در حل مسائل حساس به هندسه مطرح است. به عنوان مثال، LF-Net [25] و D2-Net [7] به طور تجربی دقت پایینی را در تطبیق دو نمای ارائه می دهند. یا خطای بازپرداخت بزرگ را در وظایف ساختار از حرکت (SfM) نمایان می شود، که در اصل می‌توان آن را به عدم دقت مکانی نسبت داد زیرا تشخیص‌ها از نقشه‌های ویژگی با وضوح پایین مشتق شده‌اند (به عنوان مثال، ۱/۴ برابر اندازه اصلی) . برای بازیابی وضوح مکانی، SuperPoint [6] یاد می گیرد که نقشه های ویژگی را با نظارت در سطح پیکسلی از نقاط مصنوعی نمونه برداری کند. در حالی که R2D2 [27] از کانولوشن های بزرگ شده برای حفظ وضوح مکانی استفاده می کند، اما محاسبات بیش از حد GPU و استفاده از حافظه را کاهش می دهد. علاوه بر این، این موضوع جای سوال دارد که آیا تشخیص‌ها از عمیق‌ترین لایه قادر به شناسایی ساختارهای سطح پایین (گوشه‌ها، لبه‌ها و غیره) هستند که نقاط کلیدی اغلب در آن قرار دارند.اگرچه به طور گسترده در وظایف پیش بینی متراکم مورد بحث قرار گرفته شده [28، 10، 16]، درمقاله ما، نه دقت محلی سازی نقطه کلید، و نه ماهیت سطح پایین تشخیص نقطه کلیدی توجه کافی را به خود جلب نکرده است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *