مقاله ASpanFormer

شبکه دی تو نت
می 20, 2023
پایتورچ چیست؟
آگوست 16, 2023

مقاله ASpanFormer

چکیده :

ایجاد تطابقات قوی و قابل اعتماد در بین تصاویر یک کار اساسی برای برنامه های متنوع است. برای به تصویر کشیدن زمینه در سطح کلی و محلی، ما ASpanFormer را پیشنهاد می کنیم، یک تطبیق بدون آشکارساز مبتنی بر ترانسفورماتور که بر اساس ساختار توجه سلسله مراتبی ساخته شده است، و عملیات توجه جدیدی را اتخاذ می کند که قادر به تنظیم دامنه توجه به شیوه ای خودسازگار است.برای دستیابی به این هدف، ابتدا نقشه‌های جریان در هر مرحله توجه متقاطع پسرفت می‌شوند تا مرکز منطقه جستجو را تعیین کند. سپس، یک شبکه نمونه‌برداری در اطراف مرکز ایجاد می‌شود، که اندازه آن، به‌جای پیکربندی تجربی به‌عنوان ثابت، به صورت تطبیقی از عدم قطعیت پیکسلی برآورد شده همراه با نقشه جریان محاسبه می‌شود. در نهایت، مکانسیم توجه در دو تصویر در مناطق مشتق شده محاسبه می‌شود که به آن محدوده توجه گفته می‌شود. با این ابزار، ما می‌توانیم نه تنها وابستگی‌های دوربرد را حفظ کنیم، بلکه می‌توانیم توجه دقیق را در میان پیکسل‌های خیلی مرتبط فعال کنیم. روش پیشنهادی دقت پیشرفته در طیف گسترده ای از معیارهای ارزیابی

معرفی
تطبیق تصویر پایه و اساس کارهای مختلف بینایی کامپیوتری هندسی، از جمله ساختار از حرکت (SfM) [1، 2]، محلی‌سازی بصری [3] و مکان‌یابی و نقشه‌برداری همزمان (SLAM) را می‌سازد [4، 5]. به عنوان یک خط لوله به طور گسترده پذیرفته شده برای تطبیق تصویر، مطابقت های تصویر معمولاً با تطبیق مجموعه ای از نقاط کلیدی پراکنده شناسایی و توصیف شده، مانند SIFT [6]، ORB [7]، یا همتایان مبتنی بر یادگیری آن ها [8-12] ایجاد می شود.علیرغم اثربخشی کلی آن، این خط لوله تطبیق مبتنی بر آشکارساز در موقعیت‌هایی، مانند تغییرات دید گسترده و مناطق بدون بافت، به دلیل اتکا به آشکارساز نقطه کلیدی و از دست دادن محتوا در توصیف ویژگی، با مشکل مواجه می‌شود.

همزمان با تطبیق مبتنی بر آشکارساز، خط دیگری از کارها [13-22] بر تولید تطبیق های مستقیم از تصاویر خام متمرکز است، جایی که می توان از زمینه غنی تر استفاده کرد در حالی که از مرحله تشخیص نقطه کلیدی می توان اجتناب کرد. کارهای قبلی [16-18] در تطابق بدون آشکارساز، اغلب به کانولوشن تکراری بر اساس همبستگی یا حجم هزینه برای کشف بالقوه همسایگی متکی هستند. اخیراً، برخی از آثار [13، 14، 22] روش‌های خود را بر اساس ستون فقرات Transformer [23، 24] برای مدل‌سازی بهتر وابستگی‌های دوربرد پایه‌گذاری می‌کنند.به عنوان یک نماینده، LoFTR از بلوک های توجه خود و توجه متقاطع برای به روز رسانی ویژگی های دید متقاطع استفاده می کند، جایی که ترانسفورماتور خطی [25] برای جایگزینی توجه کامل کلی به منظور دستیابی به هزینه محاسبات قابل مدیریت پذیرفته شده است. اگرچه اثربخشی ثابت شده است، اما نگرانی در مورد LoFTR عدم وجود تعامل محلی در سطح خوب بین توکن های پیکسل است که می تواند توانایی آن را برای استخراج تطابقات بسیار دقیق و به خوبی محلی شده محدود کند. این نگرانی با یافته‌های [22] تانگ و همکاران، عمیق‌تر می‌شود، که نشان می‌دهد نقشه توجه متقاطع ایجاد شده توسط ترانسفورماتور خطی LoFTR به جای تمرکز دقیق بر روی مناطق مربوطه واقعی، تمایل به انتشار در بین مناطق بزرگ دارد.

برای ثبت هر دو زمینه جهانی و جزئیات محلی، ما یک تطبیق دهنده بدون آشکارساز مبتنی بر Transformer، مجهز به چارچوب توجه سلسله مراتبی را پیشنهاد می کنیم.بلوک‌های پردازش پایه ما، که به عنوان بلوک توجه جهانی-محلی (GLA) نامیده می‌شود، توجه جهانی را در وضوح پایین انجام می‌دهد تا وابستگی‌های طولانی مدت را به دست آورد، در عین حال، توجه محلی را با وضوح بالا در ASpanF انجام می‌دهد. بلوک‌های پردازش فونداسیون ما که به آن بلوک توجه محلی-محلی (GLA) گفته می‌شود، توجه جهانی را در وضوح پایین انجام می‌دهد تا وابستگی‌های طولانی مدت را به دست آورد، در عین حال، توجه محلی سطح ظریف را در یون ASpanF با وضوح بالا تنها در یک منطقه متمرکز حول یک متناظر فعلی که از طریق پیش‌بینی جریان متراکم یافت شده انجام می دهد.

چالش کلیدی برای توجه محلی در سطح ریز، تعیین اندازه دامنه توجه است. یک رویکرد ساده این است که اندازه آن را به عنوان یک هایپرپارامتر ثابت در نظر بگیریم، که، با این حال، مطابقت ذاتی مناطق مختلف را که در آن وابستگی زمینه متفاوت است، نادیده می گیرد.. همانطور که در شکل 1 نشان داده شده است، مناطقی که در نواحی بافت غنی هستند را می توان به راحتی در یک همسایگی کوچک تطبیق داد، در حالی که مناطق بدون بافت در مورد مطابقت خود نامطمئن تر هستند و به محتوا بیشتری برای تطبیق نیاز دارند،

برای کاهش این مشکل، ما یک دامنه توجه تطبیقی را که توسط مدل‌سازی احتمالی هدایت می‌شود، معرفی می‌کنیم که می‌تواند برای مکان‌های مختلف بر اساس دشواری تطبیق تنظیم شود. ما رویکرد خود را در سه جنبه خلاصه می کنیم:

یک چارچوب توجه سلسله مراتبی برای تطبیق ویژگی ها پیشنهاد شده است، که در آن عملیات توجه در مقیاس های مختلف انجام می شود تا هم آگاهی از محتوا کلی و هم تطبیق دقیق را امکان پذیر کند.

یک طرح مبتنی بر عدم قطعیت جدید، بر اساس مدل‌سازی احتمالاتی پیش‌بینی جریان، برای تنظیم دامنه توجه محلی تطبیقی پیشنهاد شده است. از طریق این طراحی، شبکه ما اندازه های متفاوتی از محتوا ها را به مکان های مختلف با توجه به تطابق ضروری و غنای زمینه آنها اختصاص می دهد.

نتایج پیشرفته در مجموعه گسترده ای از معیارها به دست آمده است. روش ما در تخمین موقعیت دو نما عملکرد بهتری در روش های بدون آشکارساز و با آشکارساز دارد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *