شبکه دی تو نت
می 20, 2023پایتورچ چیست؟
آگوست 16, 2023مقاله ASpanFormer
چکیده :
ایجاد تطابقات قوی و قابل اعتماد در بین تصاویر یک کار اساسی برای برنامه های متنوع است. برای به تصویر کشیدن زمینه در سطح کلی و محلی، ما ASpanFormer را پیشنهاد می کنیم، یک تطبیق بدون آشکارساز مبتنی بر ترانسفورماتور که بر اساس ساختار توجه سلسله مراتبی ساخته شده است، و عملیات توجه جدیدی را اتخاذ می کند که قادر به تنظیم دامنه توجه به شیوه ای خودسازگار است.برای دستیابی به این هدف، ابتدا نقشههای جریان در هر مرحله توجه متقاطع پسرفت میشوند تا مرکز منطقه جستجو را تعیین کند. سپس، یک شبکه نمونهبرداری در اطراف مرکز ایجاد میشود، که اندازه آن، بهجای پیکربندی تجربی بهعنوان ثابت، به صورت تطبیقی از عدم قطعیت پیکسلی برآورد شده همراه با نقشه جریان محاسبه میشود. در نهایت، مکانسیم توجه در دو تصویر در مناطق مشتق شده محاسبه میشود که به آن محدوده توجه گفته میشود. با این ابزار، ما میتوانیم نه تنها وابستگیهای دوربرد را حفظ کنیم، بلکه میتوانیم توجه دقیق را در میان پیکسلهای خیلی مرتبط فعال کنیم. روش پیشنهادی دقت پیشرفته در طیف گسترده ای از معیارهای ارزیابی
معرفی
تطبیق تصویر پایه و اساس کارهای مختلف بینایی کامپیوتری هندسی، از جمله ساختار از حرکت (SfM) [1، 2]، محلیسازی بصری [3] و مکانیابی و نقشهبرداری همزمان (SLAM) را میسازد [4، 5]. به عنوان یک خط لوله به طور گسترده پذیرفته شده برای تطبیق تصویر، مطابقت های تصویر معمولاً با تطبیق مجموعه ای از نقاط کلیدی پراکنده شناسایی و توصیف شده، مانند SIFT [6]، ORB [7]، یا همتایان مبتنی بر یادگیری آن ها [8-12] ایجاد می شود.علیرغم اثربخشی کلی آن، این خط لوله تطبیق مبتنی بر آشکارساز در موقعیتهایی، مانند تغییرات دید گسترده و مناطق بدون بافت، به دلیل اتکا به آشکارساز نقطه کلیدی و از دست دادن محتوا در توصیف ویژگی، با مشکل مواجه میشود.
همزمان با تطبیق مبتنی بر آشکارساز، خط دیگری از کارها [13-22] بر تولید تطبیق های مستقیم از تصاویر خام متمرکز است، جایی که می توان از زمینه غنی تر استفاده کرد در حالی که از مرحله تشخیص نقطه کلیدی می توان اجتناب کرد. کارهای قبلی [16-18] در تطابق بدون آشکارساز، اغلب به کانولوشن تکراری بر اساس همبستگی یا حجم هزینه برای کشف بالقوه همسایگی متکی هستند. اخیراً، برخی از آثار [13، 14، 22] روشهای خود را بر اساس ستون فقرات Transformer [23، 24] برای مدلسازی بهتر وابستگیهای دوربرد پایهگذاری میکنند.به عنوان یک نماینده، LoFTR از بلوک های توجه خود و توجه متقاطع برای به روز رسانی ویژگی های دید متقاطع استفاده می کند، جایی که ترانسفورماتور خطی [25] برای جایگزینی توجه کامل کلی به منظور دستیابی به هزینه محاسبات قابل مدیریت پذیرفته شده است. اگرچه اثربخشی ثابت شده است، اما نگرانی در مورد LoFTR عدم وجود تعامل محلی در سطح خوب بین توکن های پیکسل است که می تواند توانایی آن را برای استخراج تطابقات بسیار دقیق و به خوبی محلی شده محدود کند. این نگرانی با یافتههای [22] تانگ و همکاران، عمیقتر میشود، که نشان میدهد نقشه توجه متقاطع ایجاد شده توسط ترانسفورماتور خطی LoFTR به جای تمرکز دقیق بر روی مناطق مربوطه واقعی، تمایل به انتشار در بین مناطق بزرگ دارد.
برای ثبت هر دو زمینه جهانی و جزئیات محلی، ما یک تطبیق دهنده بدون آشکارساز مبتنی بر Transformer، مجهز به چارچوب توجه سلسله مراتبی را پیشنهاد می کنیم.بلوکهای پردازش پایه ما، که به عنوان بلوک توجه جهانی-محلی (GLA) نامیده میشود، توجه جهانی را در وضوح پایین انجام میدهد تا وابستگیهای طولانی مدت را به دست آورد، در عین حال، توجه محلی را با وضوح بالا در ASpanF انجام میدهد. بلوکهای پردازش فونداسیون ما که به آن بلوک توجه محلی-محلی (GLA) گفته میشود، توجه جهانی را در وضوح پایین انجام میدهد تا وابستگیهای طولانی مدت را به دست آورد، در عین حال، توجه محلی سطح ظریف را در یون ASpanF با وضوح بالا تنها در یک منطقه متمرکز حول یک متناظر فعلی که از طریق پیشبینی جریان متراکم یافت شده انجام می دهد.
چالش کلیدی برای توجه محلی در سطح ریز، تعیین اندازه دامنه توجه است. یک رویکرد ساده این است که اندازه آن را به عنوان یک هایپرپارامتر ثابت در نظر بگیریم، که، با این حال، مطابقت ذاتی مناطق مختلف را که در آن وابستگی زمینه متفاوت است، نادیده می گیرد.. همانطور که در شکل 1 نشان داده شده است، مناطقی که در نواحی بافت غنی هستند را می توان به راحتی در یک همسایگی کوچک تطبیق داد، در حالی که مناطق بدون بافت در مورد مطابقت خود نامطمئن تر هستند و به محتوا بیشتری برای تطبیق نیاز دارند،
برای کاهش این مشکل، ما یک دامنه توجه تطبیقی را که توسط مدلسازی احتمالی هدایت میشود، معرفی میکنیم که میتواند برای مکانهای مختلف بر اساس دشواری تطبیق تنظیم شود. ما رویکرد خود را در سه جنبه خلاصه می کنیم:
یک چارچوب توجه سلسله مراتبی برای تطبیق ویژگی ها پیشنهاد شده است، که در آن عملیات توجه در مقیاس های مختلف انجام می شود تا هم آگاهی از محتوا کلی و هم تطبیق دقیق را امکان پذیر کند.
یک طرح مبتنی بر عدم قطعیت جدید، بر اساس مدلسازی احتمالاتی پیشبینی جریان، برای تنظیم دامنه توجه محلی تطبیقی پیشنهاد شده است. از طریق این طراحی، شبکه ما اندازه های متفاوتی از محتوا ها را به مکان های مختلف با توجه به تطابق ضروری و غنای زمینه آنها اختصاص می دهد.
نتایج پیشرفته در مجموعه گسترده ای از معیارها به دست آمده است. روش ما در تخمین موقعیت دو نما عملکرد بهتری در روش های بدون آشکارساز و با آشکارساز دارد.