Joint Self-Attention for Remote Sensing Image Matching

شبکه عصبی نگاشت خودسازمانده
آگوست 26, 2022
آگوست 27, 2022

Joint Self-Attention for Remote Sensing Image Matching


خلاصه-
ما یک روش تطبیق تصویر سنجش از دور مبتنی بر نگاشت معنایی را پیشنهاد می‌کنیم، که هدف آن به دست آوردن موقعیت‌های تطبیق در پچ های کاندید حاوی نقاط کلیدی مستقیماً روی تصویر مرجع است،که استفاده از پیکسل به پیکسل جستجوی حجم-هزینه اجتناب می‌کند. اول، یک ساختار اتنشن ادغام محتوا کلی ایجاد می‌شود تا اطلاعات معنایی کلی را برای پچ های کاندید با کل تصویر دوم ادغام کند. سپس، یک لایه self-attention با وابستگی‌های معنایی برای استخراج وابستگی‌های معنایی روی تصویر مرجع برای بازنمایی متقابل وجهی پیشنهاد می‌شود. حوزه مقبول کلی ارائه شده توسط self-attention، روش پیشنهادی را قادر می‌سازد تا نگاشت معنایی پچ های نامزد روی تصویر مرجع را به دست آورد. نتایج تجربی نشان می‌دهد که روش پیشنهادی نسبت به اعوجاج تصویر حساس نیست و به تطابق متقابل تصاویر نوری SAR با دقت بالا دست می‌یابد، در حالی که هنوز چندین مرتبه بزرگتر سریع‌تر اجرا می‌شود. این افزایش سرعت در تجزیه و تحلیل تصویر سنجش از دور و پردازش موازی را تضمین می کند و در عین حال مسیرهای جدیدی را در ثبت مبتنی بر یادگیری ارتقا می دهد.

معرفی

سنسورهای ماهواره ای مختلف می توانند چندین نوع تصویر سنجش از دور را برای یک منطقه ارائه دهند و این تصاویر سنجش از دور چندوجهی اطلاعات بسیار مکملی دارند [1]. بنابراین، تطبیق تصویر سنجش از دور نیاز به پیش پردازش دارد. به طور معمول، تطبیق تصویر سنجش از راه دور را می توان به دو دسته تقسیم کرد: روش های مبتنی بر ویژگی و روش های مبتنی بر ناحیه.

برای روش‌های مبتنی بر ویژگی، معروف ترین آنها تبدیل ویژگی متغیر مقیاس (SIFT) [2] است زیرا توصیف‌گرهای ویژگی آن تحت جا به جایی ها، چرخش‌ها و مقیاس‌ها ثابت هستند. روش‌های بهبود یافته SIFT از جمله SAR SIFT [3] و DSP-SIFT [4] نیز بررسی شده‌اند. از آنجایی که تصاویر سنجش از راه دور چند حالته حاوی تفاوت های تابش غیرخطی هستند، SIFT، SAR-SIFT و DSP-SIFT تنها می توانند زیر مجموعه ای از مشکلات را برطرف کنند.برخی از روش‌های مبتنی بر ویژگی برای تطبیق تصویر چندوجهی ایجاد شده‌اند، مانند DOBSS [5] و RIFT [6]. این روش‌های تطبیق ویژگی‌های مبتنی بر یادگیری نیستند ، از طرف دیگر با رشد سریع تصاویر سنجش از راه دور چندوجهی به چالش کشیده می شوند زیرا نمی‌توانند توصیفات پیچیده ویژگی‌های مهم تصویر را دریافت کنند.

برای به دست آوردن ویژگی های پیشرفته، بسیاری ازمقالات از شبکه های عصبی عمیق برای توصیف ویژگی ها استفاده می کنند. یه و همکاران ترکیب شبکه عصبی convo lutional (CNN) و SIFT برای استخراج ویژگی ها. ما و همکاران [7] از CNN و ویژگی های محلی برای بهبود بخشی ازتطبیق های صحیح استفاده کرد. یانگ و همکاران [8] یک روش ثبت تصویر nonrigid جدید توسط یک VGG-16 از پیش آموزش دیده برای تولید توصیفگرهای ویژگی چند مقیاسی پیشنهاد کرد. اگرچه این روش‌های مبتنی بر یادگیری عمیق در بسیاری از شرایط کاملاً موفق هستند، اما همچنان به پشتیبانی پردازش دستی سنتی نیاز دارند.

روش مبتنی بر ناحیه، که تطابق را با شناسایی اطلاعات شباهت از کل تصویر یا بخشی از تصاویر توسط یک متریک شباهت تصویر حل می‌کند، بیشترین کاربرد را برای تطبیق تصویر سنجش از دورcross-modal دارد. معیارهای تشابه شامل SSD [9]، NCC [10]، MI [11]، HOPC [12] و CFOG [13] است. SSD و NCC بر خلاف MI، HOPC و CFOG در برابر تفاوت های رادیومتری غیرخطی حساس هستند. با این حال، MI، HOPC، و CFOG مستعد اعوجاج تصویر هستند، با محدودیت‌هایی که کاربرد آنها در ثبت تصویر سنجش از راه دور چندوجهی است.

برای پرداختن به مسائل فوق، چندین مطالعه از شبکه‌های عصبی عمیق برای ایجاد شباهت بر اساس ویژگی‌های محلی پچها استفاده کرده‌اند، مانندU-Net [15] شبکه دوگانه با تبدیل فوریه سریع, Goodness [14]، ، MCGFs [16]، شبه سی ان ان سیامی [17] و سی ان ان سیامی [18]. همه این روش‌های بالا برای تطبیق cross-modal با جستجوی پیکسل به پیکسل استفاده می‌شوند که زمان‌بر و پر زحمت است. لی و همکاران [19] یک چارچوب تطبیق الگو توسط یک نگاشت معنایی پیشنهاد کرد. اگرچه این روش کارایی تطبیق را بهبود می بخشد، اما رابطه محتوایی بین الگو و کل تصاویر را در نظر نمی گیرد، که عدم تمایز بین الگو و پچ های نامزد همسایه را افزایش می دهد.

برای مقابله با این مشکلات، ما یک شبکه مبتنی بر نگاشت معنایی با self-attention برای تطبیق تصویر سنجش از دور پیشنهاد می‌کنیم. لایه self-attention برای تصاویر، با تقسیم کردن هر تصویر به پچ هایی با جاسازی‌های موقعیتی، مجموعه‌ای از نشانه‌ها را می‌سازد و سپس برای استخراج بردارهای پارامتری به عنوان بازنمایی های بصری استفاده می‌کند. self-attention می‌تواند تبدیلات مکانی پیچیده و وابستگی‌های بلندبرد ویژگی را منعکس کند و از آن برای به دست آوردن یک بازنمایی ویژگی کلی استفاده می‌کند. در این کار تصویر مرجع، تصویر دوم و پچ های کاندید به عنوان ورودی هستند. مشارکت های اصلی به شرح زیر خلاصه می شود

ما یک ساختار context-fusing attention ایجاد می کنیم. تصویر حس‌شده و پچ های کاندید به‌عنوان ورودی هستند و پچها را قادر می‌سازند تا اطلاعات محتوا کلی را برای بازنمایی ویژگی‌های چند مقیاسی استخراج کنند.
2) ما یک لایه semantic-dependent self-attention را پیشنهاد می کنیم. پچ های کاندید ادغام شده با محتوا کلی به لایه self-attention ساخته شده وارد می شوند تا وابستگی های معنایی را به تصویر مرجع ایجاد کنند و به تطابق نگاشت معنایی دست یابند.

شکل 1(a) یک چارچوب روش شناختی را نشان می دهد. اجازه دهید r،s تصویر مرجع و تصویر حس شده باشد. r، s ابتدا به چندین پچ جدا می شوند تا مجموعه های pr، ps و پچ های کاندید pc به دست آید. این مجموعه ها به صورت خطی تبدیل شده و موقعیت به طور جداگانه کدگذاری می شوند تا ویژگی های به دست آمده در تصویر کلی قرار گیرند. ps و pc ورودی به یک شبکه global context-fusing attention هستند که برای به دست آوردن یک بازنمایی ویژگی با محتوا کلی استفاده می شود (p

سپس، مجموعه‌های pc و pr برای استخراج ویژگی به لایه شبکه semantic-dependent self-attention وارد می‌شوند و به آنها اجازه می‌دهد اطلاعات یکدیگر را بگیرند. در نهایت نامزد ص
c با عناصر موجود در مجموعه pr قرار می گیرند تا وابستگی های معنایی بین pr و pc بدست آید. این ویژگی‌های superimposed داده شده برای به دست آوردن یک نگاشت تطبیق معنایی (خروجی) به‌صورت یکسان نمونه برداری می شوند.

نگاشت تطبیق معنایی خروجی در حالت ایده آل همان شکل اندازه پچ را دارد. با این حال، در فرآیند تطبیق، شکل خروجی نامنظم است و نمی تواند محل دقیق پچ ها را تعیین کند. در ادامه [19]، نگاشت تطبیق معنایی به تطبیق مرکز موقعیت تبدیل می‌شود که در این بخش II-C به تفصیل توضیح داده خواهد شد.

ما با استفاده از لایه‌های attention and self-attention، یک شبکه global context-fusing attention و همچنین یک شبکه semantic-dependent self-attention network ایجاد می‌کنیم. تفاوت اصلی آنها این است که سه گانه تولید هر ویژگی (کلید، پرس و جو و مقدار) در لایهself-attention است. کلید و پرس و جو وزن های corresponding attention را با ضرب نقطه (داخلی) به دست می آورند و وزن ها و مقدار به دست آمده ضرب نقطه ای می شوند تا خروجی نهایی به دست آید.

لایه attention، پرس و جو را با توجه بهattention object ایجاد می کند، و توالی های دیگر کلید، مقدار را تولید می کنند. به عنوان مثال، در شکل 1(a)، در شبکه global context-fusing attention، ps v، k را تولید می کند، در حالی که لایه شبکه semantic-dependent self-attention، هم pr و هم pc q، v، k را تولید می کنند. اصول آنها یکسان است و فرآیند محاسبات در شکل 1(b) نشان داده شده است. برای خروجی نهایی، global context-fusing attention و لایه‌های semantic dependent self-attention 6، 12 بار تنظیم شده‌اند. جزئیاتself-attention در زیر توضیح داده شده است.

. تابع هزینه معنایی و موقعیت
نگاشت ویژگی خروجی نامرتب است. بنابراین، خروجی با نگاشت تطبیق معنایی نمی تواند برای تعیین مختصات و محلی سازی پیکسل ها استفاده شود. بنابراین، ما از [19] برای محاسبه مرکز نگاشت ویژگی خروجی پیروی می کنیم که میانگین وزنی نقشه های ویژگی است. همانطور که در شکل 2 نشان داده شده است، از دو تابع هزینه برای محاسبه هزینه موقعیت مرکز در حالی که افت معنایی بین برچسب و خروجی در نظر گرفته می شود، استفاده می شود.

.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *