شبکه عصبی نگاشت خودسازمانده
آگوست 26, 2022Joint Self-Attention for Remote Sensing Image Matching
خلاصه-
ما یک روش تطبیق تصویر سنجش از دور مبتنی بر نگاشت معنایی را پیشنهاد میکنیم، که هدف آن به دست آوردن موقعیتهای تطبیق در پچ های کاندید حاوی نقاط کلیدی مستقیماً روی تصویر مرجع است،که استفاده از پیکسل به پیکسل جستجوی حجم-هزینه اجتناب میکند. اول، یک ساختار اتنشن ادغام محتوا کلی ایجاد میشود تا اطلاعات معنایی کلی را برای پچ های کاندید با کل تصویر دوم ادغام کند. سپس، یک لایه self-attention با وابستگیهای معنایی برای استخراج وابستگیهای معنایی روی تصویر مرجع برای بازنمایی متقابل وجهی پیشنهاد میشود. حوزه مقبول کلی ارائه شده توسط self-attention، روش پیشنهادی را قادر میسازد تا نگاشت معنایی پچ های نامزد روی تصویر مرجع را به دست آورد. نتایج تجربی نشان میدهد که روش پیشنهادی نسبت به اعوجاج تصویر حساس نیست و به تطابق متقابل تصاویر نوری SAR با دقت بالا دست مییابد، در حالی که هنوز چندین مرتبه بزرگتر سریعتر اجرا میشود. این افزایش سرعت در تجزیه و تحلیل تصویر سنجش از دور و پردازش موازی را تضمین می کند و در عین حال مسیرهای جدیدی را در ثبت مبتنی بر یادگیری ارتقا می دهد.
معرفی
سنسورهای ماهواره ای مختلف می توانند چندین نوع تصویر سنجش از دور را برای یک منطقه ارائه دهند و این تصاویر سنجش از دور چندوجهی اطلاعات بسیار مکملی دارند [1]. بنابراین، تطبیق تصویر سنجش از دور نیاز به پیش پردازش دارد. به طور معمول، تطبیق تصویر سنجش از راه دور را می توان به دو دسته تقسیم کرد: روش های مبتنی بر ویژگی و روش های مبتنی بر ناحیه.
برای روشهای مبتنی بر ویژگی، معروف ترین آنها تبدیل ویژگی متغیر مقیاس (SIFT) [2] است زیرا توصیفگرهای ویژگی آن تحت جا به جایی ها، چرخشها و مقیاسها ثابت هستند. روشهای بهبود یافته SIFT از جمله SAR SIFT [3] و DSP-SIFT [4] نیز بررسی شدهاند. از آنجایی که تصاویر سنجش از راه دور چند حالته حاوی تفاوت های تابش غیرخطی هستند، SIFT، SAR-SIFT و DSP-SIFT تنها می توانند زیر مجموعه ای از مشکلات را برطرف کنند.برخی از روشهای مبتنی بر ویژگی برای تطبیق تصویر چندوجهی ایجاد شدهاند، مانند DOBSS [5] و RIFT [6]. این روشهای تطبیق ویژگیهای مبتنی بر یادگیری نیستند ، از طرف دیگر با رشد سریع تصاویر سنجش از راه دور چندوجهی به چالش کشیده می شوند زیرا نمیتوانند توصیفات پیچیده ویژگیهای مهم تصویر را دریافت کنند.
برای به دست آوردن ویژگی های پیشرفته، بسیاری ازمقالات از شبکه های عصبی عمیق برای توصیف ویژگی ها استفاده می کنند. یه و همکاران ترکیب شبکه عصبی convo lutional (CNN) و SIFT برای استخراج ویژگی ها. ما و همکاران [7] از CNN و ویژگی های محلی برای بهبود بخشی ازتطبیق های صحیح استفاده کرد. یانگ و همکاران [8] یک روش ثبت تصویر nonrigid جدید توسط یک VGG-16 از پیش آموزش دیده برای تولید توصیفگرهای ویژگی چند مقیاسی پیشنهاد کرد. اگرچه این روشهای مبتنی بر یادگیری عمیق در بسیاری از شرایط کاملاً موفق هستند، اما همچنان به پشتیبانی پردازش دستی سنتی نیاز دارند.
روش مبتنی بر ناحیه، که تطابق را با شناسایی اطلاعات شباهت از کل تصویر یا بخشی از تصاویر توسط یک متریک شباهت تصویر حل میکند، بیشترین کاربرد را برای تطبیق تصویر سنجش از دورcross-modal دارد. معیارهای تشابه شامل SSD [9]، NCC [10]، MI [11]، HOPC [12] و CFOG [13] است. SSD و NCC بر خلاف MI، HOPC و CFOG در برابر تفاوت های رادیومتری غیرخطی حساس هستند. با این حال، MI، HOPC، و CFOG مستعد اعوجاج تصویر هستند، با محدودیتهایی که کاربرد آنها در ثبت تصویر سنجش از راه دور چندوجهی است.
برای پرداختن به مسائل فوق، چندین مطالعه از شبکههای عصبی عمیق برای ایجاد شباهت بر اساس ویژگیهای محلی پچها استفاده کردهاند، مانندU-Net [15] شبکه دوگانه با تبدیل فوریه سریع, Goodness [14]، ، MCGFs [16]، شبه سی ان ان سیامی [17] و سی ان ان سیامی [18]. همه این روشهای بالا برای تطبیق cross-modal با جستجوی پیکسل به پیکسل استفاده میشوند که زمانبر و پر زحمت است. لی و همکاران [19] یک چارچوب تطبیق الگو توسط یک نگاشت معنایی پیشنهاد کرد. اگرچه این روش کارایی تطبیق را بهبود می بخشد، اما رابطه محتوایی بین الگو و کل تصاویر را در نظر نمی گیرد، که عدم تمایز بین الگو و پچ های نامزد همسایه را افزایش می دهد.
برای مقابله با این مشکلات، ما یک شبکه مبتنی بر نگاشت معنایی با self-attention برای تطبیق تصویر سنجش از دور پیشنهاد میکنیم. لایه self-attention برای تصاویر، با تقسیم کردن هر تصویر به پچ هایی با جاسازیهای موقعیتی، مجموعهای از نشانهها را میسازد و سپس برای استخراج بردارهای پارامتری به عنوان بازنمایی های بصری استفاده میکند. self-attention میتواند تبدیلات مکانی پیچیده و وابستگیهای بلندبرد ویژگی را منعکس کند و از آن برای به دست آوردن یک بازنمایی ویژگی کلی استفاده میکند. در این کار تصویر مرجع، تصویر دوم و پچ های کاندید به عنوان ورودی هستند. مشارکت های اصلی به شرح زیر خلاصه می شود
ما یک ساختار context-fusing attention ایجاد می کنیم. تصویر حسشده و پچ های کاندید بهعنوان ورودی هستند و پچها را قادر میسازند تا اطلاعات محتوا کلی را برای بازنمایی ویژگیهای چند مقیاسی استخراج کنند.
2) ما یک لایه semantic-dependent self-attention را پیشنهاد می کنیم. پچ های کاندید ادغام شده با محتوا کلی به لایه self-attention ساخته شده وارد می شوند تا وابستگی های معنایی را به تصویر مرجع ایجاد کنند و به تطابق نگاشت معنایی دست یابند.
شکل 1(a) یک چارچوب روش شناختی را نشان می دهد. اجازه دهید r،s تصویر مرجع و تصویر حس شده باشد. r، s ابتدا به چندین پچ جدا می شوند تا مجموعه های pr، ps و پچ های کاندید pc به دست آید. این مجموعه ها به صورت خطی تبدیل شده و موقعیت به طور جداگانه کدگذاری می شوند تا ویژگی های به دست آمده در تصویر کلی قرار گیرند. ps و pc ورودی به یک شبکه global context-fusing attention هستند که برای به دست آوردن یک بازنمایی ویژگی با محتوا کلی استفاده می شود (p
سپس، مجموعههای pc و pr برای استخراج ویژگی به لایه شبکه semantic-dependent self-attention وارد میشوند و به آنها اجازه میدهد اطلاعات یکدیگر را بگیرند. در نهایت نامزد ص
c با عناصر موجود در مجموعه pr قرار می گیرند تا وابستگی های معنایی بین pr و pc بدست آید. این ویژگیهای superimposed داده شده برای به دست آوردن یک نگاشت تطبیق معنایی (خروجی) بهصورت یکسان نمونه برداری می شوند.
نگاشت تطبیق معنایی خروجی در حالت ایده آل همان شکل اندازه پچ را دارد. با این حال، در فرآیند تطبیق، شکل خروجی نامنظم است و نمی تواند محل دقیق پچ ها را تعیین کند. در ادامه [19]، نگاشت تطبیق معنایی به تطبیق مرکز موقعیت تبدیل میشود که در این بخش II-C به تفصیل توضیح داده خواهد شد.
ما با استفاده از لایههای attention and self-attention، یک شبکه global context-fusing attention و همچنین یک شبکه semantic-dependent self-attention network ایجاد میکنیم. تفاوت اصلی آنها این است که سه گانه تولید هر ویژگی (کلید، پرس و جو و مقدار) در لایهself-attention است. کلید و پرس و جو وزن های corresponding attention را با ضرب نقطه (داخلی) به دست می آورند و وزن ها و مقدار به دست آمده ضرب نقطه ای می شوند تا خروجی نهایی به دست آید.
لایه attention، پرس و جو را با توجه بهattention object ایجاد می کند، و توالی های دیگر کلید، مقدار را تولید می کنند. به عنوان مثال، در شکل 1(a)، در شبکه global context-fusing attention، ps v، k را تولید می کند، در حالی که لایه شبکه semantic-dependent self-attention، هم pr و هم pc q، v، k را تولید می کنند. اصول آنها یکسان است و فرآیند محاسبات در شکل 1(b) نشان داده شده است. برای خروجی نهایی، global context-fusing attention و لایههای semantic dependent self-attention 6، 12 بار تنظیم شدهاند. جزئیاتself-attention در زیر توضیح داده شده است.
. تابع هزینه معنایی و موقعیت
نگاشت ویژگی خروجی نامرتب است. بنابراین، خروجی با نگاشت تطبیق معنایی نمی تواند برای تعیین مختصات و محلی سازی پیکسل ها استفاده شود. بنابراین، ما از [19] برای محاسبه مرکز نگاشت ویژگی خروجی پیروی می کنیم که میانگین وزنی نقشه های ویژگی است. همانطور که در شکل 2 نشان داده شده است، از دو تابع هزینه برای محاسبه هزینه موقعیت مرکز در حالی که افت معنایی بین برچسب و خروجی در نظر گرفته می شود، استفاده می شود.
.