Joint Self-Attention for Remote Sensing Image Matching
آگوست 27, 2022سوال 141 زبان دکتری فنی سال 1401
آگوست 28, 2022خلاصه-
ثبت خودکار تصویر سنجش از راه دور دستاورد بزرگی به دست آورده است. با این حال، به دلیل اثرات منفی نویز و تفاوت های تصویربرداری بین تصاویر، ایجاد یک روش ثبت قوی و دقیق هنوز یک مشکل چالش برانگیز حیاتی است. برای این تصاویر، تضمین دقت و استحکام همزمان برای روش های ثبت یک مرحله ای دشوار است.برای پرداختن به این موضوع، ما یک استراتژی موثر درشت به ریز را معرفی می کنیم و یک روش ثبت دو مرحله ای جدید را بر اساس ویژگی های عمیق و محلی در این مقاله توسعه می دهیم. اولین مرحله محاسبه رابطه مکانی تقریبی است که توسط یک شبکه عصبی کانولوشن به دست می آید. این مرحله از ویژگی های عمیق برای مطابقت کامل استفاده می کند و می تواند نتایج پایداری ایجاد کند. برای مرحله دوم، یک استراتژی تطبیق با در نظر گرفتن رابطه مکانی به روش مبتنی بر ویژگی محلی اعمال می شود. علاوه بر این، این مرحله از ویژگی های دقیق تری در مکان برای تنظیم نتایج مرحله قبل استفاده می کند.انواع تصاویر سنجش از دور همولوگ و چندوجهی، از جمله تصاویر رادار نوری، دیافراگم مصنوعی و تصاویر نقشه کلی، برای ارزیابی روش پیشنهادی استفاده میشوند. آزمایشهای مقایسه نشان میدهند که روش ما ظاهراً میتواند مطابقتهای صحیح را افزایش دهد، میتواند نسبت مطابقتهای صحیح را بهبود بخشد، و بسیار قوی و دقیق است.
ثبت تصویر سنجش از راه دور فرآیند تبدیل مجموعه های مختلف داده ها به یک سیستم مختصات است. داده ها ممکن است از حسگر [1]، زمان، عمق یا دیدگاه [2] متفاوت باشند. با توجه به اطلاعات تکمیلی تصاویر سنجش از دور، بخشی ضروری در انواع کاربردهای سنجش از دور، مانند تشخیص تغییر، موزاییک کردن و طبقهبندی تصویر، نظارت بر محیط، و ترکیب تصویر [3] است. برای به دست آوردن یک نتیجه تطبیق دقیق بسیار مورد نیاز است. اگرچه تعدادی از روشهای ثبت برای ثبت خودکار تصاویر در چند دهه اخیر پیشنهاد شدهاند، اما به دلیل تغییر شکلهای هندسی (جابه جایی، چرخش و اعوجاج مقیاس، تغییر دیدگاه، و تغییرات نقش برجسته زمین) و رادیومتریک، ثبت هنوز یک چالش است. اختلافات (تغییرات روشنایی و تفاوت محتوای طیفی). همانطور که مشخص است، روش های موجود را می توان به طور کلی به دو دسته تقسیم کرد: روش های مبتنی بر روشنایی و روش های مبتنی بر ویژگی [4]، [5]. روشهای دستهبندی مبتنی بر شدت، دسته بندی را با استفاده از معیارهای شباهت خاصی بین شدت پیکسل دو تصویر تعیین میکنند. همبستگی متقابل و اطلاعات متقابل (MI) [6] معمولاً برای اندازه گیری شباهت استفاده می شود. این روشها از مرحله تشخیص ویژگی اجتناب میکنند و نتایج دقیقتری تولید میکنند، اما از یکنواختی، اختلافات رادیومتری و درجه بالایی از پیچیدگی محاسباتی رنج میبرند. همانطور که برای روش های مبتنی بر ویژگی، آنها ویژگی های قابل توجه [7] را استخراج می کنند، از جمله نقطه، لبه، خط [8]، کانتور و منطقه، و سپس این ویژگی ها با اندازه گیری فاصله خاص مطابقت داده می شوند. روشهای مبتنی بر ویژگیهای محلی [9] اغلب به دلیل اثربخشی در تصاویر سنجش از راه دور توصیه میشوند. تبدیل ویژگی تغییر ناپذیر مقیاس (SIFT) [10] یکی از متداول ترین روش های مورد استفاده در بین روش های مبتنی بر ویژگی نقطه ای است و روش های مختلف بهبود یافته مبتنی بر SIFT نیز به طور گسترده استفاده می شود.هنگامی که اکثر روشهای مبتنی بر ویژگی نقطهای مستقیماً برای تصاویر سنجش از راه دور اعمال میشوند، تعداد زیادی از مطابقتهای نادرست به دلیل تفاوت نگاشت روشنایی، تأثیر منفی بر استحکام و دقت ثبت دارند [3]. برای غلبه بر این مشکل، لیو و همکاران. [11] یک الگوریتم تطبیق ویژگی نقطه ای مستحکم را با توجه به محدودیتهای اردر مکانی پیشنهاد کرد تا تأثیر نقاط پرت را کاهش دهد.Li و Ye [12] یک روش تطبیق ویژگی SIFT مستحکم را پیشنهاد کردند که در آن به هر نقطه کلید جهت های اصلی بیشتری اختصاص داده شد. کوپفر و همکاران [13] یک الگوریتم SIFT جستجوگر حالت کارآمد را پیشنهاد کرد که از مقیاس، جهت و اطلاعات موقعیت ویژگی SIFT استفاده میکرد. و سپس، نقاط کلیدی نادقیق SIFT حذف شدند. صداقت و همکاران [14] الگوریتم SIFT یونیفرم مستحکم را پیشنهاد کرد، که در آن نقاط کلیدی به طور مساوی در هر دو فضای مقیاس و تصویر توزیع میشوند.
اخیراً شبکه عصبی کانولوشن (CNN) [17] در زمینه بینایی کامپیوتر به موفقیت های زیادی دست یافته است. CNN می تواند به طور خودکار ویژگی های بیانی بیشتری نسبت به روش های آماری از طریق یادگیری کسب کند [18]. چن [19] یک روش یادگیری توصیفگر ویژگی را با استفاده از یک شبکه عصبی کانولوشنال سیامی پیشنهاد کرد. برای رادار دیافراگم مصنوعی (SAR) و تصاویر نوری، هیوز و همکاران. [20] پچ های مربوطه را برای شناسایی ویژه با CNN شبه سیامی پیشنهاد کرد. بسیاری از الگوریتم های مرتبط برای ثبت تصویر اعمال می شوند.
به عنوان مثال، Simo-Serra و همکاران. [21] توصیفگرهای نقطه ویژگی کانولوشنی عمیق را پیشنهاد کرد که با اتخاذ یک استراتژی استخراج برای انتخاب پچ های سخت آموزش داده شدند. وانگ و همکاران [22] یک رمزگذار خودکار انباشته شده (CAE) برای استخراج ویژگیهایی که متعاقباً در چارچوب الگوریتم ثبت سنتی مورد استفاده قرار گرفتند، پیشنهاد کرد. به منظور دستیابی به یک روش انتها به انتها، میائو و همکاران. [23] یک شبکه عصبی کانولوشنال (ConvNet) را برای پیشبینی ماتریس تبدیل پیشنهاد کرد. اما زمانی که این روش های مبتنی بر CNN برای ثبت تصاویر سنجش از دور اعمال می شود، تولید مجموعه داده های آموزشی و طراحی یک شبکه مناسب زمان زیادی می برد. همچنین، آموزش شبکه برای ثبت نام به دلیل نویز محلی و تفاوت روشنایی جفتهای تصویر سنجش از دور دشوار است.
به طور کلی، روش های قبلی هنوز در ایجاد تطابقات صحیح به اندازه کافی مشکل دارند. تفاوت وضوح، مقدار خاکستری، طیف، ویژگیهای منظره، و نویز بین تصاویر سنجش از دور منجر به کمبود مطابقتهای صحیح و نسبت پایین مطابقتهای صحیح (ROCC) میشود. علاوه بر این، آنها تا حد زیادی بر دقت و استحکام ثبت تأثیر می گذارند. همچنین هنگامی که این روش ها برای تصاویر چندوجهی اعمال می شود، به دلیل تفاوت های زیاد بین جفت های تصویر، همچنان خطاهای زیادی در نتایج ثبت وجود دارد. برخی از روشهای برآورد پارامتر مستحکم، مانند روش (RANSAC)، در این مورد شکست خواهند خورد.با توجه به این که ویژگی های عمیق می توانند با استخراج ویژگی ها این تفاوت ها را بین تصاویر مشابه کاهش دهند. هر چه لایه این ویژگی ها عمیق تر باشد، این تفاوت ها کمتر است. با این حال، دریافت ماتریس تبدیل به طور مستقیم مانند مدل های CNN دشوار است. بنابراین ما از یک روش غیر مستقیم برای محاسبه بیشتر ماتریس تبدیل از طریق تطبیق بین ویژگی های عمیق استفاده می کنیم. علاوه بر این، با در نظر گرفتن دقت ویژگی محلی، برای بهبود بیشتر دقت تطبیق استفاده می شود. در این مقاله، ویژگیهای عمیق و روشهای سنتی مبتنی بر ویژگی محلی را ترکیب میکنیم. رابطه تبدیل از مرجع به تصویر حس شده با روش تطبیقی به نام “تطبیق ناحیه” به دست می آید. اثربخشی آن از قابلیت استخراج ویژگی قدرتمند CNN بهره می برد. و سپس، از ویژگی های محلی برای تولید نتایج ثبت دقیق تر استفاده می شود.
عمده کمک های ما به شرح زیر است:
1) گسترش هرم سلسله مراتبی ویژگی استخراج شده توسط CNN تا ثبت.
2) توسعه یک روش مستحکم برای تنظیم مکان درشت به ظرافت.
3) استفاده کامل از مزایای روش کلاسیک مبتنی بر ویژگی محلی برای مکان یابی دقیق.
روش پیشنهادی
برای همگانی شدن الگوریتم ثبت در تصاویر سنجش از دور، استفاده از ویژگی های پر معنی تر ضروری است. در کارهای پردازش تصویر فعلی ویژگیهای عمیق، بازنمایی بهتر تصویر نسبت به ویژگیهای دست ساز هستند، مانند SIFT، HOG [31]، LBP [32] و BinBoost [33] . برای مثال الگوریتم SAR-SIFT در پردازش تصاویر SAR بسیار موثر است. اما قادر به عمل بر روی جفت های تصویر چندوجهی نیست. بنابراین ما از ویژگی های عمیق برای تطبیق اولیه استفاده می کنیم. از مطالعات قبلی، میتوان دریافت که تصاویر با تفاوتهای ظاهری زیاد با ویژگیهای سطح بالا راحتتر مطابقت دارند.بنابراین تطابق اولیه بین تصاویر در لایه ویژگی تصویر انجام می شود و می توان ماتریس تبدیل تقریبی بین تصاویر را بدست آورد. بعداً، دقت ثبت را در ترکیب با ویژگیهای محلی بهبود میبخشیم. در اینجا روش پیشنهادی شامل مدل CNN، تنظیم دقیق، تطبیق ناحیه، تنظیم مکان، ماتریس تبدیل تقریبی و استراتژی تطبیق روش مبتنی بر ویژگی محلی، معرفی میشود. نمودار جریان روش پیشنهادی در شکل 3 ارائه شده است.
ما یک شبکه عصبی پیچیده عمیق (VGG-16) [34] را برای استخراج ویژگی های تصویر، که یک چارچوب طبقه بندی تصویر است، معرفی می کنیم. در اینجا، مدل گروه هندسه بصری (VGG) یک شبکه استخراج ویژگی سطح بالا تصویر رایج است که در تشخیص اشیا [35]، انتقال سبک تصویر [30]، انتقال ویژگی بصری [29] و غیره استفاده شده است. . مطالعات قبلی نشان داده است که می توان از یک مدل CNN آموزش دیده برای استخراج ویژگی های یک تصویر استفاده کرد.
چند لایه اول شبکه ویژگی های سطح پایین مانند لبه ها، گوشه ها و منحنی ها را شناسایی می کند. با عمیق تر شدن شبکه، ویژگی های پیچیده تری از تصویر شناسایی می شوند و این ویژگی ها نسبت به ویژگی های دست ساز رساتر هستند. در اینجا، ما همچنین از این نوع مدل به عنوان استخراج کننده ویژگی برای دستیابی به استخراج هرمی ویژگی ها برای تصویر سنجش از دور استفاده می کنیم. این نوع ویژگی های عمیق مستحکم و پایدار است. نتایج تجربی ما همچنین ثابت کرد که این روش قادر به ایجاد رابطه مکانی قابل اعتماد بین جفتهای تصویر است
یک مدل VGG-16 که به خوبی آموزش دیده است، توانایی استخراج ویژگی های قوی دارد. این مدل بر روی مجموعه داده های ImageNet آموزش دیده و سپس بر روی مجموعه داده های سنجش از راه دور تنظیم شده است. علاوه بر این، ما فقط از لایه های کانولوشن جزئی برای استخراج ویژگی های تصاویر استفاده می کنیم، به عنوان مثال، آخرین لایه کانولوشن Conv1 (224 × 224 × 64)، Conv2 (112 × 112 × 128)، Conv3 (56 × 56 × 256)، و Conv4 (28 × 28 × 512). و مقیاس خروجی Conv5 برای استخراج ویژگیهای کافی بسیار کوچک است تا از این لایه استفاده نکنیم. Conv1 یک گروه لایه کانولوشن با همان مقیاس خروجی 224×224 است. گروههای دیگر نیز مشابه هستند. سپس نگاشت هرمی ویژگی را به دست میآوریم. همانطور که در شکل 4 نشان داده شده است، لایه های سبز دقیقا همان نگاشت های ویژگی هستند که ما به آنها نیاز داریم. نگاشت های ویژگی هر لایه از خروجی تابع فعال سازی ReLU [36] استخراج می شوند. ما یک چارچوب استخراج ویژگی از شبکه VGG-16 را به شرح زیر ارائه می دهیم.
تنظیم دقیق مدل
CNN VGG-16می تواند توصیفگرهایی را بدست آورد که با یادگیری بهتر از SIFT عمل می کنند و در تطبیق هندسی سودمند هستند [37]. سپس، آنها یک مدل CNN را آموزش میدهند تا بین این کلاسهای جایگزین که قبلاً توسعه یافته بودند، تمایز قائل شود. برای اینکه ویژگی های استخراج شده برای تصاویر سنجش از دور مناسب تر شود، به روش هایی که توسط فیشر و همکاران ارائه شده است اشاره می کنیم. [37] و Ye et al. [38]. بر اساس شبکه از پیش آموزش داده شده، ما یک مجموعه داده خاص می سازیم و شبکه را به دقت تنظیم می کنیم. 10 تصویر سنجش از دور انتخاب شده است که ثبت شده اند که شامل SAR، تصاویر نوری، تصاویر نوری ناهمگن و … می باشد.ما 1000 جفت تصویر جدا با اندازه 224 × 224 را از مجموعه داده انتخاب می کنیم. هر جفت تصویر یک کلاس از خود را نشان می دهد و سپس نمونه هایی از آن دسته را با یک سری تبدیل تصادفی گسترش می دهد. تغییرات تبدیل شامل چرخش، مقیاس، جا به جایی، برش و روشنایی است. بنابراین، مجموعه دادههای برچسبگذاری شده سفارشی را با 1000 کلاس که هر کدام شامل 400 نمونه است، میسازیم. در مورد فرآیند تنظیم، ما از مدل VGG-16 از پیش آموزش دیده برای مقداردهی اولیه وزن استفاده می کنیم. نرخ یادگیری 0.001، تکانه 0.9، و کاهش وزن 0.0005 است.
تطبیق ناحیه
هنگامی که شبکه های عصبی کانولوشنال برای کار تشخیص شی آموزش می بینند، بازنمایی از تصویر ایجاد می کنند که اطلاعات شی را به طور فزاینده ای در امتداد سلسله مراتب پردازش واضح می کند [39]. لایه های بالاتر در شبکه، محتوای سطح بالا را از نظر اشیا و چیدمان آنها در تصویر ورودی می گیرند.
30].
به دلیل اثر مکس پولینگ، اندازه نگاشت های ویژگی لایه بالاتر کوچکتر است و می تواند پیچیدگی تطبیق را کاهش دهد. ویژگی های هرمی تصاویر مرجع و حس شده را به صورت {AL، BL } نشان می دهیم و L نشان دهنده تعداد لایه های ویژگی، L = 1، 2، 3، 4 است.
aL ij نشان دهنده بردار ویژگی یک موقعیت در AL است. طول بردار ویژگی با تعداد کانال های موجود در نگاشت ویژگی تعیین می شود. حداکثر مقدار i و j با اندازه نگاشت ویژگی تعیین می شود