مقاله خلاصه تطبیق تصاویر ماهواره ای با یادگیری عمیق
آوریل 15, 2023شبکه RF- NET
آوریل 22, 2023تطبیق با یادگیری عمیق در تصاویر استریو
تطبیق تصویر فرآیند استخراج خودکار ارتباط ویژگی ها از تصاویر استریویی که نسبت به هم تغییرات قابل توجه در دیدگاه عکسبرداری دارند, می باشد. تطبیق تصویر فناوری کلیدی برای بازسازی مدلهای واقعی سهبعدی (3D) [1،2،3] بر اساس تصاویر دو بعدی (2D) است [4،5،6]. تصاویر استریو اطلاعات طیفی، بافت، شکل و محتوا واقعی را برای بازسازی دقیق سه بعدی ارائه می دهند. علاوه بر این، آنها مزایایی برای پیکربندی هندسی مکانی و دقت بازسازی سه بعدی دارند [7]. اما با وجود این خصوصیات، به دلیل تغییر قابل توجه در دیدگاه تصویر، که باعث ایجاد اعوجاجهای پیچیده و محتوای گمشده بین اشیاء از نظر مقیاس، آزیموت، روشنایی سطح و اطلاعات همسایگی می شود , تطبیق تصویر را بسیار چالش برانگیز میکند [8]. از این رو، بسیاری از محققان در زمینههای فتوگرامتری دیجیتال و بینایی کامپیوتر, مکانیسم درک(deep-rooted) را برای تصاویر بررسی کردهاند و بهطور پی در پی الگوریتمهای تطبیق تصویر کلاسیک را پیشنهاد کردهاند [10].
بر اساس مکانیسم تشخیص، روشهای تطبیق تصویر را میتوان به دو دسته تقسیم کرد: تطبیق دست ساز و تطبیق یادگیری عمیق.
چندین محقق با الهام از دانش حرفه ای و تجربه شهودی، روش های تطبیق دست ساز را پیشنهاد کرده اند که می توانند توسط مدل های محاسباتی بصری و پارامترهای تجربی پیاده سازی شوند [14،15،16،17،18]. به این دسته از روشها, تطبیق سنتی نیز گفته میشود که نماینده کلاسیک آن الگوریتم تبدیل ویژگی مقیاس ثابت (SIFT) [14] است. تطبیق سنتی مشکلات زیادی دارد [15،16،17،18] مانند تکرار(باز انجام) در استخراج ویژگی تصویر یا قابلیت اطمینان توصیفگرهای ویژگی و معیارهای تطبیق.
با استفاده از (1) معماری شبکه عصبی کانولوشن چند سطحی (CNN)، (2) روشهای مبتنی بر یادگیری به وسیله ی تکرار بهینهسازی با پسانتشار و (3) یادگیری پارامتر مدل از مقدار زیادی از دادههای تطبیق حاشیه نویسی شده , مدل CNN آموزشدیده تطبیق تصویر توسعه مییابد [19]. یک مدل یادگیری عمیق در این دسته را می توان، MatchNet [20] انتخاب کرد. روشهای زیرمجموعه این دسته رویکرد متفاوتی را برای حل مشکل تطبیق تصویر ارائه میدهند، اما در حال حاضر به خاطر تعداد و فضای نمونههای آموزشی محدود شدهاند، و یادگیری پارامترهای بهینه مدل که برای کاربردهای عملی مناسب هستند دشوار است[ 21،22،23،24،25].
تطبیق تصویر مبتنی بر یادگیری اساساً روشی است که با دانش قبلی هدایت می شود. برخلاف روشهای سنتی دست ساز، میتواند از نیاز به بسیاری از مداخلات دستی برای تشخیص ویژگی [26]، توصیف ویژگی [27]، طراحی مدل [28] و تخصیص پارامتر شبکه [29] جلوگیری کند. علاوه بر این، می تواند نمایش عمیق و همبستگی ویژگی های را مستقیماً از داده های نمونه در مقیاس بزرگ بیاموزد. با توجه به طرح مورد استفاده برای آموزش مدل، روش های تطبیق را می توان به دو نوع [30] تقسیم کرد:
(1) آموزش چند مرحله ای (مرحله به مرحله) [31] و (2) آموزش پایان به پایان [32].
در حالت اول، مراحل مختلف مانند تشخیص ویژگی، تخمین جهت همسایگی، و ساخت توصیفگر میتواند آزادانه با روشهای دست ساز ادغام شود [33]. در حالی که دومی مراحل چندگانه استخراج، توصیف و تطبیق ویژگی را به عنوان یک کل در نظر می گیرد و با آموزش مشترک آنها، به بهینه کلی دست می یابد [34].
در سالهای اخیر، با رشد مجموعه دادههای آموزشی و معرفی یادگیری انتقالی [35]، تطبیق تصویر مبتنی بر یادگیری عمیق توانسته است اکثر وظایف تطبیق تصویر را انجام دهد [36] و عملکرد آن میتواند در برخی موارد، از الگوریتم های سنتی دست ساز پیشی می گیرند. با این حال، روشهای موجود هنوز از نظر ساختار شبکه [37]، تابع ضرر [38]، معیار تطبیق [39] و توانایی تعمیم[40] بهویژه برای چالش های تطبیق تصویر مانند تغییر زیاد دیدگاه [41]، ناپیوستگی های سطح [42]، انسداد [43]، سایه ها [44] و الگوهای تکراری [45،46،47] نیاز به مطالعه بیشتر دارند.
بر اساس بررسی فرآیند تطبیق تصویر، ما به طور تدریجی خصوصیات روش های پیشنهادی را در تحقیقات موجود، از جمله ماهیت روش ها و همچنین مزایا و معایب آنها، سازماندهی، تجزیه و تحلیل و خلاصه می کنیم. سپس، مدلهای یادگیری عمیق کلاسیک بر روی مجموعه دادههای عمومی متعدد و تصاویر استریو با خط پایه گسترده آموزش داده و آزمایش میشوند. علاوه بر این، ما روشهای گذشته را مقایسه و ارزیابی میکنیم و چالشهای حلنشده آنها را مشخص میکنیم. در نهایت، روندهای احتمالی آینده در تکنیک های کلیدی مورد بحث قرار می گیرد. ما امیدواریم که تحقیق در مورد تطبیق تصویر با خط مبنا گسترده توسط این مقاله بررسی شود.
موضوعات اصلی این مقاله به شرح زیر خلاصه می شود:
ابتدا، ما یک بررسی کامل برای روشهای تطبیق مبتنی بر یادگیری، از تشخیص ویژگی گرفته تا تطبیق انتها به انتها، انجام میدهیم، که شامل ماهیتها، محاسن و نقصهای هر روش برای تصاویر با خط پایه گسترده است. دوم، ما روشهای ترکیبی مختلفی را برای ارزیابی منصفانه و یکنواخت ماژولها با استفاده از آزمونهای کمی و کیفی متعدد ایجاد میکنیم. سوم، ما علت اصلی تلاش برای تولید تطابق با کیفیت بالا در بین تصاویر استریو با خط پایه گسترده را آشکار میکنیم و راهحلهای عملی برای کار آینده ارائه میکنیم.
در بخش 2، این مقاله محبوبترین روشهای تطبیق مبتنی بر یادگیری، از جمله تشخیص ویژگی، توصیف ویژگی، و استراتژیهای انتها به انتها را مرور میکند. نتایج و بحث در بخش 3 ارائه شده است. خلاصه و چشم انداز در بخش 4 ارائه شده است. در نهایت، بخش 5 نتایج این مقاله را ترسیم می کند.
روشهای یادگیری عمیق تطبیق تصویر
در حال حاضر، تحقیق در مورد روشهای یادگیری عمیق برای تطبیق تصویر با خط پایه گسترده، عمدتاً بر سه موضوع متمرکز است: تشخیص ویژگی، توصیف ویژگی، و تطبیق انتها به انتها (شکل 1 را ببینید). بنابراین، این بخش به بررسی و خلاصهای از کارهای مرتبط در این موضوعات تحقیقاتی در زیر میپردازد.
تشخیص ( آشکارسازی) ویژگی مبتنی بر یادگیری عمیق
شکل 2 پیشرفت در روشهای تشخیص ویژگی یادگیری عمیق را به طور خلاصه نشان می دهد. بر اساس حالت یادگیری پیادهسازی شده الگوریتمهای تشخیص ویژگی یادگیری عمیق را میتوان به دو نوع تقسیم کرد:
یادگیری نظارت شده [48] و یادگیری بدون نظارت [49].
تشخیص ویژگی با روش یادگیری نظارت شده، نقاط مشخصه استخراج شده با روش های سنتی را, به عنوان “نقاط لنگر” در نظر می گیرد و سپس یک شبکه عصبی رگرسیون را برای پیش بینی مکان نقاط ویژگی بیشتر, آموزش می دهد. در حالی که استراتژی یادگیری بدون نظارت مستقیماً از یک شبکه عصبی برای آموزش نقاط کاندید و مقادیر پاسخ آنها استفاده می کند و سپس نقاط کاندید را در بالا یا پایین رتبه بندی (اکسترمم ها) به عنوان امتیاز نهایی در نظرمی گیرد.
اساس تطبیق تصویر، استخراج ویژگیهای محلی ثابت است یعنی : ویژگیهای محلی که در تصاویر استریو تحت اعوجاجهای هندسی یا رادیومتری، مانند تغییر دیدگاه یا تغییر روشنایی، ثابت باقی میمانند. در سالهای اخیر، محققان بر روی کاوش طرحهای تشخیص ویژگی با یادگیری عمیق توسط تقویت شبکه تمرکز کردهاند [50].
استفاده از استراتژی یادگیری نظارت شده : به عنوان مثال، Lenc و همکاران. برای اولین بار یک تابع ضرر ویژگی ثابت محلی Lcov(x) پیشنهاد کردند.
جایی که ∥⋅∥F2 نرم F است، x بلوک تصویری است که باید پردازش شود، g تبدیل تصادفی هندسی است، gx نتیجه تبدیل تصادفی x است، ϕ(⋅)خروجی ماتریس تبدیل توسط شبکه عصبی است و q تبدیل باقیمانده مکمل g است.
بر این اساس، این الگوریتم از شبکه عصبی سیامی DetNet برای یادگیری ویژگی ثابت تحت تبدیلهای هندسی استفاده میکند. علاوه بر این، از نقاط کنترل تصویر به عنوان نقاط لنگر استفاده می کند و نقاط ویژگی بالقوه را به عنوان اشکال تبدیل خاصی از این نقاط لنگر در نظر می گیرد. در مرحله آموزش، تصاویر با نقاط لنگر وارد شبکه عصبی رگرسیون می شوند و تبدیل بهینه به صورت تکراری آموخته می شود. سپس، وزنهای شبکه عصبی رگرسیون با توجه به تابع ضرر تنظیم میشوند و در نهایت برای به دست آوردن موقعیتها، جهتها و شکلهای ویژگی بیشتر درونیابی میشوند. این روش سابقه ای (نمونه ای ) برای تشخیص ویژگی های ثابت یادگیری عمیق ایجاد کرد و ویژگی های شناسایی شده به تغییر ناپذیری مقیاس و چرخش مجهز شدند.
ژانگ و همکاران [52] از ویژگی روشنایی تغییر ناپذیر TILDE [30] یادگیری عمیق به عنوان نقطه لنگر استفاده کرد که مشکل تطبیق تصویر تحت تغییرات روشنایی شدید را حل کرد. بر این اساس، Doiphode و همکاران. [53] از یک شبکه سه گانه [54] استفاده کردند و یک محدودیت عدم تغییر افاین را برای یادگیری ویژگی های ثابت پیوسته و قابل اعتماد اعمال کردند. روشهای بالا به ویژگیهای هدف یک تغییر ناپذیری هندسی و رادیومتری خاص میدهند، اما رابطه هندسی بین بلوکهای تصویر باید تقریباً قبل از آموزش مدل شناخته شود. این به طور نامرئی بار کاری تولید مجموعه داده آموزشی را افزایش می دهد.
یی و همکاران [55] ویژگی های بیشتر Edge Foci (EF) [56] و SIFT [14] را برای تشخیص مکان نقاط کلیدی مورد مطالعه قرار دادند و جهت همسایگی ویژگی ها را بر اساس CNN آموخت. میشکین و همکاران [57] از یک Hessian چند مقیاسی برای شناسایی نقاط ویژگی اولیه و تخمین ناحیه ثابت نسبت به افاین بر اساس شبکه سه گانه AffNet استفاده کرد. این روش الگوریتمهای استخراج ویژگی سنتی را با ویژگیهای تغییرناپذیر یادگیری عمیق ترکیب میکند که به طور قابلتوجهی کارایی و قابلیت اطمینان تشخیص ویژگی را بهبود میبخشد.
علاوه بر ویژگی های ذکر شده در بالا برای یادگیری نظارت شده، ساوینوف و همکاران [58] یک استراتژی کلاسیک یادگیری ویژگی با ایده بدون نظارت پیشنهاد کرد. این روش مسئله یادگیری تشخیص ویژگی را به یک مسئله یادگیری مرتبسازی پاسخ-مقدار نقاط علاقه تصویر تبدیل میکند. تابع پاسخ نقطه تصویر با H(p|w) نشان داده می شود.
، جایی که p نشان دهنده نقطه تصویر و H و w به ترتیب نشان دهنده CNN مورد آموزش و بردار وزن شبکه هستند. سپس مدل مرتبسازی پاسخ-مقدار نقطه تصویر به صورت زیر بیان میشود:
در اینجا d یک هدف صحنه را در تصویر نشان می دهد و p روی d قرار دارد. i و j شاخص های p و i≠j هستند. t(d)jp و t(d)ip به ترتیب با تبدیل t و djp dip تولید می شوند. بنابراین، تمام نقاط p در هدف d بر اساس تابع ارزش پاسخ و معادله بالا مرتب می شوند و نقاط تصویر با مقادیر پاسخ در رده های بالا یا پایین به عنوان نقاط ویژگی حفظ می شوند.
هدف اصلی این روش یادگیری تابع پاسخ ثابت نقطه تصویر با استفاده از شبکه عصبی است. نقاط مشخصه تغییر ناپذیری خوبی در تغییر پرسپکتیو تصاویر دارند. آزمایشهای اضافی در مرجع [58] نشان میدهد که روش پیشنهادی ممکن است از استراتژی تفاضل گاوسی (DoG) [14] در مورد تکرارپذیری ویژگی برای تصاویر با تغییردیدگاه مشاهده عملکرد بهتری داشته باشد. با این حال، روشهای موجود هنوز هم کاستیهای زیادی با توجه به تکرارپذیری تشخیص نقطه ویژگی و پایداری برای تصاویر با خط پایه گسترده با تغییرات زیاد دیدگاه دارند.
همانطور که در بالا ذکر شد، روشهای مبتنی بر یادگیری برای تشخیص ویژگی به عنوان دستاوردهای یادگیری تحت نظارت طبقهبندی میشوند. چنین روشهای جریان اصلی میتوانند بهراحتی از استراتژیهای بدون نظارت در یادگیری ویژگیهای ثابت پیشی بگیرند، زیرا روشهای نظارت شده ممکن است بهطور مستقیم و جداگانه فریمهای کواریانت هندسی را برای تصاویر با خط پایه گسترده تولید کنند، در حالی که روشهای بدون نظارت باید همزمان با مکانهای نقاط مورد علاقه و تغییرناپذیری آنها در فرآیند یادگیری کنار بیایند.
توصیف ویژگی های یادگیری عمیق
توصیف ویژگی یادگیری عمیق [59] به طور گسترده در کارهای حرفه ای [60] مانند بازیابی تصویر، بازسازی سه بعدی، تشخیص چهره، تشخیص نقطه کلیدی، و موقعیت یابی و ردیابی هدف استفاده شده است. تحقیقات خاص در مورد این موضوع، همانطور که در شکل 3 نشان داده شده است، عمدتاً بر ساختار شبکه و طراحی تابع ضرر متمرکز است. در میان آنها، ساختار شبکه یادگیری عمیق به طور مستقیم تمایز و قابلیت اطمینان توصیفگرهای ویژگی را تعیین می کند، در حالی که تابع ضرر با کنترل فرکانس تکرار به روز رسانی پارامترهای مدل و بهینه سازی کمیت و کیفیت نمونه ورودی , بر عملکرد آموزشی مدل تأثیر می گذارد.
کلید توصیف ویژگی با کیفیت بالا، در نظر گرفتن شباهت و تبعیض است.
“شباهت” به توانایی ارتباط توصیفگرهای ویژگی برای حفظ تغییر ناپذیری خوب نسبت به نویز سیگنال، اعوجاج هندسی، و اعوجاج تشعشعی اشاره دارد، در نتیجه درجه بالایی از شباهت را حفظ می کند.
در مقابل، “تبعیض” به این ایده اشاره دارد که باید تفاوت زیادی بین هر توصیفگر غیر منطبق وجود داشته باشد.
برای تولید توصیفگرهای با کیفیت بالا، روش مبتنی بر یادگیری از الگوریتمهای سنتی خارج میشوند و شبکه سیامی یا شبکه سهگانه را میسازند که ساختار شناختی اعصاب بینایی انسان را شبیهسازی میکند.
شبکه سیامی که به عنوان شبکه دو کاناله نیز شناخته می شود، یک معماری جفت شده مبتنی بر یک شبکه دو شاخه است، در حالی که شبکه سه گانه یک شاخه بیشتر از شبکه سیامی دارد و بنابراین می توان آن را با سناریویی تطبیق داد که در آن سه نمونه به طور همزمان وارد می شوند.
شکل 4 تکامل چندین شبکه توصیف ویژگی معمولی را نشان می دهد. در میان آنها، یک رویکرد معرف MatchNet [20] است که از شبکه اصلی سیامی استفاده می کند و از دو بخش اصلی تشکیل شده است: یک شبکه کدگذاری ویژگی و یک شبکه سنجش شباهت. دو شاخه از شبکه ویژگی اشتراک پویا وزن را حفظ میکنند و ویژگی های پچ های تصاویر استریو را از طریق یک لایه کانولوشن [58]، یک لایه تجمع حداکثر [61] و لایههای دیگر استخراج میکنند. علاوه بر این، شباهت بین بلوک های تصویر را از طریق یک سری متصل به بالا شبکه کاملاً متصل محاسبه می کند [62]، و سپس بلوک های تطبیق را بر اساس امتیاز شباهت تعیین می کند.. متعاقباً، Zagoruyko و همکاران. [63] بیشتر نقش شبکه دو جریانی مرکزی فراگیر (CSTSNet) [64] و شبکه تجمیع هرمی مکانی (SPPNet) [65] را در توصیف ویژگی بررسی کردند. CSTSNet یک جریان فراگیر با وضوح پایین را با یک جریان مرکزی با وضوح بالا ترکیب میکند که نه تنها از اطلاعات چند وضوح تصویر استفاده میکند، بلکه بر اطلاعات پیکسلهای مرکزی نیز تأکید میکند، بنابراین عملکرد تطبیق را به طور قابلتوجهی بهبود میبخشد. در مقابل، SPPNet ویژگی های خوب شبکه سیامی را به ارث می برد، سپس با معرفی یک لایه ادغام هرمی مکانی، سازگاری با داده های بلوک تصویر در اندازه های مختلف را افزایش می دهد. برای اعمال SPPNetto توصیف ویژگی ها در تصاویر ماهواره ای، Fan et al. [66] یک شبکه توصیف دو کاناله بر اساس یک لایه کانولوشن مقیاس-مکان برای بهبود دقت تطبیق تصاویر ماهواره ای طراحی کرد.
این شبکههای اندازهگیری توصیفگر متعلق به دسته شبکههای کاملاً متصل هستند که در طول آموزش و آزمایش، مقدار زیادی از منابع محاسباتی را مصرف میکنند و از این رو بازده تطبیقی پایینی دارند. برای پرداختن به این موضوع، تیان و همکاران. یک مدل توصیف ویژگی به نام L2-Net [67] با یک نمایش شبکه کامل کانولوشن پیشنهاد کردند.این روش ایده توصیفگرهای SIFT را به ارث می برد، یعنی بعد خروجی شبکه را به 128 تنظیم می کند و از معیار L2 فاصله اقلیدسی به جای شبکه متریک برای ارزیابی شباهت توصیفگرهای ویژگی استفاده می کند. ساختار اصلی شبکه L2-Net در شکل 5 نشان داده شده است. این شبکه از هفت لایه کانولوشن و یک لایه نرمال سازی پاسخ محلی (LRN) تشکیل شده است. در شکل، عبارت “3 × 3 Conv” در لایه کانولوشن به عملیات کانولوشن، نرمال سازی دسته ای و فعال سازی خطی در این سری اشاره دارد و “8 × 8 Conv” نشان دهنده عملیات پردازش کانولوشن و نرمال سازی دسته ای است. علاوه بر این، “32” یک پیچیدگی 32 بعدی با اندازه گام 1 را نشان می دهد و “64/2” به یک عملیات کانولوشنی 64 بعدی با اندازه گام 2 اشاره دارد. لایه خروجی نهایی LRN برای تولید بردارهای توصیفگر واحد ضمن تسریع همگرایی شبکه و افزایش تعمیم مدل استفاده می شود.
نتایج بر روی مجموعه داده منبع باز Brown [68]، Oxford [10] و HPatches [69] آموزش و آزمایش مجموعه داده ها نشان می دهد که L2-Net توانایی تعمیم خوبی دارد و عملکرد آن بهتر از توصیفگرهای سنتی موجود است. علاوه بر این، L2-Net با توجه به طبقهبندی ویژگیهای تصویر و همچنین توصیف و تطبیق ویژگی تصویر استریو ، به خوبی عمل میکند، و بنابراین بسیاری از محققان آن را به عنوان یک شبکه توصیف ویژگی کلاسیک در نظر میگیرند و آن را با بهبود در ساختار شبکه گسترش دادهاند. بالنتاس و همکاران [34] دریافتند که یکی از معایب L2-Net این است که سهم نمونه های منفی در مقدار تابع ضرر را نادیده می گیرد. از این رو، آنها سه گانه و CNN کم عمق (TSCNN) را پیشنهاد کردند. این روش لایه شبکه L2-Net و تعداد کانال ها را ساده می کند، سپس نمونه های منفی را در آموزش شبکه می گنجاند و از این رو، مدل اصلاح شده می تواند فاصله بین توصیفگرهای منطبق را کاهش دهد در حالی که فاصله بین توصیفگرهای ویژگی غیر منطبق را افزایش می دهد. با این حال، نمونههای منفی با استفاده از استراتژی نمونهگیری تصادفی به TSCNN وارد میشوند و در نتیجه، بیشتر نمونههای منفی به اندازه کافی به آموزش مدل کمک نمیکنند، که این باعث می شود پیشرفتها در تبعیض توصیفگر را محدود شود.با توجه به این موضوع، هاردنت [70] دشوارترین نمونه منفی، یعنی نزدیکترین توصیفگر غیر منطبق را در آموزش مدل گنجانده است، که به طور قابل ملاحظه ای کارایی آموزش و عملکرد تطبیق را افزایش می دهد. تابع ضرر حاشیه سه گانه (TML) مورد استفاده در این مدل به شرح زیر است:
L=1m∑i=1mmax(0.1+d(ai,pi)−min(d(ai,njmin),d(nkmin,pi)))
m اندازه دسته است، d() فاصله اقلیدسی بین دو توصیفگر است، ai و pi یک جفت توصیفگر تطبیق دلخواه هستند و njmin و nkmin به ترتیب نشان دهنده نزدیکترین توصیفگرهای غیر منطبق به ai و pi هستند. بر اساس ساختار شبکه L2-Net، مدل توصیفگر HardNet از استراتژی نمونه گیری منفی نزدیکترین همسایه و تابع ضرر TML استفاده می کند که یکی دیگر از پیشرفت های مهم در مدل شبکه توصیفگر است. با الهام از HardNet، برخی از مدلهای یادگیری عمیق قابل توجه برای توصیف ویژگیها بیشتر مورد بررسی قرار گرفتهاند. به عنوان مثال، LogPolarDesc [71] از یک شبکه تبدیل قطبی برای استخراج ارتباط بلوک های تصویر با شباهت بالاتر برای بهبود کیفیت و کارایی مدل آموزشی استفاده می کند. SOSNet [72] برای جلوگیری از بیش برازش مدل و بهبود قابل ملاحظه استفاده از توصیفگرها، منظمسازی شباهت مرتبه دوم را در تابع ضرر معرفی میکند. برای تولید یک توصیفگر با تغییر ناپذیری هندسی کلی و محلی، برخی از محققان استفاده کامل از هندسه یا اطلاعات بافت بصری یک تصویر را پیشنهاد کردهاند. رویکرد GeoDesc [73] از شباهت کسینوس برای اندازه گیری درجه تطابق توصیفگرها استفاده می کند. همچنین آستانه های فاصله خود تطبیقی را برای مدیریت بلوک های تصویر آموزشی مختلف تنظیم می کند و سپس یک تابع ضرر هندسی را برای افزایش عدم تغییر هندسی توصیفگر معرفی می کند که با معادله زیر بیان می شود:
Egeometric=∑imax(0,β−si,i),β=⎧⎩⎨⎪⎪0.70.50.2
spatch≥0.50.2≤spatch<0.5otherwise
که β نشان دهنده آستانه تطبیقی است. si،i شباهت کسینوس بین ارتباط توصیفگرهای ویژگی را نشان می دهد. وs پچ شباهت بلوک های تصویر مرتبط را نشان می دهد. بر این اساس، ContextDesc [74] هندسه و درک زمینه بصری را در فرآیند ساخت مدل شبکه ادغام می کند، بنابراین استفاده از هندسه تصویر و اطلاعات زمینه بصری را بهبود می بخشد. در نهایت، بسیاری از آزمایشهای داده نشان میدهند که ContextDesc به خوبی با اعوجاجهای هندسی و رادیومتری صحنههای مختلف سازگار است.
به طور خلاصه، توصیف ویژگی نقشی حیاتی در تطبیق تصویر ایفا میکند، زیرا توصیفگر با کیفیت بالا میتواند اطلاعات محلی و کلی را از همسایگی ویژگی جذب کند، که ممکن است دانش کافی برای تشخیص ویژگی منحصر به فرد از نامزدهای نادرست فراهم کند. بر اساس موارد فوق، شبکه های سه گانه می توانند عملکرد بهتری نسبت به مدل سیامی یا انحصاری داشته باشند، زیرا شبکه های چند شاخه می توانند در یادگیری منحصر به فرد بودن ویژگی ها و استفاده کامل از اطلاعات زمینه کارآمد باشند.
یادگیری عمیق تطبیق پایان به پایان
استراتژی تطبیق انتها به انتها، سه مرحله مختلف استخراج، توصیف و تطبیق ویژگی تصویر را در یک سیستم برای آموزش ادغام میکند که برای یادگیری پارامترهای بهینه کلی مدل مفید است و عملکرد هر مرحله را به طور adaptively بهبود میبخشد [75]. شکل 6 توسعه تطبیق یادگیری عمیق پایان به پایان را خلاصه می کند. بیشتر روشهای پایان به پایان بر طراحی حالتهای آموزشی و کسب خودکار دادههای آموزشی تمرکز دارند [76]. طراحی حالت های آموزشی برای به دست آوردن ویژگی ها و توصیفگرهای با کیفیت بالا تصویر به روشی مختصر و کارآمدتر در نظر گرفته شده است. هدف از جمعآوری خودکار دادهها دستیابی به آموزش کاملاً خودکار با استفاده از الگوریتم کلاسیک تشخیص ویژگی و استراتژی نمونهگیری چند مقیاسی مکانی است.
یی و همکاران ساختار شبکه تبدیل ویژگی ثابت آموخته شده (LIFT) را پیشنهاد کرد [77]. این شبکه ابتدا تشخیص ویژگی، تخمین جهت و توصیف ویژگی را در یک خط لوله بر اساس ترانسفورماتور (ST) [78] و الگوریتم softtargmax [79] ادغام می کند. آموزش انتها به انتها با پس انتشار انجام می شود. روند کامل آموزش و تست این روش در شکل 7 نشان داده شده است.
روند آموزش مبتنی بر پس انتشار LIFT را می توان به طور خلاصه به شرح زیر توصیف کرد. ابتدا، مکان ویژگی و جهت اصلی را می توان با استفاده از الگوریتم ساختار از حرکت (SFM) [80] استخراج کرد و سپس توصیفگر ویژگی آموزش داده می شود. دوم، با هدایت توصیفگر ویژگی، برآوردگر جهت بر اساس مکان ویژگی وهمسایگی ST آموزش داده می شود.در نهایت، توصیفگر ویژگی و برآوردگر جهت با هم متحد می شوند تا آشکارساز ویژگی را بر اساس مجموعه داده آموزشی آموزش دهند. پس از آموزش LIFT، فرآیند تست ارتباطات به شرح زیر ادامه می یابد. ابتدا نقشه امتیاز ویژگی یک تصویر چند مقیاسی بر اساس آشکارساز ویژگی به دست می آید. دوم، سرکوب غیر حداکثرها فضای مقیاس با استفاده از تابع softtargmax انجام میشود و سپس ناحیه ویژگی ثابت مقیاس استخراج میشود. در نهایت، منطقه ویژگی بیشتر نرمال می شود و سپس بردارهای توصیف توسط توصیفگر ویژگی استخراج می شوند.
اگرچه LIFT به دسته مدلهای شبکه انتها به انتها تعلق دارد، یک حالت آموزشی چند مرحلهای مبتنی بر پس انتشار در آموزش شبکه اتخاذ شده است که کارایی آموزش و عملی بودن مدل را کاهش میدهد.علاوه بر این، LIFT از یک استراتژی SFM و تبدیل مکانی تصادفی برای ارائه بلوک های تصویری منطبق برای آموزش استفاده می کند، که تبعیض توصیفگرها را محدود می کند. با توجه به این موضوع، DeTone و همکاران. [81] یک مدل شبکه خود نظارت به نام MagicPoint را به جای SFM برای برچسب گذاری داده های آموزشی پیشنهاد کرد. سپس از مدل SuperPoint برای یادگیری نقاط ویژگی و استخراج توصیفگرهای آنها برای آموزش پایان به پایان استفاده می کنند.
SuperPoint آموزش مشترک تشخیص و توصیف ویژگی را از طریق ساختار رمزگذاری [82] و ساختار رمزگشایی [83] محقق می کند. ساختار رمزگذاری برای استخراج ویژگی تصویر استفاده می شود، در حالی که ساختار رمزگشایی نه تنها می تواند موقعیت نقطه ویژگی را خروجی دهد، بلکه بردار توصیفگر را نیز خروجی می دهد. به طور مشابه، Revaud و همکاران. [84] ساختار رمزگشایی سیامی R2D2 را پیشنهاد کردند که نسبت به SuperPoint بیشتر بر بیان تکراری و متمایز ویژگیهای آموزشی تمرکز دارد
.روش مبتنی بر یادگیری MagicPoint میتواند جایگزین برچسبگذاری دستساز نقاط ویژگی شود، اما مقدار کمی از دادههای برچسبگذاری دستساز هنوز هنگام بهدست آوردن مدل از پیش آموزشدیدهشده مورد نیاز است. اونو و همکاران [85] LF-Net را پیشنهاد کردند که یک مدل سرتاسری است که از آموزش بدون نظارت استفاده می کند. این روش مستقیماً از تصاویر استریوی بهدستآمده توسط دوربین متریک، نقشه عمق تصویر، موقعیت دوربین و جهت داده ها و سایر اطلاعات قبلی برای تکمیل آموزش مدل انتها به انتها استفاده میکند که نیاز به مداخله دستی را تا حد زیادی کاهش میدهد و فرآیند خودکار تطبیق با یادگیری عمیق را ترویج می دهد. علاوه بر این، Dusmanu و همکاران. ترکیبی از تشخیص ویژگی و استخراج توصیفگر را پیشنهاد کردند که می تواند استفاده موثرتری از اطلاعات معنایی سطح بالا داشته باشد. آنها سپس یک مدل D2Net ساده شده انتها به انتها را پیشنهاد کردند [86]. تفاوت بین این مدل و مدل سنتی در شکل 8 نشان داده شده است. شکل 8a مدل سنتی “تشخیص-سپس-توصیف” را نشان می دهد، که SuperPoint [81]، مدلی از این نوع است، و شکل 8b نشان می دهد. مدل “توصیف و تشخیص” D2Net.برخلاف ساختار شبکه سیامی یا چند شاخه ای [87]، D2Net از معماری شبکه تک شاخه ای استفاده می کند و مکان ویژگی و اطلاعات توصیفگر تصویر در کانال های ویژگی با ابعاد بالا ذخیره می کند، بنابراین برای به دست آوردن تطبیق های پایدار و کارآمد مساعدتر است. با این حال، D2Net باید توصیفگرهای متراکم را در فرآیند استفاده از اطلاعات معنایی سطح بالا استخراج کند، که باعث کاهش دقت و کارایی تشخیص ویژگی می شود.
در مجموع، استراتژی end-to-end مستعد آموزش پارامترهای بهینه برای تطبیق تصویر است. شبکه های چندگانه با معماری پیچیده نیاز به نمونه های ورودی آموزشی بیشتری نسبت به یک شبکه واحد دارند. با توجه به مقیاس موجود داده های آموزشی [76]، حالت یادگیری خود نظارت بهترین انتخاب برای کاربردهای عملی فعلی است.