تطبیق با یادگیری عمیق در تصاویر استریو

مقاله خلاصه تطبیق تصاویر ماهواره ای با یادگیری عمیق
آوریل 15, 2023
شبکه RF- NET
آوریل 22, 2023

تطبیق با یادگیری عمیق در تصاویر استریو

تطبیق تصویر فرآیند استخراج خودکار ارتباط ویژگی ها از تصاویر استریویی که نسبت به هم تغییرات قابل توجه در دیدگاه عکسبرداری دارند, می باشد. تطبیق تصویر فناوری کلیدی برای بازسازی مدل‌های واقعی سه‌بعدی (3D) [1،2،3] بر اساس تصاویر دو بعدی (2D) است [4،5،6]. تصاویر استریو اطلاعات طیفی، بافت، شکل و محتوا واقعی را برای بازسازی دقیق سه بعدی ارائه می دهند. علاوه بر این، آنها مزایایی برای پیکربندی هندسی مکانی و دقت بازسازی سه بعدی دارند [7]. اما با وجود این خصوصیات، به دلیل تغییر قابل توجه در دیدگاه تصویر، که باعث ایجاد اعوجاجهای پیچیده و محتوای گمشده بین اشیاء از نظر مقیاس، آزیموت، روشنایی سطح و اطلاعات همسایگی می شود , تطبیق تصویر را بسیار چالش برانگیز می‌کند [8]. از این رو، بسیاری از محققان در زمینه‌های فتوگرامتری دیجیتال و بینایی کامپیوتر, مکانیسم درک(deep-rooted) را برای تصاویر بررسی کرده‌اند و به‌طور پی در پی الگوریتم‌های تطبیق تصویر کلاسیک را پیشنهاد کرده‌اند [10].

بر اساس مکانیسم تشخیص، روش‌های تطبیق تصویر را می‌توان به دو دسته تقسیم کرد: تطبیق دست ساز و تطبیق یادگیری عمیق.

چندین محقق با الهام از دانش حرفه ای و تجربه شهودی، روش های تطبیق دست ساز را پیشنهاد کرده اند که می توانند توسط مدل های محاسباتی بصری و پارامترهای تجربی پیاده سازی شوند [14،15،16،17،18]. به این دسته از روش‌ها, تطبیق سنتی نیز گفته می‌شود که نماینده کلاسیک آن الگوریتم تبدیل ویژگی مقیاس ثابت (SIFT) [14] است. تطبیق سنتی مشکلات زیادی دارد [15،16،17،18] مانند تکرار(باز انجام) در استخراج ویژگی تصویر یا قابلیت اطمینان توصیفگرهای ویژگی و معیارهای تطبیق.

با استفاده از (1) معماری شبکه عصبی کانولوشن چند سطحی (CNN)، (2) روش‌های مبتنی بر یادگیری به وسیله ی تکرار بهینه‌سازی با پس‌انتشار و (3) یادگیری پارامتر مدل از مقدار زیادی از داده‌های تطبیق حاشیه نویسی شده , مدل CNN آموزش‌دیده تطبیق تصویر توسعه می‌یابد [19]. یک مدل یادگیری عمیق در این دسته را می توان، MatchNet [20] انتخاب کرد. روش‌های زیرمجموعه این دسته رویکرد متفاوتی را برای حل مشکل تطبیق تصویر ارائه می‌دهند، اما در حال حاضر به خاطر تعداد و فضای نمونه‌های آموزشی محدود شده‌اند، و یادگیری پارامترهای بهینه مدل که برای کاربردهای عملی مناسب هستند دشوار است[ 21،22،23،24،25].

تطبیق تصویر مبتنی بر یادگیری اساساً روشی است که با دانش قبلی هدایت می شود. برخلاف روش‌های سنتی دست ساز، می‌تواند از نیاز به بسیاری از مداخلات دستی برای تشخیص ویژگی [26]، توصیف ویژگی [27]، طراحی مدل [28] و تخصیص پارامتر شبکه [29] جلوگیری کند. علاوه بر این، می تواند نمایش عمیق و همبستگی ویژگی های را مستقیماً از داده های نمونه در مقیاس بزرگ بیاموزد. با توجه به طرح مورد استفاده برای آموزش مدل، روش های تطبیق را می توان به دو نوع [30] تقسیم کرد:

(1) آموزش چند مرحله ای (مرحله به مرحله) [31] و (2) آموزش پایان به پایان [32].

در حالت اول، مراحل مختلف مانند تشخیص ویژگی، تخمین جهت همسایگی، و ساخت توصیفگر می‌تواند آزادانه با روش‌های دست ساز ادغام شود [33]. در حالی که دومی مراحل چندگانه استخراج، توصیف و تطبیق ویژگی را به عنوان یک کل در نظر می گیرد و با آموزش مشترک آنها، به بهینه کلی دست می یابد [34].

در سال‌های اخیر، با رشد مجموعه داده‌های آموزشی و معرفی یادگیری انتقالی [35]، تطبیق تصویر مبتنی بر یادگیری عمیق توانسته است اکثر وظایف تطبیق تصویر را انجام دهد [36] و عملکرد آن می‌تواند در برخی موارد، از الگوریتم های سنتی دست ساز پیشی می گیرند. با این حال، روش‌های موجود هنوز از نظر ساختار شبکه [37]، تابع ضرر [38]، معیار تطبیق [39] و توانایی تعمیم[40] به‌ویژه برای چالش های تطبیق تصویر مانند تغییر زیاد دیدگاه [41]، ناپیوستگی های سطح [42]، انسداد [43]، سایه ها [44] و الگوهای تکراری [45،46،47] نیاز به مطالعه بیشتر دارند.

بر اساس بررسی فرآیند تطبیق تصویر، ما به طور تدریجی خصوصیات روش های پیشنهادی را در تحقیقات موجود، از جمله ماهیت روش ها و همچنین مزایا و معایب آنها، سازماندهی، تجزیه و تحلیل و خلاصه می کنیم. سپس، مدل‌های یادگیری عمیق کلاسیک بر روی مجموعه داده‌های عمومی متعدد و تصاویر استریو با خط پایه گسترده آموزش داده و آزمایش می‌شوند. علاوه بر این، ما روش‌های گذشته را مقایسه و ارزیابی می‌کنیم و چالش‌های حل‌نشده آن‌ها را مشخص می‌کنیم. در نهایت، روندهای احتمالی آینده در تکنیک های کلیدی مورد بحث قرار می گیرد. ما امیدواریم که تحقیق در مورد تطبیق تصویر با خط مبنا گسترده توسط این مقاله بررسی شود.

موضوعات اصلی این مقاله به شرح زیر خلاصه می شود:

ابتدا، ما یک بررسی کامل برای روش‌های تطبیق مبتنی بر یادگیری، از تشخیص ویژگی گرفته تا تطبیق انتها به انتها، انجام می‌دهیم، که شامل ماهیت‌ها، محاسن و نقص‌های هر روش برای تصاویر با خط پایه گسترده است. دوم، ما روش‌های ترکیبی مختلفی را برای ارزیابی منصفانه و یکنواخت ماژول‌ها با استفاده از آزمون‌های کمی و کیفی متعدد ایجاد می‌کنیم. سوم، ما علت اصلی تلاش برای تولید تطابق با کیفیت بالا در بین تصاویر استریو با خط پایه گسترده را آشکار می‌کنیم و راه‌حل‌های عملی برای کار آینده ارائه می‌کنیم.

در بخش 2، این مقاله محبوب‌ترین روش‌های تطبیق مبتنی بر یادگیری، از جمله تشخیص ویژگی، توصیف ویژگی، و استراتژی‌های انتها به انتها را مرور می‌کند. نتایج و بحث در بخش 3 ارائه شده است. خلاصه و چشم انداز در بخش 4 ارائه شده است. در نهایت، بخش 5 نتایج این مقاله را ترسیم می کند.

روش‌های یادگیری عمیق تطبیق تصویر


در حال حاضر، تحقیق در مورد روش‌های یادگیری عمیق برای تطبیق تصویر با خط پایه گسترده، عمدتاً بر سه موضوع متمرکز است: تشخیص ویژگی، توصیف ویژگی، و تطبیق انتها به انتها (شکل 1 را ببینید). بنابراین، این بخش به بررسی و خلاصه‌ای از کارهای مرتبط در این موضوعات تحقیقاتی در زیر می‌پردازد.

شکل 1 :

تشخیص ( آشکارسازی) ویژگی مبتنی بر یادگیری عمیق


شکل 2 پیشرفت در روش‌های تشخیص ویژگی یادگیری عمیق را به طور خلاصه نشان می دهد. بر اساس حالت یادگیری پیاده‌سازی شده الگوریتم‌های تشخیص ویژگی یادگیری عمیق را می‌توان به دو نوع تقسیم کرد:

یادگیری نظارت شده [48] و یادگیری بدون نظارت [49].

تشخیص ویژگی با روش یادگیری نظارت شده، نقاط مشخصه استخراج شده با روش های سنتی را, به عنوان “نقاط لنگر” در نظر می گیرد و سپس یک شبکه عصبی رگرسیون را برای پیش بینی مکان نقاط ویژگی بیشتر, آموزش می دهد. در حالی که استراتژی یادگیری بدون نظارت مستقیماً از یک شبکه عصبی برای آموزش نقاط کاندید و مقادیر پاسخ آنها استفاده می کند و سپس نقاط کاندید را در بالا یا پایین رتبه بندی (اکسترمم ها) به عنوان امتیاز نهایی در نظرمی گیرد.

شکل 2 :  Development of feature detection with deep learning

اساس تطبیق تصویر، استخراج ویژگی‌های محلی ثابت است یعنی : ویژگی‌های محلی که در تصاویر استریو تحت اعوجاج‌های هندسی یا رادیومتری، مانند تغییر دیدگاه یا تغییر روشنایی، ثابت باقی می‌مانند. در سال‌های اخیر، محققان بر روی کاوش طرح‌های تشخیص ویژگی با یادگیری عمیق توسط تقویت شبکه تمرکز کرده‌اند [50].

استفاده از استراتژی یادگیری نظارت شده : به عنوان مثال، Lenc و همکاران. برای اولین بار یک تابع ضرر ویژگی ثابت محلی Lcov(x) پیشنهاد کردند.

جایی که ∥⋅∥F2 نرم F است، x بلوک تصویری است که باید پردازش شود، g تبدیل تصادفی هندسی است، gx نتیجه تبدیل تصادفی x است، ϕ(⋅)خروجی ماتریس تبدیل توسط شبکه عصبی است و q تبدیل باقیمانده مکمل g است.

بر این اساس، این الگوریتم از شبکه عصبی سیامی DetNet برای یادگیری ویژگی ثابت تحت تبدیل‌های هندسی استفاده می‌کند. علاوه بر این، از نقاط کنترل تصویر به عنوان نقاط لنگر استفاده می کند و نقاط ویژگی بالقوه را به عنوان اشکال تبدیل خاصی از این نقاط لنگر در نظر می گیرد. در مرحله آموزش، تصاویر با نقاط لنگر وارد شبکه عصبی رگرسیون می شوند و تبدیل بهینه به صورت تکراری آموخته می شود. سپس، وزن‌های شبکه عصبی رگرسیون با توجه به تابع ضرر تنظیم می‌شوند و در نهایت برای به دست آوردن موقعیت‌ها، جهت‌ها و شکل‌های ویژگی بیشتر درون‌یابی می‌شوند. این روش سابقه ای (نمونه ای ) برای تشخیص ویژگی های ثابت یادگیری عمیق ایجاد کرد و ویژگی های شناسایی شده به تغییر ناپذیری مقیاس و چرخش مجهز شدند.

ژانگ و همکاران [52] از ویژگی روشنایی تغییر ناپذیر TILDE [30] یادگیری عمیق به عنوان نقطه لنگر استفاده کرد که مشکل تطبیق تصویر تحت تغییرات روشنایی شدید را حل کرد. بر این اساس، Doiphode و همکاران. [53] از یک شبکه سه گانه [54] استفاده کردند و یک محدودیت عدم تغییر افاین را برای یادگیری ویژگی های ثابت پیوسته و قابل اعتماد اعمال کردند. روش‌های بالا به ویژگی‌های هدف یک تغییر ناپذیری هندسی و رادیومتری خاص می‌دهند، اما رابطه هندسی بین بلوک‌های تصویر باید تقریباً قبل از آموزش مدل شناخته شود. این به طور نامرئی بار کاری تولید مجموعه داده آموزشی را افزایش می دهد.

یی و همکاران [55] ویژگی های بیشتر Edge Foci (EF) [56] و SIFT [14] را برای تشخیص مکان نقاط کلیدی مورد مطالعه قرار دادند و جهت همسایگی ویژگی ها را بر اساس CNN آموخت. میشکین و همکاران [57] از یک Hessian چند مقیاسی برای شناسایی نقاط ویژگی اولیه و تخمین ناحیه ثابت نسبت به افاین بر اساس شبکه سه گانه AffNet استفاده کرد. این روش الگوریتم‌های استخراج ویژگی سنتی را با ویژگی‌های تغییرناپذیر یادگیری عمیق ترکیب می‌کند که به طور قابل‌توجهی کارایی و قابلیت اطمینان تشخیص ویژگی را بهبود می‌بخشد.

علاوه بر ویژگی های ذکر شده در بالا برای یادگیری نظارت شده، ساوینوف و همکاران [58] یک استراتژی کلاسیک یادگیری ویژگی با ایده بدون نظارت پیشنهاد کرد. این روش مسئله یادگیری تشخیص ویژگی را به یک مسئله یادگیری مرتب‌سازی پاسخ-مقدار نقاط علاقه تصویر تبدیل می‌کند. تابع پاسخ نقطه تصویر با H(p|w) نشان داده می شود.
، جایی که p نشان دهنده نقطه تصویر و H و w به ترتیب نشان دهنده CNN مورد آموزش و بردار وزن شبکه هستند. سپس مدل مرتب‌سازی پاسخ-مقدار نقطه تصویر به صورت زیر بیان می‌شود:

در اینجا d یک هدف صحنه را در تصویر نشان می دهد و p روی d قرار دارد. i و j شاخص های p و i≠j هستند. t(d)jp و t(d)ip به ترتیب با تبدیل t و djp dip تولید می شوند. بنابراین، تمام نقاط p در هدف d بر اساس تابع ارزش پاسخ و معادله بالا مرتب می شوند و نقاط تصویر با مقادیر پاسخ در رده های بالا یا پایین به عنوان نقاط ویژگی حفظ می شوند.

هدف اصلی این روش یادگیری تابع پاسخ ثابت نقطه تصویر با استفاده از شبکه عصبی است. نقاط مشخصه تغییر ناپذیری خوبی در تغییر پرسپکتیو تصاویر دارند. آزمایش‌های اضافی در مرجع [58] نشان می‌دهد که روش پیشنهادی ممکن است از استراتژی تفاضل گاوسی (DoG) [14] در مورد تکرارپذیری ویژگی برای تصاویر با تغییردیدگاه مشاهده عملکرد بهتری داشته باشد. با این حال، روش‌های موجود هنوز هم کاستی‌های زیادی با توجه به تکرارپذیری تشخیص نقطه ویژگی و پایداری برای تصاویر با خط پایه گسترده با تغییرات زیاد دیدگاه دارند.

همانطور که در بالا ذکر شد، روش‌های مبتنی بر یادگیری برای تشخیص ویژگی به عنوان دستاوردهای یادگیری تحت نظارت طبقه‌بندی می‌شوند. چنین روش‌های جریان اصلی می‌توانند به‌راحتی از استراتژی‌های بدون نظارت در یادگیری ویژگی‌های ثابت پیشی بگیرند، زیرا روش‌های نظارت شده ممکن است به‌طور مستقیم و جداگانه فریم‌های کواریانت هندسی را برای تصاویر با خط پایه گسترده تولید کنند، در حالی که روش‌های بدون نظارت باید همزمان با مکان‌های نقاط مورد علاقه و تغییرناپذیری آنها در فرآیند یادگیری کنار بیایند.

توصیف ویژگی های یادگیری عمیق


توصیف ویژگی یادگیری عمیق [59] به طور گسترده در کارهای حرفه ای [60] مانند بازیابی تصویر، بازسازی سه بعدی، تشخیص چهره، تشخیص نقطه کلیدی، و موقعیت یابی و ردیابی هدف استفاده شده است. تحقیقات خاص در مورد این موضوع، همانطور که در شکل 3 نشان داده شده است، عمدتاً بر ساختار شبکه و طراحی تابع ضرر متمرکز است. در میان آنها، ساختار شبکه یادگیری عمیق به طور مستقیم تمایز و قابلیت اطمینان توصیفگرهای ویژگی را تعیین می کند، در حالی که تابع ضرر با کنترل فرکانس تکرار به روز رسانی پارامترهای مدل و بهینه سازی کمیت و کیفیت نمونه ورودی , بر عملکرد آموزشی مدل تأثیر می گذارد.

کلید توصیف ویژگی با کیفیت بالا، در نظر گرفتن شباهت و تبعیض است.

“شباهت” به توانایی ارتباط توصیفگرهای ویژگی برای حفظ تغییر ناپذیری خوب نسبت به نویز سیگنال، اعوجاج هندسی، و اعوجاج تشعشعی اشاره دارد، در نتیجه درجه بالایی از شباهت را حفظ می کند.

در مقابل، “تبعیض” به این ایده اشاره دارد که باید تفاوت زیادی بین هر توصیفگر غیر منطبق وجود داشته باشد.

برای تولید توصیفگرهای با کیفیت بالا، روش مبتنی بر یادگیری از الگوریتم‌های سنتی خارج می‌شوند و شبکه سیامی یا شبکه سه‌گانه را می‌سازند که ساختار شناختی اعصاب بینایی انسان را شبیه‌سازی می‌کند.

شبکه سیامی که به عنوان شبکه دو کاناله نیز شناخته می شود، یک معماری جفت شده مبتنی بر یک شبکه دو شاخه است، در حالی که شبکه سه گانه یک شاخه بیشتر از شبکه سیامی دارد و بنابراین می توان آن را با سناریویی تطبیق داد که در آن سه نمونه به طور همزمان وارد می شوند.

شکل 4 تکامل چندین شبکه توصیف ویژگی معمولی را نشان می دهد. در میان آنها، یک رویکرد معرف MatchNet [20] است که از شبکه اصلی سیامی استفاده می کند و از دو بخش اصلی تشکیل شده است: یک شبکه کدگذاری ویژگی و یک شبکه سنجش شباهت. دو شاخه از شبکه ویژگی اشتراک پویا وزن را حفظ می‌کنند و ویژگی های پچ های تصاویر استریو را از طریق یک لایه کانولوشن [58]، یک لایه تجمع حداکثر [61] و لایه‌های دیگر استخراج می‌کنند. علاوه بر این، شباهت بین بلوک های تصویر را از طریق یک سری متصل به بالا شبکه کاملاً متصل محاسبه می کند [62]، و سپس بلوک های تطبیق را بر اساس امتیاز شباهت تعیین می کند.. متعاقباً، Zagoruyko و همکاران. [63] بیشتر نقش شبکه دو جریانی مرکزی فراگیر (CSTSNet) [64] و شبکه تجمیع هرمی مکانی (SPPNet) [65] را در توصیف ویژگی بررسی کردند. CSTSNet یک جریان فراگیر با وضوح پایین را با یک جریان مرکزی با وضوح بالا ترکیب می‌کند که نه تنها از اطلاعات چند وضوح تصویر استفاده می‌کند، بلکه بر اطلاعات پیکسل‌های مرکزی نیز تأکید می‌کند، بنابراین عملکرد تطبیق را به طور قابل‌توجهی بهبود می‌بخشد. در مقابل، SPPNet ویژگی های خوب شبکه سیامی را به ارث می برد، سپس با معرفی یک لایه ادغام هرمی مکانی، سازگاری با داده های بلوک تصویر در اندازه های مختلف را افزایش می دهد. برای اعمال SPPNetto توصیف ویژگی ها در تصاویر ماهواره ای، Fan et al. [66] یک شبکه توصیف دو کاناله بر اساس یک لایه کانولوشن مقیاس-مکان برای بهبود دقت تطبیق تصاویر ماهواره ای طراحی کرد.

این شبکه‌های اندازه‌گیری توصیفگر متعلق به دسته شبکه‌های کاملاً متصل هستند که در طول آموزش و آزمایش، مقدار زیادی از منابع محاسباتی را مصرف می‌کنند و از این رو بازده تطبیقی پایینی دارند. برای پرداختن به این موضوع، تیان و همکاران. یک مدل توصیف ویژگی به نام L2-Net [67] با یک نمایش شبکه کامل کانولوشن پیشنهاد کردند.این روش ایده توصیفگرهای SIFT را به ارث می برد، یعنی بعد خروجی شبکه را به 128 تنظیم می کند و از معیار L2 فاصله اقلیدسی به جای شبکه متریک برای ارزیابی شباهت توصیفگرهای ویژگی استفاده می کند. ساختار اصلی شبکه L2-Net در شکل 5 نشان داده شده است. این شبکه از هفت لایه کانولوشن و یک لایه نرمال سازی پاسخ محلی (LRN) تشکیل شده است. در شکل، عبارت “3 × 3 Conv” در لایه کانولوشن به عملیات کانولوشن، نرمال سازی دسته ای و فعال سازی خطی در این سری اشاره دارد و “8 × 8 Conv” نشان دهنده عملیات پردازش کانولوشن و نرمال سازی دسته ای است. علاوه بر این، “32” یک پیچیدگی 32 بعدی با اندازه گام 1 را نشان می دهد و “64/2” به یک عملیات کانولوشنی 64 بعدی با اندازه گام 2 اشاره دارد. لایه خروجی نهایی LRN برای تولید بردارهای توصیفگر واحد ضمن تسریع همگرایی شبکه و افزایش تعمیم مدل استفاده می شود.

نتایج بر روی مجموعه داده منبع باز Brown [68]، Oxford [10] و HPatches [69] آموزش و آزمایش مجموعه داده ها نشان می دهد که L2-Net توانایی تعمیم خوبی دارد و عملکرد آن بهتر از توصیفگرهای سنتی موجود است. علاوه بر این، L2-Net با توجه به طبقه‌بندی ویژگی‌های تصویر و همچنین توصیف و تطبیق ویژگی تصویر استریو ، به خوبی عمل می‌کند، و بنابراین بسیاری از محققان آن را به عنوان یک شبکه توصیف ویژگی کلاسیک در نظر می‌گیرند و آن را با بهبود در ساختار شبکه گسترش داده‌اند. بالنتاس و همکاران [34] دریافتند که یکی از معایب L2-Net این است که سهم نمونه های منفی در مقدار تابع ضرر را نادیده می گیرد. از این رو، آنها سه گانه و CNN کم عمق (TSCNN) را پیشنهاد کردند. این روش لایه شبکه L2-Net و تعداد کانال ها را ساده می کند، سپس نمونه های منفی را در آموزش شبکه می گنجاند و از این رو، مدل اصلاح شده می تواند فاصله بین توصیفگرهای منطبق را کاهش دهد در حالی که فاصله بین توصیفگرهای ویژگی غیر منطبق را افزایش می دهد. با این حال، نمونه‌های منفی با استفاده از استراتژی نمونه‌گیری تصادفی به TSCNN وارد می‌شوند و در نتیجه، بیشتر نمونه‌های منفی به اندازه کافی به آموزش مدل کمک نمی‌کنند، که این باعث می شود پیشرفت‌ها در تبعیض توصیفگر را محدود شود.با توجه به این موضوع، هاردنت [70] دشوارترین نمونه منفی، یعنی نزدیکترین توصیفگر غیر منطبق را در آموزش مدل گنجانده است، که به طور قابل ملاحظه ای کارایی آموزش و عملکرد تطبیق را افزایش می دهد. تابع ضرر حاشیه سه گانه (TML) مورد استفاده در این مدل به شرح زیر است:

L=1m∑i=1mmax(0.1+d(ai,pi)−min(d(ai,njmin),d(nkmin,pi)))

m اندازه دسته است، d() فاصله اقلیدسی بین دو توصیفگر است، ai و pi یک جفت توصیفگر تطبیق دلخواه هستند و njmin و nkmin به ترتیب نشان دهنده نزدیکترین توصیفگرهای غیر منطبق به ai و pi هستند. بر اساس ساختار شبکه L2-Net، مدل توصیفگر HardNet از استراتژی نمونه گیری منفی نزدیکترین همسایه و تابع ضرر TML استفاده می کند که یکی دیگر از پیشرفت های مهم در مدل شبکه توصیفگر است. با الهام از HardNet، برخی از مدل‌های یادگیری عمیق قابل توجه برای توصیف ویژگی‌ها بیشتر مورد بررسی قرار گرفته‌اند. به عنوان مثال، LogPolarDesc [71] از یک شبکه تبدیل قطبی برای استخراج ارتباط بلوک های تصویر با شباهت بالاتر برای بهبود کیفیت و کارایی مدل آموزشی استفاده می کند. SOSNet [72] برای جلوگیری از بیش برازش مدل و بهبود قابل ملاحظه استفاده از توصیفگرها، منظم‌سازی شباهت مرتبه دوم را در تابع ضرر معرفی می‌کند. برای تولید یک توصیفگر با تغییر ناپذیری هندسی کلی و محلی، برخی از محققان استفاده کامل از هندسه یا اطلاعات بافت بصری یک تصویر را پیشنهاد کرده‌اند. رویکرد GeoDesc [73] از شباهت کسینوس برای اندازه گیری درجه تطابق توصیفگرها استفاده می کند. همچنین آستانه های فاصله خود تطبیقی را برای مدیریت بلوک های تصویر آموزشی مختلف تنظیم می کند و سپس یک تابع ضرر هندسی را برای افزایش عدم تغییر هندسی توصیفگر معرفی می کند که با معادله زیر بیان می شود:

Egeometric=∑imax(0,β−si,i),β=⎧⎩⎨⎪⎪0.70.50.2

spatch≥0.50.2≤spatch<0.5otherwise

که β نشان دهنده آستانه تطبیقی است. si،i شباهت کسینوس بین ارتباط توصیفگرهای ویژگی را نشان می دهد. وs پچ شباهت بلوک های تصویر مرتبط را نشان می دهد. بر این اساس، ContextDesc [74] هندسه و درک زمینه بصری را در فرآیند ساخت مدل شبکه ادغام می کند، بنابراین استفاده از هندسه تصویر و اطلاعات زمینه بصری را بهبود می بخشد. در نهایت، بسیاری از آزمایش‌های داده نشان می‌دهند که ContextDesc به خوبی با اعوجاج‌های هندسی و رادیومتری صحنه‌های مختلف سازگار است.

به طور خلاصه، توصیف ویژگی نقشی حیاتی در تطبیق تصویر ایفا می‌کند، زیرا توصیفگر با کیفیت بالا می‌تواند اطلاعات محلی و کلی را از همسایگی ویژگی جذب کند، که ممکن است دانش کافی برای تشخیص ویژگی منحصر به فرد از نامزدهای نادرست فراهم کند. بر اساس موارد فوق، شبکه های سه گانه می توانند عملکرد بهتری نسبت به مدل سیامی یا انحصاری داشته باشند، زیرا شبکه های چند شاخه می توانند در یادگیری منحصر به فرد بودن ویژگی ها و استفاده کامل از اطلاعات زمینه کارآمد باشند.

یادگیری عمیق تطبیق پایان به پایان


استراتژی تطبیق انتها به انتها، سه مرحله مختلف استخراج، توصیف و تطبیق ویژگی تصویر را در یک سیستم برای آموزش ادغام می‌کند که برای یادگیری پارامترهای بهینه کلی مدل مفید است و عملکرد هر مرحله را به طور adaptively بهبود می‌بخشد [75]. شکل 6 توسعه تطبیق یادگیری عمیق پایان به پایان را خلاصه می کند. بیشتر روش‌های پایان به پایان بر طراحی حالت‌های آموزشی و کسب خودکار داده‌های آموزشی تمرکز دارند [76]. طراحی حالت های آموزشی برای به دست آوردن ویژگی ها و توصیفگرهای با کیفیت بالا تصویر به روشی مختصر و کارآمدتر در نظر گرفته شده است. هدف از جمع‌آوری خودکار داده‌ها دستیابی به آموزش کاملاً خودکار با استفاده از الگوریتم کلاسیک تشخیص ویژگی و استراتژی نمونه‌گیری چند مقیاسی مکانی است.

یی و همکاران ساختار شبکه تبدیل ویژگی ثابت آموخته شده (LIFT) را پیشنهاد کرد [77]. این شبکه ابتدا تشخیص ویژگی، تخمین جهت و توصیف ویژگی را در یک خط لوله بر اساس ترانسفورماتور (ST) [78] و الگوریتم softtargmax [79] ادغام می کند. آموزش انتها به انتها با پس انتشار انجام می شود. روند کامل آموزش و تست این روش در شکل 7 نشان داده شده است.

روند آموزش مبتنی بر پس انتشار LIFT را می توان به طور خلاصه به شرح زیر توصیف کرد. ابتدا، مکان ویژگی و جهت اصلی را می توان با استفاده از الگوریتم ساختار از حرکت (SFM) [80] استخراج کرد و سپس توصیفگر ویژگی آموزش داده می شود. دوم، با هدایت توصیفگر ویژگی، برآوردگر جهت بر اساس مکان ویژگی وهمسایگی ST آموزش داده می شود.در نهایت، توصیفگر ویژگی و برآوردگر جهت با هم متحد می شوند تا آشکارساز ویژگی را بر اساس مجموعه داده آموزشی آموزش دهند. پس از آموزش LIFT، فرآیند تست ارتباطات به شرح زیر ادامه می یابد. ابتدا نقشه امتیاز ویژگی یک تصویر چند مقیاسی بر اساس آشکارساز ویژگی به دست می آید. دوم، سرکوب غیر حداکثرها فضای مقیاس با استفاده از تابع softtargmax انجام می‌شود و سپس ناحیه ویژگی ثابت مقیاس استخراج می‌شود. در نهایت، منطقه ویژگی بیشتر نرمال می شود و سپس بردارهای توصیف توسط توصیفگر ویژگی استخراج می شوند.

اگرچه LIFT به دسته مدل‌های شبکه انتها به انتها تعلق دارد، یک حالت آموزشی چند مرحله‌ای مبتنی بر پس انتشار در آموزش شبکه اتخاذ شده است که کارایی آموزش و عملی بودن مدل را کاهش می‌دهد.علاوه بر این، LIFT از یک استراتژی SFM و تبدیل مکانی تصادفی برای ارائه بلوک های تصویری منطبق برای آموزش استفاده می کند، که تبعیض توصیفگرها را محدود می کند. با توجه به این موضوع، DeTone و همکاران. [81] یک مدل شبکه خود نظارت به نام MagicPoint را به جای SFM برای برچسب گذاری داده های آموزشی پیشنهاد کرد. سپس از مدل SuperPoint برای یادگیری نقاط ویژگی و استخراج توصیفگرهای آنها برای آموزش پایان به پایان استفاده می کنند.

SuperPoint آموزش مشترک تشخیص و توصیف ویژگی را از طریق ساختار رمزگذاری [82] و ساختار رمزگشایی [83] محقق می کند. ساختار رمزگذاری برای استخراج ویژگی تصویر استفاده می شود، در حالی که ساختار رمزگشایی نه تنها می تواند موقعیت نقطه ویژگی را خروجی دهد، بلکه بردار توصیفگر را نیز خروجی می دهد. به طور مشابه، Revaud و همکاران. [84] ساختار رمزگشایی سیامی R2D2 را پیشنهاد کردند که نسبت به SuperPoint بیشتر بر بیان تکراری و متمایز ویژگی‌های آموزشی تمرکز دارد

.روش مبتنی بر یادگیری MagicPoint می‌تواند جایگزین برچسب‌گذاری دست‌ساز نقاط ویژگی شود، اما مقدار کمی از داده‌های برچسب‌گذاری دست‌ساز هنوز هنگام به‌دست آوردن مدل از پیش آموزش‌دیده‌شده مورد نیاز است. اونو و همکاران [85] LF-Net را پیشنهاد کردند که یک مدل سرتاسری است که از آموزش بدون نظارت استفاده می کند. این روش مستقیماً از تصاویر استریوی به‌دست‌آمده توسط دوربین متریک، نقشه عمق تصویر، موقعیت دوربین و جهت‌ داده ها و سایر اطلاعات قبلی برای تکمیل آموزش مدل انتها به انتها استفاده می‌کند که نیاز به مداخله دستی را تا حد زیادی کاهش می‌دهد و فرآیند خودکار تطبیق با یادگیری عمیق را ترویج می دهد. علاوه بر این، Dusmanu و همکاران. ترکیبی از تشخیص ویژگی و استخراج توصیفگر را پیشنهاد کردند که می تواند استفاده موثرتری از اطلاعات معنایی سطح بالا داشته باشد. آنها سپس یک مدل D2Net ساده شده انتها به انتها را پیشنهاد کردند [86]. تفاوت بین این مدل و مدل سنتی در شکل 8 نشان داده شده است. شکل 8a مدل سنتی “تشخیص-سپس-توصیف” را نشان می دهد، که SuperPoint [81]، مدلی از این نوع است، و شکل 8b نشان می دهد. مدل “توصیف و تشخیص” D2Net.برخلاف ساختار شبکه سیامی یا چند شاخه ای [87]، D2Net از معماری شبکه تک شاخه ای استفاده می کند و مکان ویژگی و اطلاعات توصیفگر تصویر در کانال های ویژگی با ابعاد بالا ذخیره می کند، بنابراین برای به دست آوردن تطبیق های پایدار و کارآمد مساعدتر است. با این حال، D2Net باید توصیفگرهای متراکم را در فرآیند استفاده از اطلاعات معنایی سطح بالا استخراج کند، که باعث کاهش دقت و کارایی تشخیص ویژگی می شود.

در مجموع، استراتژی end-to-end مستعد آموزش پارامترهای بهینه برای تطبیق تصویر است. شبکه های چندگانه با معماری پیچیده نیاز به نمونه های ورودی آموزشی بیشتری نسبت به یک شبکه واحد دارند. با توجه به مقیاس موجود داده های آموزشی [76]، حالت یادگیری خود نظارت بهترین انتخاب برای کاربردهای عملی فعلی است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *