یک روش تطبیق تصویر جدید پیشنهاد شده است که از ویژگیهای آموخته شده استخراج شده توسط یک شبکه عصبی عمیق برای به دست آوردن یک عملکرد امیدوارکننده استفاده میکند. روش پیشنهادی از معماری VGG از پیش آموزشدیده به عنوان استخراجکننده ویژگی استفاده میکند و برای بهبود تطابق نیازی به آموزش اضافی ندارد. با الهام از مفاهیم به خوبی تثبیت شده در حوزه روانشناسی، مانند پارادایم چرخش ذهنی، یک تاب اولیه در نتیجه یک تخمین تحول هندسی اولیه انجام می شود. این تخمینها صرفاً بر اساس تطابق متراکم نزدیکترین همسایگان در لایه پایانی خروجیهای شبکه VGG تصاویری است که باید مطابقت داده شوند. پس از این تراز اولیه، همان رویکرد دوباره بین تصاویر مرجع و تراز شده به صورت سلسله مراتبی تکرار می شود تا به محلی سازی خوب و عملکرد تطبیق برسد. الگوریتم ما امتیاز کلی 0.57 و 0.80 را از نظر میانگین دقت تطبیق (MMA) برای آستانه های 1 پیکسل و 2 پیکسل در مجموعه داده Hpatches [4] به دست می آورد، که نشان دهنده عملکرد بهتر نسبت به حالت گذشته است.
در این رابطه، در حالی که بسیاری از روش ها [67، 29، 54، 20، 39، 5] سعی در بهبود تشخیص ویژگی با معماری های عمیق دارند، برخی دیگر [71، 58، 3، 38، 64] توصیفگرهای ویژگی را با استفاده از بازنمایی های آموخته شده بازسازی می کنند. از سوی دیگر، تکنیک هایی نیز وجود دارد [21، 41، 56، 46، 22، 69] که هر دو مشکل را با هم حل می کنند و به طور مشترک برای حل آنها تلاش می کنند. برخی از تلاشها، مانند [70، 72]، شبکه را آموزش میدهند تا نحوه رد کردن نقاط پرت را در حضور تطابقهای احتمالی بیاموزد. SuperGlue [53] یاد می گیرد که مطابقت های مناسب را با استفاده از توصیفگرهای منطبق ایجاد کند که با بهره مندی از توصیفگرهای اصلی و مکان های کلیدی از طریق پرسپترون چند لایه به دست می آیند. رویکرد دیگر [7] از یادگیری تقویتی برای بهینه سازی تشخیص و توصیف ویژگی برای کارهای سطح بالا مانند تخمین پوز نسبی استفاده می کند. برخی از رویکردهای اخیر [12، 10، 11] سعی در یافتن جایگزین های قابل تمایز برای RANSAC به منظور تخمین بهتر تبدیل هندسی دارند. توجه داشته باشید که تمام تلاش های ذکر شده در برخی از قسمت های خط لوله کلاسیک بهبودهایی را ایجاد می کند.
عملکرد کلی سیستم معمولی توسط ضعیف ترین بلوک فرعی در این خط لوله سریال در طول تطبیق تصویر دیکته می شود. بنابراین، تلاش برای افزایش عملکرد هر مرحله، بسیار پایینتر از بهینه خواهد بود، زیرا خروجی هر بلوک ورودی به دیگری است و هر مرحله در سناریوی متفاوتی مستعد خطا است. از این رو، می توان مشاهده کرد که برخی از آثار اخیر در ادبیات، خط لوله کلاسیک را رها کرده اند و شروع به پیشنهاد ترکیب بسیاری از مراحل با هم در راه حل های خود برای غلبه بر این تنگنا کرده اند. به این ترتیب، روشهایی [19، 40، 48] وجود دارد که مشکل تطبیق تصویر را با یک معماری واحد با تخمین مستقیم تبدیل هندسی بین دو تصویر با رگرسیون حل میکند. اخیراً، برخی از تلاشها [50، 49، 73] با بهرهمندی از ویژگیهای عمیق با یک شبکه به جای شناسایی، توصیف و تطبیق جداگانه آنها، مطابقت بین دو تصویر را پیدا میکنند.
اگر این استخراجکنندههای از پیش آموزشدیده بهگونهای برای بهرهبرداری از قابلیتهای انتزاع معنایی و محلیسازی خوب آنها استفاده شود، ممکن است شانس دستیابی به عملکرد رضایتبخش برای کار تطبیق تصویر را نیز داشته باشند. اگر این استخراج کننده های از پیش آموزش دیده به گونه ای مورد استفاده قرار گیرند که هم از قابلیت انتزاع معنایی و هم از قابلیت های محلی سازی خوب آنها بهره برداری کند، ممکن است فرصتی برای دستیابی به عملکرد رضایت بخشی برای کار تطبیق تصویر نیز داشته باشند. نظریه تشخیص به وسیله مؤلفه ها [8] مدافع این است که روش ادراک ما از اشیاء، آنها را به بخش هایی جدا می کند، که از این پشتیبانی می کند که انسان ها ممکن است کار تطبیق تصویر را با استفاده از اشیا انجام دهند زیرا آنها اجزای اصلی تصاویر هستند. ما همچنین از چرخش ذهنی [57] الهام گرفتهایم که بیان میکند مغز انسان در حالی که به دنبال شباهتهای بین دو جسم است، برخی چرخشهای اولیه را انجام میدهد.