شبکه عمیق dfm

یادگیری عمیق در گوگل کولب
اکتبر 7, 2022
مثال از Maximum Likelihood
نوامبر 21, 2022

شبکه عمیق dfm

یک روش تطبیق تصویر جدید پیشنهاد شده است که از ویژگی‌های آموخته شده استخراج شده توسط یک شبکه عصبی عمیق برای به دست آوردن یک عملکرد امیدوارکننده استفاده می‌کند. روش پیشنهادی از معماری VGG از پیش آموزش‌دیده به عنوان استخراج‌کننده ویژگی استفاده می‌کند و برای بهبود تطابق نیازی به آموزش اضافی ندارد. با الهام از مفاهیم به خوبی تثبیت شده در حوزه روانشناسی، مانند پارادایم چرخش ذهنی، یک تاب اولیه در نتیجه یک تخمین تحول هندسی اولیه انجام می شود. این تخمین‌ها صرفاً بر اساس تطابق متراکم نزدیک‌ترین همسایگان در لایه پایانی خروجی‌های شبکه VGG تصاویری است که باید مطابقت داده شوند. پس از این تراز اولیه، همان رویکرد دوباره بین تصاویر مرجع و تراز شده به صورت سلسله مراتبی تکرار می شود تا به محلی سازی خوب و عملکرد تطبیق برسد. الگوریتم ما امتیاز کلی 0.57 و 0.80 را از نظر میانگین دقت تطبیق (MMA) برای آستانه های 1 پیکسل و 2 پیکسل در مجموعه داده Hpatches [4] به دست می آورد، که نشان دهنده عملکرد بهتر نسبت به حالت گذشته است.

  1. مقدمه
    تعیین تطابق نقطه بین تصاویر یکی از موضوعات حیاتی و مورد مطالعه در بینایی کامپیوتر است. این تطابقات برای چندین کاربرد حیاتی هستند، مانند مکان‌یابی و نقشه‌برداری همزمان (SLAM)، ساختار از حرکت (SfM)، تخمین موقعیت، بازیابی تصویر و تطبیق تصویر. خط لوله تطبیق تصویر کلاسیک شامل مراحل تشخیص ویژگی، توصیف ویژگی، تطبیق ویژگی، و تخمین تبدیل هندسی است. بسیاری از الگوریتم های محبوب قبل از دوره یادگیری عمیق بر روی یک یا چند مرحله در این خط لوله متمرکز شده اند. در حالی که بسیاری از تکنیک ها [24، 61، 51، 35] بر روی تشخیص ویژگی متمرکز هستند، برخی از رویکردهای دیگر [18، 37، 13] مرحله توصیف ویژگی را به صورت محلی مدیریت می کنند. محبوب ترین الگوریتم ها [33، 6، 52، 30، 1، 2] هم روی تشخیص ویژگی و هم بر روی توصیف ویژگی کار می کنند. تطبیق ویژگی معمولاً با به حداقل رساندن/حداکثر کردن برخی از معیارهای به خوبی تعریف شده، مانند مجموع مجذورتفاوت (SSD) یا همبستگی، که در مرحله بعدی با روش های رد پرت همراه است، مانند آزمون نسبت SIFT [33] یا برخی از الگوریتم های رد پرت، به دست می آید. مانند LPM [34]. در مرحله تخمین تبدیل هندسی، هندسه یا هموگرافی اپی قطبی معمولاً توسط الگوریتم‌های مبتنی بر DLT [25] یا RANSAC [23] [14، 65، 15، 16] تخمین زده می‌شود. در سال‌های اخیر، تطبیق تصویر با یادگیری عمیق مواجه شد، و تعدادی تلاش ارزشمند انجام شده است. با این حال، بیشتر این مطالعات هنوز بر خط لوله کلاسیک تکیه دارند.

در این رابطه، در حالی که بسیاری از روش ها [67، 29، 54، 20، 39، 5] سعی در بهبود تشخیص ویژگی با معماری های عمیق دارند، برخی دیگر [71، 58، 3، 38، 64] توصیفگرهای ویژگی را با استفاده از بازنمایی های آموخته شده بازسازی می کنند. از سوی دیگر، تکنیک هایی نیز وجود دارد [21، 41، 56، 46، 22، 69] که هر دو مشکل را با هم حل می کنند و به طور مشترک برای حل آنها تلاش می کنند. برخی از تلاش‌ها، مانند [70، 72]، شبکه را آموزش می‌دهند تا نحوه رد کردن نقاط پرت را در حضور تطابق‌های احتمالی بیاموزد. SuperGlue [53] یاد می گیرد که مطابقت های مناسب را با استفاده از توصیفگرهای منطبق ایجاد کند که با بهره مندی از توصیفگرهای اصلی و مکان های کلیدی از طریق پرسپترون چند لایه به دست می آیند. رویکرد دیگر [7] از یادگیری تقویتی برای بهینه سازی تشخیص و توصیف ویژگی برای کارهای سطح بالا مانند تخمین پوز نسبی استفاده می کند. برخی از رویکردهای اخیر [12، 10، 11] سعی در یافتن جایگزین های قابل تمایز برای RANSAC به منظور تخمین بهتر تبدیل هندسی دارند. توجه داشته باشید که تمام تلاش های ذکر شده در برخی از قسمت های خط لوله کلاسیک بهبودهایی را ایجاد می کند.

عملکرد کلی سیستم معمولی توسط ضعیف ترین بلوک فرعی در این خط لوله سریال در طول تطبیق تصویر دیکته می شود. بنابراین، تلاش برای افزایش عملکرد هر مرحله، بسیار پایین‌تر از بهینه خواهد بود، زیرا خروجی هر بلوک ورودی به دیگری است و هر مرحله در سناریوی متفاوتی مستعد خطا است. از این رو، می توان مشاهده کرد که برخی از آثار اخیر در ادبیات، خط لوله کلاسیک را رها کرده اند و شروع به پیشنهاد ترکیب بسیاری از مراحل با هم در راه حل های خود برای غلبه بر این تنگنا کرده اند. به این ترتیب، روش‌هایی [19، 40، 48] وجود دارد که مشکل تطبیق تصویر را با یک معماری واحد با تخمین مستقیم تبدیل هندسی بین دو تصویر با رگرسیون حل می‌کند. اخیراً، برخی از تلاش‌ها [50، 49، 73] با بهره‌مندی از ویژگی‌های عمیق با یک شبکه به جای شناسایی، توصیف و تطبیق جداگانه آنها، مطابقت بین دو تصویر را پیدا می‌کنند.

اگر این استخراج‌کننده‌های از پیش آموزش‌دیده به‌گونه‌ای برای بهره‌برداری از قابلیت‌های انتزاع معنایی و محلی‌سازی خوب آنها استفاده شود، ممکن است شانس دستیابی به عملکرد رضایت‌بخش برای کار تطبیق تصویر را نیز داشته باشند. اگر این استخراج کننده های از پیش آموزش دیده به گونه ای مورد استفاده قرار گیرند که هم از قابلیت انتزاع معنایی و هم از قابلیت های محلی سازی خوب آنها بهره برداری کند، ممکن است فرصتی برای دستیابی به عملکرد رضایت بخشی برای کار تطبیق تصویر نیز داشته باشند. نظریه تشخیص به وسیله مؤلفه ها [8] مدافع این است که روش ادراک ما از اشیاء، آنها را به بخش هایی جدا می کند، که از این پشتیبانی می کند که انسان ها ممکن است کار تطبیق تصویر را با استفاده از اشیا انجام دهند زیرا آنها اجزای اصلی تصاویر هستند. ما همچنین از چرخش ذهنی [57] الهام گرفته‌ایم که بیان می‌کند مغز انسان در حالی که به دنبال شباهت‌های بین دو جسم است، برخی چرخش‌های اولیه را انجام می‌دهد.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *