یادگیری عمیق در گوگل کولب
اکتبر 7, 2022مثال از Maximum Likelihood
نوامبر 21, 2022شبکه عمیق dfm
یک روش تطبیق تصویر جدید پیشنهاد شده است که از ویژگیهای آموخته شده استخراج شده توسط یک شبکه عصبی عمیق برای به دست آوردن یک عملکرد امیدوارکننده استفاده میکند. روش پیشنهادی از معماری VGG از پیش آموزشدیده به عنوان استخراجکننده ویژگی استفاده میکند و برای بهبود تطابق نیازی به آموزش اضافی ندارد. با الهام از مفاهیم به خوبی تثبیت شده در حوزه روانشناسی، مانند پارادایم چرخش ذهنی، یک تاب اولیه در نتیجه یک تخمین تحول هندسی اولیه انجام می شود. این تخمینها صرفاً بر اساس تطابق متراکم نزدیکترین همسایگان در لایه پایانی خروجیهای شبکه VGG تصاویری است که باید مطابقت داده شوند. پس از این تراز اولیه، همان رویکرد دوباره بین تصاویر مرجع و تراز شده به صورت سلسله مراتبی تکرار می شود تا به محلی سازی خوب و عملکرد تطبیق برسد. الگوریتم ما امتیاز کلی 0.57 و 0.80 را از نظر میانگین دقت تطبیق (MMA) برای آستانه های 1 پیکسل و 2 پیکسل در مجموعه داده Hpatches [4] به دست می آورد، که نشان دهنده عملکرد بهتر نسبت به حالت گذشته است.
- مقدمه
تعیین تطابق نقطه بین تصاویر یکی از موضوعات حیاتی و مورد مطالعه در بینایی کامپیوتر است. این تطابقات برای چندین کاربرد حیاتی هستند، مانند مکانیابی و نقشهبرداری همزمان (SLAM)، ساختار از حرکت (SfM)، تخمین موقعیت، بازیابی تصویر و تطبیق تصویر. خط لوله تطبیق تصویر کلاسیک شامل مراحل تشخیص ویژگی، توصیف ویژگی، تطبیق ویژگی، و تخمین تبدیل هندسی است. بسیاری از الگوریتم های محبوب قبل از دوره یادگیری عمیق بر روی یک یا چند مرحله در این خط لوله متمرکز شده اند. در حالی که بسیاری از تکنیک ها [24، 61، 51، 35] بر روی تشخیص ویژگی متمرکز هستند، برخی از رویکردهای دیگر [18، 37، 13] مرحله توصیف ویژگی را به صورت محلی مدیریت می کنند. محبوب ترین الگوریتم ها [33، 6، 52، 30، 1، 2] هم روی تشخیص ویژگی و هم بر روی توصیف ویژگی کار می کنند. تطبیق ویژگی معمولاً با به حداقل رساندن/حداکثر کردن برخی از معیارهای به خوبی تعریف شده، مانند مجموع مجذورتفاوت (SSD) یا همبستگی، که در مرحله بعدی با روش های رد پرت همراه است، مانند آزمون نسبت SIFT [33] یا برخی از الگوریتم های رد پرت، به دست می آید. مانند LPM [34]. در مرحله تخمین تبدیل هندسی، هندسه یا هموگرافی اپی قطبی معمولاً توسط الگوریتمهای مبتنی بر DLT [25] یا RANSAC [23] [14، 65، 15، 16] تخمین زده میشود. در سالهای اخیر، تطبیق تصویر با یادگیری عمیق مواجه شد، و تعدادی تلاش ارزشمند انجام شده است. با این حال، بیشتر این مطالعات هنوز بر خط لوله کلاسیک تکیه دارند.
در این رابطه، در حالی که بسیاری از روش ها [67، 29، 54، 20، 39، 5] سعی در بهبود تشخیص ویژگی با معماری های عمیق دارند، برخی دیگر [71، 58، 3، 38، 64] توصیفگرهای ویژگی را با استفاده از بازنمایی های آموخته شده بازسازی می کنند. از سوی دیگر، تکنیک هایی نیز وجود دارد [21، 41، 56، 46، 22، 69] که هر دو مشکل را با هم حل می کنند و به طور مشترک برای حل آنها تلاش می کنند. برخی از تلاشها، مانند [70، 72]، شبکه را آموزش میدهند تا نحوه رد کردن نقاط پرت را در حضور تطابقهای احتمالی بیاموزد. SuperGlue [53] یاد می گیرد که مطابقت های مناسب را با استفاده از توصیفگرهای منطبق ایجاد کند که با بهره مندی از توصیفگرهای اصلی و مکان های کلیدی از طریق پرسپترون چند لایه به دست می آیند. رویکرد دیگر [7] از یادگیری تقویتی برای بهینه سازی تشخیص و توصیف ویژگی برای کارهای سطح بالا مانند تخمین پوز نسبی استفاده می کند. برخی از رویکردهای اخیر [12، 10، 11] سعی در یافتن جایگزین های قابل تمایز برای RANSAC به منظور تخمین بهتر تبدیل هندسی دارند. توجه داشته باشید که تمام تلاش های ذکر شده در برخی از قسمت های خط لوله کلاسیک بهبودهایی را ایجاد می کند.
عملکرد کلی سیستم معمولی توسط ضعیف ترین بلوک فرعی در این خط لوله سریال در طول تطبیق تصویر دیکته می شود. بنابراین، تلاش برای افزایش عملکرد هر مرحله، بسیار پایینتر از بهینه خواهد بود، زیرا خروجی هر بلوک ورودی به دیگری است و هر مرحله در سناریوی متفاوتی مستعد خطا است. از این رو، می توان مشاهده کرد که برخی از آثار اخیر در ادبیات، خط لوله کلاسیک را رها کرده اند و شروع به پیشنهاد ترکیب بسیاری از مراحل با هم در راه حل های خود برای غلبه بر این تنگنا کرده اند. به این ترتیب، روشهایی [19، 40، 48] وجود دارد که مشکل تطبیق تصویر را با یک معماری واحد با تخمین مستقیم تبدیل هندسی بین دو تصویر با رگرسیون حل میکند. اخیراً، برخی از تلاشها [50، 49، 73] با بهرهمندی از ویژگیهای عمیق با یک شبکه به جای شناسایی، توصیف و تطبیق جداگانه آنها، مطابقت بین دو تصویر را پیدا میکنند.
اگر این استخراجکنندههای از پیش آموزشدیده بهگونهای برای بهرهبرداری از قابلیتهای انتزاع معنایی و محلیسازی خوب آنها استفاده شود، ممکن است شانس دستیابی به عملکرد رضایتبخش برای کار تطبیق تصویر را نیز داشته باشند. اگر این استخراج کننده های از پیش آموزش دیده به گونه ای مورد استفاده قرار گیرند که هم از قابلیت انتزاع معنایی و هم از قابلیت های محلی سازی خوب آنها بهره برداری کند، ممکن است فرصتی برای دستیابی به عملکرد رضایت بخشی برای کار تطبیق تصویر نیز داشته باشند. نظریه تشخیص به وسیله مؤلفه ها [8] مدافع این است که روش ادراک ما از اشیاء، آنها را به بخش هایی جدا می کند، که از این پشتیبانی می کند که انسان ها ممکن است کار تطبیق تصویر را با استفاده از اشیا انجام دهند زیرا آنها اجزای اصلی تصاویر هستند. ما همچنین از چرخش ذهنی [57] الهام گرفتهایم که بیان میکند مغز انسان در حالی که به دنبال شباهتهای بین دو جسم است، برخی چرخشهای اولیه را انجام میدهد.