مقاله
می 23, 2022شبکه عمیق Super Point
آگوست 15, 2022شبکه عمیق L2NET
تمرکز پژوهش طراحی توصیفگرهایی پچ محلی است که به تدریج از مواردساخته دست (مانند SIFT) به موارد آموخته شده تغییر کرده است. در این مقاله، ما یادگیری توصیفگر با کارایی بالا در فضای اقلیدسی را از طریق شبکه عصبی کانولوشنال (CNN) پیشنهاد میکنیم. روش ما از چهار جنبه متمایز است: (1) ما یک استراتژی نمونه گیری پیشرفت کننده را پیشنهاد می کنیم که شبکه را قادر می سازد به میلیاردها نمونه آموزشی در چند دوره دسترسی پیدا کند. (ii) با بهره گیری از مفهوم اساسی مسئله تطبیق پچ محلی،ما بر فاصله نسبی بین توصیفگرها تأکید می کنیم. (iii) نظارت اضافی بر روی نقشههای ویژگی میانی اعمال میشود. (iv) فشردگی توصیفگر در نظر گرفته میشود. شبکه پیشنهادی L2-Net نامگذاری شده است زیرا توصیفگر خروجی را می توان در فضای اقلیدسی با فاصله L2 مطابقت داد. L2-Net در مجموعه داده های براون [16]، مجموعه داده های آکسفورد [18] و مجموعه داده Hpatches جدید پیشنهادی [11] به عملکرد پیشرفته ای دست می یابد. توانایی تعمیم خوب نشان داده شده توسط آزمایش ها نشان می دهد که L2-Net می تواند به عنوان جایگزین مستقیم توصیفگرهای دست ساز موجود باشد. L2-Net از پیش آموزش دیده در دسترس عموم است
مقدمه
مقایسه پچ های محلی در بین تصاویر اساس مشکلات بینایی کامپیوتری مختلف است، مانند تطبیق خط پایه گسترده [17]، بازیابی تصویر [19] و تشخیص شی [8]. از زمان ظهور توصیفگر معروف SIFT [15]، رمزگذاری پچ های محلی تصویر در بردارهای بازنمایی، یعنی توصیفگرها، روش غالب بوده است. توصیفگرهای مورد نظر باید مقاوم باشند (مثلاً برای تغییر نقطه دید، تغییر روشنایی، یا سایر تغییرات فتومتریک و هندسی قوی) و برای تکههای غیر منطبق متمایز باشند.
همراه با رونق توصیفگرهای دست ساز در دهه گذشته، توصیفگرهای مبتنی بر یادگیری بیشتر و بیشتر ظاهر می شوند [12، 24، 20، 16، 21، 7]. روشهای مبتنی بر یادگیری، متفاوت از توصیفگرهای دستساز که عمدتاً توسط شهود یا تخصص محقق هدایت میشوند، توسط دادهها هدایت میشوند. یادگیری عمیق بسیاری از حوزه های تحقیقاتی را متحول کرده است [6، 14]، و در دسترس عموم از مجموعه داده های در مقیاس بزرگ با مطابقت های داده های درست [16، 18] یادگیری عمیق را برای تطبیق پچ های محلی ممکن می سازد. کاربرد شبکه عصبی کانولوشنال (CNN) برای تطبیق پچ محلی را می توان با توجه به وجود لایه های یادگیری متریک به دو دسته تقسیم کرد.
شبکه عصبی کانولوشنال با لایه های یادگیری متریک [10، 25، 9] معمولاً تطبیق جفت های پچ محلی را به عنوان طبقه بندی باینری در نظر می گیرند، بنابراین مفهوم توصیفگر وجود ندارد. یک اشکال آشکار این مدل ها این است که نمی توانند جستجوی نزدیکترین همسایه (NNS) را انجام دهند. از سوی دیگر، CNN ها بدون لایه های یادگیری متریک [2، 5، 9]
(به عنوان مثال، توصیفگرهای خروجی را می توان با فاصله L2 تطبیق داد) می تواند به عنوان جایگزینی مستقیم برای توصیفگرهای دست ساز قبلی در بسیاری از کاربردها استفاده شود، مانند تطبیق تقریبی سریع نزدیکترین همسایه (به عنوان مثال، درخت KD) برای ساختار از حرکت مقیاس بزرگ و کیف کلمات بصری در کاربردهای مرتبط. با این حال، در مجموعه داده های Brown که به طور گسترده مورد استفاده قرار می گیرد [16]، مدل های دارای یادگیری متریک عموماً بهتر عمل می کنند و شکاف غیر قابل چشم پوشی است. علاوه بر این، تعمیم توصیفگرهای مبتنی بر CNN به مجموعه داده های دیگر (به عنوان مثال، مجموعه داده آکسفورد [18]) برتری چشمگیری را نسبت به توصیفگرهای دست ساز نشان نمی دهد.
از آنجایی که اکثر کارهای تطبیق به NNS نیاز دارند، هدف ما یادگیری توصیفگر با کارایی بالا است که می تواند با فاصله L2 تطبیق داده شوند. L2-Net پیشنهادی یک مدل مبتنی بر CNN بدون لایههای یادگیری متریک است و توصیفگر 128بعدی را به عنوان خروجی میدهد که میتواند مستقیماً با فاصله L2 مورد تطبیق قرار گیرد. در این مقاله، ما از مفهوم اصلی تطبیق الهام می گیریم: برای یک پچ محلی خاص، برای یافتن همتای تطبیق آن، انجام NNS در فضای توصیفگر است. بنابراین، تنها کاری که ما باید انجام دهیم این است که مطمئن شویم که توصیفگرهای جفت منطبق نزدیکترین همسایه (تحت معیار مشخصی مانند فاصله L2 در این مقاله) به هم باشند، در حالی که بزرگی فاصله واقعاً مهم نیست. ماهیت پشت این الهام فاصله نسبی است.
اگرچه مفهوم فاصله نسبی جدید نیست، اما پتانسیل آن در تطبیق توصیفگر و سایر کاربردهای مرتبط به طور کامل کشف نشده است. به دنبال این ایده، ما L2-Net را با بهینه سازی فاصله نسبی بین توصیفگرها در یک دسته آموزش می دهیم. به طور خاص، L2-Net دستهای از پچ ها را به دستهای از توصیفگرها تبدیل میکند، برای هر توصیفگر، استراتژی آموزشی ما با هدف تبدیل نزدیکترین همسایه آن در دسته به عنوان توصیفگر تطبیق صحیح آن است. به این ترتیب، این در واقع یک عملیات یک در مقابل بسیاری است که فواصل را در بین بسیاری از جفتهای پچ در نظر میگیرد، که فراتر از عملیات جفتی یا سهگانه پرکاربرد است [10، 25، 2، 5].
آموزش L2-Net بر اساس یک استراتژی نمونه گیری پیشرونده (بخش 3.3) و یک تابع ضرر (بخش 3.4) از سه ترم خطا تشکیل شده است. استراتژی نمونهگیری تدریجی پیشنهادی را میتوان تنها با یک ضرب ماتریس پیادهسازی کرد که دسترسی سریع به میلیاردها جفت پچ را در چند اپک آموزشی امکانپذیر میسازد. تا آنجا که ما می دانیم، تنها روش هایی که ممکن است در برخی مفاهیم مشترک با ما مشترک باشد، [9] و [27] هستند. با این حال، [9] روی توزیع جفتهای منطبق و غیر منطبق کار میکند در حالی که ما بر روی جفتهای خاص تأکید میکنیم، که حساسیت بیشتری دارد. استراتژی نمونه گیری [27] منجر به یک تابع ضرر غیر محدب می شود که نمی تواند مستقیماً بهینه شود. در مقایسه، استراتژی نمونه گیری ما سریع، کارآمد و آسان برای پیاده سازی است.
علاوه بر این، ما سه ترم خطا را در تابع ضرر ادغام میکنیم: یک ترم فاصله نسبی بین توصیفگرها را محاسبه می کند، یک عبارت فشردگی توصیفگر و همچنین برازش بیش از حد را کنترل میکند، و یک عبارت نظارت اضافی اعمال شده بر روی نقشههای ویژگی میانی است که به عنوان . نقشه های مشخصه میانی متمایز (DIF) نامگذاری شده است. شبکه پیشنهادی بسیار قدرتمند است، اگرچه خیلی عمیق نیست، اما به عملکرد پیشرفتهای در چندین مجموعه داده معیار استاندارد دست مییابد، بهبود قابل توجهی نسبت به توصیفگرهای قبلی دریافت میکند و حتی از آن مدلهای CNN با لایههای یادگیری متریک پیشی میگیرد. توصیفگر L2-Net می تواند به عنوان جایگزین مستقیم توصیفگرهای دست ساز موجود استفاده شود زیرا از فاصله L2 نیز استفاده می کند.
- L2-Net
در این بخش، جزئیات معماری، دادههای آموزشی، استراتژی نمونهگیری، تابع هزینه و آموزش شبکه L2 پیشنهادی را شرح میدهیم. - معماری L2-Net
در شکل 1-(a) نشان داده شده است. این ساختار تمام پیچیدگی را می گیرد و نمونه برداری پایین با پیچیدگی گام 2 به دست می آید. نرمال سازی دسته ای (BN) [28] بعد از هر لایه کانولوشنی استفاده می شود، اما با تغییرات جزئی، به عنوان مثال، پارامترهای وزن و بایاس لایه های BN را به روز نمی کنیم و آنها را به ترتیب 1 و 0 می کنیم. از آنجایی که نرمال سازی یک مرحله مهم در طراحی توصیفگرها است، ما از یک لایه نرمال سازی پاسخ محلی (LRN) به عنوان لایه خروجی برای تولید توصیفگرهای واحد استفاده می کنیم. L2-Net پچ های ورودی 32×32 را به توصیفگرهای 128 بعدی تبدیل می کند. همانطور که در [25، 9]، ما همچنین یک L2-Net مرکزی (CS) را پیاده سازی می کنیم. همانطور که در شکل 1-(b) نشان داده شده است، این الحاق دو شبکه L2 جداگانه با ساختار دو برجی است. ورودی برج در سمت چپ با یک L2-Net انفرادی یکسان است، در حالی که ورودی برج سمت راست با برش دادن و تغییر اندازه قسمت مرکزی پچ های اصلی ایجاد میشود.
داده های آموزشی و پیش پردازش
برای آموزش شبکه، از مجموعه داده Brown [16] و مجموعه داده HPatches جدید پیشنهادی [11] استفاده می کنیم. این دو مجموعه داده از وصله های محلی استخراج شده از صحنه های مختلف تشکیل شده اند. اگرچه ویژگیهای متفاوتی دارند، اما وصلهها را به روشی یکسان سازماندهی میکنند: (i) هر وصله در مجموعه داده دارای یک شاخص کلیدی سه بعدی منحصر به فرد است، وصلههایی با شاخص کلیدی سه بعدی یکسان وصلههایی مطابق هستند. برای هرشاخص سه بعدی، حداقل 2 وصله منطبق وجود دارد. مجموعه داده برون از سه زیر مجموعه به نام های Yosemite، Notredame و Liberty تشکیل شده است. معمولاً یکی از زیر مجموعه ها به عنوان مجموعه آموزشی انتخاب می شود و دو زیر مجموعه دیگر برای تست استفاده می شود. داده های آموزشی مجموعه داده HPatches از چهار زیرمجموعه تشکیل شده است، به نام های train-hard (easy) -viewpoint، و train-hard (easy) -illum، که نشان دهنده وصله ها دیدگاه و تغییرات روشنایی را با درجات مختلف نشان می دهند. از آنجایی که برچسب دادههای تست آن در زمانی که ما این مقاله را به پایان میرسانیم منتشر نمیشود، ما فقط از HPpatches به عنوان مجموعه آموزشی استفاده میکنیم. تقریباً 500 هزار (1.5 میلیون) و 190 هزار (1.2 میلیون) نقطه سه بعدی (وصله) به ترتیب در مجموعه داده Brown و مجموعه داده HPatches وجود دارد. همه وصله ها به اندازه 32 × 32 برای آموزش نمونه برداری می شوند. بر اساس آزمایشهایمان، ما متوجه انحطاط عملکرد ناشی از کوچک شدن اندازه پچ نشدیم. برای هر وصله، میانگین پیکسل محاسبهشده در تمام وصلههای آموزشی را حذف میکنیم، و سپس نرمالسازی کنتراست اعمال میشود، یعنی از میانگین کسر شده و بر انحراف استاندارد تقسیم میشود.
نمونه گیری پیش رونده از داده های آموزشی
در مسئله تطبیق پچ محلی، تعداد وصلههای بالقوه غیر منطبق (منفی) مرتبهای بزرگتر از تعداد وصلههای تطبیق (مثبت) است. به دلیل تعداد زیاد جفتهای منفی، عبور از همه آنها غیرممکن است، بنابراین یک استراتژی نمونهگیری خوب بسیار حیاتی است. روشهای موجود معمولاً از تعداد مساوی از جفتهای مثبت و منفی در تمرین نمونهبرداری میکنند، در حالی که استراتژی نمونهگیری پیشرونده پیشنهادی، شکستن تعادل با نمونهگیری از جفتهای منفی بیشتر است. فرض کنید P نقاط سه بعدی در مجموعه آموزشی وجود دارد. فرض کنید P نقاط سه بعدی در مجموعه آموزشی وجود دارد. در هر تکرار، p1 نقاط را از کل مجموعه بهطور متوالی میگیریم تا تمام نقاط P را طی کنیم، و سپس از بقیه نقاط P – p1 بهطور تصادفی یک مقدار اضافی p2 میگیریم. تصادفی بودن نقاط p2 اضافی به شبکه این فرصت را می دهد که به آنچه آموخته است بپردازد و برای آنچه خواهد آموخت آماده شود. برای تشکیل یک دسته آموزشی، به طور تصادفی یک جفت پچ منطبق برای هر یک از نقاط p (برابر p1 + p2) انتخاب می کنیم (بنابراین در یک دسته 2p پچ وجود دارد).