شبکه عمیق L2NET

مقاله
می 23, 2022

شبکه عمیق L2NET

تمرکز پژوهش طراحی توصیفگرهایی پچ محلی است که به تدریج از مواردساخته دست (مانند SIFT) به موارد آموخته شده تغییر کرده است. در این مقاله، ما یادگیری توصیفگر با کارایی بالا در فضای اقلیدسی را از طریق شبکه عصبی کانولوشنال (CNN) پیشنهاد می‌کنیم. روش ما از چهار جنبه متمایز است: (1) ما یک استراتژی نمونه گیری پیشرفت کننده را پیشنهاد می کنیم که شبکه را قادر می سازد به میلیاردها نمونه آموزشی در چند دوره دسترسی پیدا کند. (ii) با بهره گیری از مفهوم اساسی مسئله تطبیق پچ محلی،ما بر فاصله نسبی بین توصیفگرها تأکید می کنیم. (iii) نظارت اضافی بر روی نقشه‌های ویژگی میانی اعمال می‌شود. (iv) فشردگی توصیفگر در نظر گرفته می‌شود. شبکه پیشنهادی L2-Net نامگذاری شده است زیرا توصیفگر خروجی را می توان در فضای اقلیدسی با فاصله L2 مطابقت داد. L2-Net در مجموعه داده های براون [16]، مجموعه داده های آکسفورد [18] و مجموعه داده Hpatches جدید پیشنهادی [11] به عملکرد پیشرفته ای دست می یابد. توانایی تعمیم خوب نشان داده شده توسط آزمایش ها نشان می دهد که L2-Net می تواند به عنوان جایگزین مستقیم توصیفگرهای دست ساز موجود باشد. L2-Net از پیش آموزش دیده در دسترس عموم است

مقدمه
مقایسه پچ های محلی در بین تصاویر اساس مشکلات بینایی کامپیوتری مختلف است، مانند تطبیق خط پایه گسترده [17]، بازیابی تصویر [19] و تشخیص شی [8]. از زمان ظهور توصیفگر معروف SIFT [15]، رمزگذاری پچ های محلی تصویر در بردارهای بازنمایی، یعنی توصیفگرها، روش غالب بوده است. توصیفگرهای مورد نظر باید مقاوم باشند (مثلاً برای تغییر نقطه دید، تغییر روشنایی، یا سایر تغییرات فتومتریک و هندسی قوی) و برای تکه‌های غیر منطبق متمایز باشند.

همراه با رونق توصیفگرهای دست ساز در دهه گذشته، توصیفگرهای مبتنی بر یادگیری بیشتر و بیشتر ظاهر می شوند [12، 24، 20، 16، 21، 7]. روش‌های مبتنی بر یادگیری، متفاوت از توصیف‌گرهای دست‌ساز که عمدتاً توسط شهود یا تخصص محقق هدایت می‌شوند، توسط داده‌ها هدایت می‌شوند. یادگیری عمیق بسیاری از حوزه های تحقیقاتی را متحول کرده است [6، 14]، و در دسترس عموم از مجموعه داده های در مقیاس بزرگ با مطابقت های داده های درست [16، 18] یادگیری عمیق را برای تطبیق پچ های محلی ممکن می سازد. کاربرد شبکه عصبی کانولوشنال (CNN) برای تطبیق پچ محلی را می توان با توجه به وجود لایه های یادگیری متریک به دو دسته تقسیم کرد.

شبکه عصبی کانولوشنال با لایه های یادگیری متریک [10، 25، 9] معمولاً تطبیق جفت های پچ محلی را به عنوان طبقه بندی باینری در نظر می گیرند، بنابراین مفهوم توصیفگر وجود ندارد. یک اشکال آشکار این مدل ها این است که نمی توانند جستجوی نزدیکترین همسایه (NNS) را انجام دهند. از سوی دیگر، CNN ها بدون لایه های یادگیری متریک [2، 5، 9]
(به عنوان مثال، توصیفگرهای خروجی را می توان با فاصله L2 تطبیق داد) می تواند به عنوان جایگزینی مستقیم برای توصیفگرهای دست ساز قبلی در بسیاری از کاربردها استفاده شود، مانند تطبیق تقریبی سریع نزدیکترین همسایه (به عنوان مثال، درخت KD) برای ساختار از حرکت مقیاس بزرگ و کیف کلمات بصری در کاربردهای مرتبط. با این حال، در مجموعه داده های Brown که به طور گسترده مورد استفاده قرار می گیرد [16]، مدل های دارای یادگیری متریک عموماً بهتر عمل می کنند و شکاف غیر قابل چشم پوشی است. علاوه بر این، تعمیم توصیفگرهای مبتنی بر CNN به مجموعه داده های دیگر (به عنوان مثال، مجموعه داده آکسفورد [18]) برتری چشمگیری را نسبت به توصیفگرهای دست ساز نشان نمی دهد.

از آنجایی که اکثر کارهای تطبیق به NNS نیاز دارند، هدف ما یادگیری توصیفگر با کارایی بالا است که می تواند با فاصله L2 تطبیق داده شوند. L2-Net پیشنهادی یک مدل مبتنی بر CNN بدون لایه‌های یادگیری متریک است و توصیفگر 128بعدی را به عنوان خروجی می‌دهد که می‌تواند مستقیماً با فاصله L2 مورد تطبیق قرار گیرد. در این مقاله، ما از مفهوم اصلی تطبیق الهام می گیریم: برای یک پچ محلی خاص، برای یافتن همتای تطبیق آن، انجام NNS در فضای توصیفگر است. بنابراین، تنها کاری که ما باید انجام دهیم این است که مطمئن شویم که توصیفگرهای جفت منطبق نزدیکترین همسایه (تحت معیار مشخصی مانند فاصله L2 در این مقاله) به هم باشند، در حالی که بزرگی فاصله واقعاً مهم نیست. ماهیت پشت این الهام فاصله نسبی است.

اگرچه مفهوم فاصله نسبی جدید نیست، اما پتانسیل آن در تطبیق توصیفگر و سایر کاربردهای مرتبط به طور کامل کشف نشده است. به دنبال این ایده، ما L2-Net را با بهینه سازی فاصله نسبی بین توصیفگرها در یک دسته آموزش می دهیم. به طور خاص، L2-Net دسته‌ای از پچ ها را به دسته‌ای از توصیفگرها تبدیل می‌کند، برای هر توصیفگر، استراتژی آموزشی ما با هدف تبدیل نزدیک‌ترین همسایه آن در دسته به عنوان توصیفگر تطبیق صحیح آن است. به این ترتیب، این در واقع یک عملیات یک در مقابل بسیاری است که فواصل را در بین بسیاری از جفت‌های پچ در نظر می‌گیرد، که فراتر از عملیات جفتی یا سه‌گانه پرکاربرد است [10، 25، 2، 5].

آموزش L2-Net بر اساس یک استراتژی نمونه گیری پیشرونده (بخش 3.3) و یک تابع ضرر (بخش 3.4) از سه ترم خطا تشکیل شده است. استراتژی نمونه‌گیری تدریجی پیشنهادی را می‌توان تنها با یک ضرب ماتریس پیاده‌سازی کرد که دسترسی سریع به میلیاردها جفت پچ را در چند اپک آموزشی امکان‌پذیر می‌سازد. تا آنجا که ما می دانیم، تنها روش هایی که ممکن است در برخی مفاهیم مشترک با ما مشترک باشد، [9] و [27] هستند. با این حال، [9] روی توزیع جفت‌های منطبق و غیر منطبق کار می‌کند در حالی که ما بر روی جفت‌های خاص تأکید می‌کنیم، که حساسیت بیشتری دارد. استراتژی نمونه گیری [27] منجر به یک تابع ضرر غیر محدب می شود که نمی تواند مستقیماً بهینه شود. در مقایسه، استراتژی نمونه گیری ما سریع، کارآمد و آسان برای پیاده سازی است.

علاوه بر این، ما سه ترم خطا را در تابع ضرر ادغام می‌کنیم: یک ترم فاصله نسبی بین توصیف‌گرها را محاسبه می کند، یک عبارت فشردگی توصیفگر و همچنین برازش بیش از حد را کنترل می‌کند، و یک عبارت نظارت اضافی اعمال شده بر روی نقشه‌های ویژگی میانی است که به عنوان . نقشه های مشخصه میانی متمایز (DIF) نامگذاری شده است. شبکه پیشنهادی بسیار قدرتمند است، اگرچه خیلی عمیق نیست، اما به عملکرد پیشرفته‌ای در چندین مجموعه داده معیار استاندارد دست می‌یابد، بهبود قابل توجهی نسبت به توصیف‌گرهای قبلی دریافت می‌کند و حتی از آن مدل‌های CNN با لایه‌های یادگیری متریک پیشی می‌گیرد. توصیفگر L2-Net می تواند به عنوان جایگزین مستقیم توصیفگرهای دست ساز موجود استفاده شود زیرا از فاصله L2 نیز استفاده می کند.

  1. L2-Net
    در این بخش، جزئیات معماری، داده‌های آموزشی، استراتژی نمونه‌گیری، تابع هزینه و آموزش شبکه L2 پیشنهادی را شرح می‌دهیم.
  2. معماری L2-Net
    در شکل 1-(a) نشان داده شده است. این ساختار تمام پیچیدگی را می گیرد و نمونه برداری پایین با پیچیدگی گام 2 به دست می آید. نرمال سازی دسته ای (BN) [28] بعد از هر لایه کانولوشنی استفاده می شود، اما با تغییرات جزئی، به عنوان مثال، پارامترهای وزن و بایاس لایه های BN را به روز نمی کنیم و آنها را به ترتیب 1 و 0 می کنیم. از آنجایی که نرمال سازی یک مرحله مهم در طراحی توصیفگرها است، ما از یک لایه نرمال سازی پاسخ محلی (LRN) به عنوان لایه خروجی برای تولید توصیفگرهای واحد استفاده می کنیم. L2-Net پچ های ورودی 32×32 را به توصیفگرهای 128 بعدی تبدیل می کند. همانطور که در [25، 9]، ما همچنین یک L2-Net مرکزی (CS) را پیاده سازی می کنیم. همانطور که در شکل 1-(b) نشان داده شده است، این الحاق دو شبکه L2 جداگانه با ساختار دو برجی است. ورودی برج در سمت چپ با یک L2-Net انفرادی یکسان است، در حالی که ورودی برج سمت راست با برش دادن و تغییر اندازه قسمت مرکزی پچ های اصلی ایجاد می‌شود.

داده های آموزشی و پیش پردازش
برای آموزش شبکه، از مجموعه داده Brown [16] و مجموعه داده HPatches جدید پیشنهادی [11] استفاده می کنیم. این دو مجموعه داده از وصله های محلی استخراج شده از صحنه های مختلف تشکیل شده اند. اگرچه ویژگی‌های متفاوتی دارند، اما وصله‌ها را به روشی یکسان سازمان‌دهی می‌کنند: (i) هر وصله در مجموعه داده دارای یک شاخص کلیدی سه بعدی منحصر به فرد است، وصله‌هایی با شاخص کلیدی سه بعدی یکسان وصله‌هایی مطابق هستند. برای هرشاخص سه بعدی، حداقل 2 وصله منطبق وجود دارد. مجموعه داده برون از سه زیر مجموعه به نام های Yosemite، Notredame و Liberty تشکیل شده است. معمولاً یکی از زیر مجموعه ها به عنوان مجموعه آموزشی انتخاب می شود و دو زیر مجموعه دیگر برای تست استفاده می شود. داده های آموزشی مجموعه داده HPatches از چهار زیرمجموعه تشکیل شده است، به نام های train-hard (easy) -viewpoint، و train-hard (easy) -illum، که نشان دهنده وصله ها دیدگاه و تغییرات روشنایی را با درجات مختلف نشان می دهند. از آنجایی که برچسب داده‌های تست آن در زمانی که ما این مقاله را به پایان می‌رسانیم منتشر نمی‌شود، ما فقط از HPpatches به عنوان مجموعه آموزشی استفاده می‌کنیم. تقریباً 500 هزار (1.5 میلیون) و 190 هزار (1.2 میلیون) نقطه سه بعدی (وصله) به ترتیب در مجموعه داده Brown و مجموعه داده HPatches وجود دارد. همه وصله ها به اندازه 32 × 32 برای آموزش نمونه برداری می شوند. بر اساس آزمایش‌هایمان، ما متوجه انحطاط عملکرد ناشی از کوچک شدن اندازه پچ نشدیم. برای هر وصله، میانگین پیکسل محاسبه‌شده در تمام وصله‌های آموزشی را حذف می‌کنیم، و سپس نرمال‌سازی کنتراست اعمال می‌شود، یعنی از میانگین کسر شده و بر انحراف استاندارد تقسیم می‌شود.

نمونه گیری پیش رونده از داده های آموزشی
در مسئله تطبیق پچ محلی، تعداد وصله‌های بالقوه غیر منطبق (منفی) مرتبه‌ای بزرگتر از تعداد وصله‌های تطبیق (مثبت) است. به دلیل تعداد زیاد جفت‌های منفی، عبور از همه آنها غیرممکن است، بنابراین یک استراتژی نمونه‌گیری خوب بسیار حیاتی است. روش‌های موجود معمولاً از تعداد مساوی از جفت‌های مثبت و منفی در تمرین نمونه‌برداری می‌کنند، در حالی که استراتژی نمونه‌گیری پیشرونده پیشنهادی، شکستن تعادل با نمونه‌گیری از جفت‌های منفی بیشتر است. فرض کنید P نقاط سه بعدی در مجموعه آموزشی وجود دارد. فرض کنید P نقاط سه بعدی در مجموعه آموزشی وجود دارد. در هر تکرار، p1 نقاط را از کل مجموعه به‌طور متوالی می‌گیریم تا تمام نقاط P را طی کنیم، و سپس از بقیه نقاط P – p1 به‌طور تصادفی یک مقدار اضافی p2 می‌گیریم. تصادفی بودن نقاط p2 اضافی به شبکه این فرصت را می دهد که به آنچه آموخته است بپردازد و برای آنچه خواهد آموخت آماده شود. برای تشکیل یک دسته آموزشی، به طور تصادفی یک جفت پچ منطبق برای هر یک از نقاط p (برابر p1 + p2) انتخاب می کنیم (بنابراین در یک دسته 2p پچ وجود دارد).


پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *