تطبیق با یادگیری عمیق در تصاویر استریو
آوریل 19, 2023شبکه ASLFEAT
آوریل 28, 2023شبکه RF- NET
این مقاله شبکه تطبیق آموزشپذیر انتها به انتها RF-Net را بر اساس میدان گیرنده، ، برای محاسبه ارتباطات پراکنده(تنک) بین تصاویر پیشنهاد میکند. ساخت چارچوب تطبیقی قابل آموزش انتها به انتها مطلوب و چالش برانگیز است. رویکرد اخیر، LF-Net، با موفقیت کل خط لوله استخراج ویژگی را در یک خط لوله قابل آموزش به طور مشترک تعبیه می کند و نتایج تطبیقی خوبی را ایجاد می کند. این مقاله دو تغییر در ساختار LF-Net معرفی می کند. اول، ما پیشنهاد میکنیم نقشههای ویژگی گیرنده بسازیم، که منجر به تشخیص مؤثرتر نقاط کلیدی میشود. دوم، برای تسهیل انتخاب پچ آموزشی، یک ترم تابع ضرر کلی، ماسک همسایگی را معرفی میکنیم. این منجر به بهبود ثبات در آموزش توصیفگر می شود. ما RF-Net را بر روی مجموعه داده HPatches آموزش دادیم و آن را با روش های دیگر در مجموعه داده های چندگانه مقایسه کردیم. آزمایشها نشان میدهند که RF-Net از روشهای قبلی موجود بهتر عمل میکند.
معرفی
برقراری ارتباط بین تصاویر نقش کلیدی در بسیاری از وظایف بینایی کامپیوتر ایفا می کند، از جمله تصاویر استریو با خط پایه گسترده، بازیابی تصویر، و تطبیق تصویر. یک خط لوله تطبیق مبتنی بر ویژگی معمولی از دو جزء تشکیل شده است: تشخیص نقاط کلیدی با خصوصیاتشان(مقیاسها، جهت)، و استخراج توصیفگرها.بسیاری از روش های موجود بر روی ساخت/آموزش آشکارسازهای نقطه کلیدی یا توصیفگرهای ویژگی به صورت جداگانه تمرکز می کنند.با این حال، هنگام ادغام این مولفههای فرعی بهینهسازی شده در یک خط لوله تطبیق، ممکن است افزایش عملکرد هر بخش مستقیماً باعث بهبود عملکرد کلی نشود [29].آموزش مشترک آشکارسازها و توصیفگرها برای ایجاد همکاری بهینه با یکدیگر، مطلوبتر است. با این حال، آموزش چنین شبکه ای دشوار است زیرا دو جزء فرعی اهداف جداگانه خود را برای بهینه سازی دارند.
تعداد زیادی روش موفق تطبیق انتها به انتها در مقالات گزارش نشده است. LIFT [29] احتمالاً اولین طرح قابل توجه برای این هدف است. اما، LIFT برای شروع آموزش به خروجی آشکارساز SIFT متکی است و از این رو، آشکارساز آن مشابه آشکارساز SIFT رفتار می کند. شبکهSuperPoint [5]، به این آموزش پایان به پایان دست یافته است. اما آشکارساز آن باید روی مجموعههای تصویر مصنوعی از قبل آموزش داده شود و کل شبکه با استفاده از تصاویر با تبدیلهای مصنوعی افاین آموزش داده میشود. LF-Net جدیدتر [18] از یادگیری تقویتی الهام گرفته شده است و از معماری سیامی برای آموزش کل شبکه بدون کمک هیچ روش دست ساز استفاده می کند. در این مقاله، ما یک شبکه تطبیق انتها به انتها با ماژول های آموزشی آشکارساز و توصیفگر پیشرفته ایجاد می کنیم که به شرح زیر توضیح می دهیم.
تشخیص نقطه کلیدی
ساختن نقشه های پاسخ راهی کلی برای یافتن نقاط کلیدی است. LIFT [29] نقشه های پاسخ را با به کار گیری مسقیم کانولوشن ها بر روی وضوح های مختلف تصویر ورودی به دست می آورد. SuperPoint [5] نقشههای پاسخ نمیسازد، اما تصویر ورودی را با استفاده از لایههای کانولوشن و max-pooling پردازش میکند تا یک تانسور میانی B تولید کند که عرض و ارتفاع آن فقط 1/8 ورودی است. بنابراین پاسخ در B یک ویژگی بسیار انتزاعی از تصویر ورودی را نشان می دهد و اندازه میدان گیرنده ویژگی بزرگتر از 8 پیکسل است. LF-Net از ResNet [9] برای تولید نقشههای ویژگی انتزاعی از تصویر ورودی استفاده میکند، سپس نقشههای پاسخ را با کانولوشن روی نقشههای انتزاعی ویژگی با وضوحهای مختلف میسازد. بنابراین، پاسخ در هر نقشه دارای یک میدان بزرگ است. در این کار، ما نقشههای پاسخ را با استفاده از زمینههای دریافتی مربوطه میسازیم.در این کار، ما نقشههای پاسخ را با استفاده از میدان دریافتی مربوطه میسازیم. به طور خاص، ما کانولوشن را برای تولید نقشههای ویژگی مربوط به میدان دریافتی فزاینده اعمال میکنیم (شکل 1 (ب)).به عنوان مثال، با اعمال کانولوشن با اندازه هسته 3×3 و گام 1، میدان گیرنده به 3، 5، 7 و غیره افزایش می یابد. این طراحی نقشه های پاسخ موثرتری را برای تشخیص نقاط کلیدی تولید می کند.
توصیفگر ویژگی
توصیفگرهای آموزشی در یک شبکه انتها به انتها با آموزش شبکه های فردی بسیار متفاوت است. آموزش توصیفگر موجود (انفرادی) اغلب بر روی مجموعه داده های به خوبی آماده شده مانند مجموعه داده آکسفورد [15]، مجموعه داده UBC PhotoTour [28] و مجموعه داده HPatches [1] انجام می شود. در مقابل، در آموزش شبکه های end-to-end، پچ ها باید از ابتدا تولید شوند. در LF-Net، جفتهای پچ با تبدیل پچهای اطراف نقاط کلیدی در تصویر II به تصویر Ij نمونهبرداری میشوند. با این حال، نقص این استراتژی نمونهگیری ساده میتواند آموزش توصیفگر را تحت تأثیر قرار دهد.به طور خاص، دو نقطه کلیدی اولیه دوراز هم، پس از تبدیل ، می توانند بسیار به یکدیگر نزدیک شوند. در نتیجه، یک پچ منفی می تواند بسیار شبیه به یک پچ لنگر و یک پچ مثبت به نظر برسد.این باعث سردرگمی شبکه در طول آموزش می شود. این وضعیت باعث ابهام در برچسب زدن می شود و بر آموزش توصیفگر اثر می گذارد. ما برای غلبه بر این مشکل یک ترم تابع ضرر کلی به نام همسایه ماسک پیشنهاد می کنیم. ماسک همسایه را می توان هم در از تابع ضرر سه گانه و هم در انواع مختلف آن استفاده کرد. مشاهده میکنیم که عملکرد توصیفگر به شدت بر آموزش آشکارساز تأثیر میگذارد و توصیفگر قویتر به آشکارساز کمک میکند تا بهتر یاد بگیرد.بنابراین، در هر تکرار آموزشی، دو بار توصیفگر و یک بار آشکارساز را آموزش می دهیم. برای نشان دادن اثربخشی رویکرد خود از طریق ارزیابیهای جامع و منصفانه، ما RFNet خود را با روشهای دیگر با سه پروتکل ارزیابی در دو مجموعه داده عمومی HPatches [1] و EF Dataset [34] مقایسه میکنیم. آزمایشهای تطبیق نشان میدهد که RF-Net ما از روشهای گذشته موجود بهتر عمل میکند.
سهم اصلی این مقاله در سه جنبه است. (1) ما یک آشکارساز جدید مبتنی بر میدان پذیرنده پیشنهاد میکنیم که فضای مقیاس و نقشههای پاسخ مؤثرتر را تولید میکند. (2) ما یک ترم تابع ضررکلی برای یادگیری توصیفگر پیشنهاد میکنیم که استحکام نمونهگیری پچ (patch sampling) را بهبود میبخشد. (3) RF-Net یکپارچه ما از آموزش موثر انتها به انتها پشتیبانی می کند، که منجر به عملکرد تطبیق بهتری نسبت به رویکردهای موجود می شود.
کارهای مرتبط
یک خط لوله تطبیق مبتنی بر ویژگی معمولی از دو جزء تشکیل شده است: تشخیص نقاط کلیدی با خصوصیات (مقیاس، جهت)، و استخراج توصیفگرها. بسیاری از روش های مبتنی بر یادگیری اخیر بر بهبود یکی از این ماژول ها تمرکز می کنند، مانند تشخیص ویژگی [22، 33، 19،26]، تخمین جهت [30] و نمایش توصیفگر [17، 24، 8]. نقص این رویکردها این است که افزایش عملکرد یک جزء بهبود یافته ممکن است مستقیماً با بهبود کل خط لوله مطابقت نداشته باشد [29، 23]. رویکردهای دست ساز مانند SIFT [14]، که احتمالاً شناخته شده ترین توصیفگر ویژگی محلی سنتی است. محدودیت بزرگ SIFT سرعت آن است. SURF [3] برای تقریب LoG از فیلتر جعبه استفاده می کند و به طور قابل توجهی سرعت تشخیص را افزایش می دهد. سایر ویژگیهای محبوب دست ساز عبارتند از WADE [21]، Edge Foci [34]، گوشهیاب هریس [7] و همبستگی افاین [16]. بسیاری از آشکارسازهای موثر یادگیری ماشین نیز اخیرا پیشنهاد شده اند. FAST [19] و ORB [20] از روش یادگیری ماشین برای سرعت بخشیدن به فرآیند تشخیص گوشه استفاده می کنند. TILDE [26] از تصاویر از پیش تراز شده از یک صحنه در شرایط مختلف روشنایی یاد می گیرد. اگرچه TILDE با کمک SIFT آموزش می بیند، اما همچنان می تواند نقاط کلیدی از دست رفته توسط SIFT را شناسایی کند و در مجموعه داده های ارزیابی شده بهتر از SIFT عمل کند. شبکه چهارگانه [22] بدون نظارت با تابع ضرر “رتبه بندی” آموزش داده می شود. [32] این تابع ضرر «رتبهبندی» را با تابع ضرر «Peakedness» ترکیب میکند و آشکارساز تکرارپذیرتری تولید میکند. لنک و همکاران [13] پیشنهاد می کنند که آشکارساز ویژگی را مستقیماً از محدودیت کوواریانس آموزش دهد. ژانگ و همکاران [33] محدودیت کوواریانت را با تعریف مفاهیم “پچ استاندارد” و “ویژگی متعارف” گسترش می دهند. روش [30] می آموزد که جهت را برای بهبود تطبیق نقاط مشخصه تخمین بزند.
یادگیری توصیفگر تمرکز بسیاری از کارها برای تراز کردن تصویر در بینایی ماشین است:
DeepDesc [27] یک شبکه سیامی را به کار می گیرد ، MatchNet [6] و Deepcompare [31] برای یادگیری ماتریس فاصله غیرخطی برای تطبیق استفاده می کنند. مجموعهای از کارهای اخیر، معماریهایی با مدل پیشرفتهتر و فرمولهای یادگیری عمیق متریک مبتنی بر سهگانه، از جمله UCN [4]، TFeat [2]، GLoss [12]، L2-Net [24]، HardNet [17] و He et را در نظر گرفتهاند.. کارهای اخیر بر طراحی توابع ضرر بهتر تمرکز دارند، در حالی که همچنان از همان معماری شبکه ارائه شده در L2-Net [24] استفاده می کنند.
ساخت چارچوب های تطبیق انتها به انتها کمتر مورد بررسی قرار گرفته است:
LIFT [29] احتمالاً اولین تلاش برای ساخت چنین شبکه ای بود. این روش سه CNN (برای آشکارساز، برآوردگر جهت ، و توصیفگر) را از طریق عملیات متمایز ترکیب می کند. در حالی که هدف آن استخراج زیرمجموعهای ازSfM-surviving از آشکارسازی های DoG است، آشکارساز و تخمینگر جهت آن به جای کل تصویر با یک پچ تغذیه میشوند و از این رو، به صورت سرتاسر آموزش داده نمیشوند. SuperPoint [5] یک شبکه عصبی کاملاً کانولوشن را آموزش می دهد که از یک رمزگذار مشترک و دو رمزگشا جداگانه (به ترتیب برای تشخیص و توصیف ویژگی) تشکیل شده است. اشکال مصنوعی برای تولید تصاویر برای پیشآموزش آشکارساز، و تبدیلهای هموگرافی مصنوعی برای تولید جفتهای تصویر برای تنظیم دقیق آشکارساز استفاده میشوند. LF-Net [18] یک معماری عمیق جدید و یک استراتژی آموزشی برای یادگیری خط لوله ویژگی محلی از ابتدا ارائه می دهد. بر اساس ساختار شبکه سیامی، LF-Net در یک شاخه پیش بینی می کند و در شاخه دیگر ground truth را تولید می کند. این روش با تصویر با اندازه QVGA تغذیه می شود و نقشه های پاسخ چند مقیاسی را تولید می کند. سپس، نقشههای پاسخ را پردازش میکند تا سه نقشه متراکم را که به ترتیب نشاندهنده برجسته بودن، مقیاس و جهت نقاط کلیدی هستند، تولید کند.
رویکرد
شبکه RF ما متشکل از یک آشکارساز به نام RF-Det است که بر اساس نقشههای ویژگی دریافتی است و یک استخراجکننده توصیفگر که معماری آن مشابه L2-Net [24] است، اما با یک تابع ضرر اصلاحشده. طراحی کل ساختار شبکه در شکل 2 نشان داده شده است. در طول آزمایش، شبکه آشکارساز RF-Det یک تصویر می گیرد و یک نقشه امتیاز S، یک نقشه جهت Θ، و یک نقشه مقیاس S¯ را خروجی می دهد. این سه نقشه به ترتیب مکان، جهت مقیاس نقاط کلیدی را تولید می کنند. وصله های برش داده شده از این نقشه ها به ماژول توصیفگر داده می شود تا بردارهای ویژگی با طول ثابت را برای تطبیق تولید کند.
3.1. ساخت نقشهای پاسخ فضای مقیاس
ساختن نقشههای پاسخ در فضای مقیاس، مبنایی برای تشخیص نقاط کلیدی است. نقشههای پاسخ را به صورت {hn} نشان میدهیم، که در آن 1 ≤ n ≤ N و N تعداد کل لایه است. LF-Net [18] از نقشه های ویژگی انتزاعی استخراج شده از ResNet [9] برای ساختن نقشه های پاسخ خود استفاده می کند. هر پاسخ در نقشه های ویژگی انتزاعی نشان دهنده یک ویژگی سطح بالا است که از یک منطقه بزرگ در تصویر استخراج شده است، در حالی که ویژگی های سطح پایین استخراج نمی شوند. بنابراین، هر نقشه در h n یک پاسخ در مقیاس بزرگ در فضای مقیاس است. ایده ما حفظ ویژگیهای سطح بالا و سطح پایین در هنگام ساختن نقشههای پاسخ {h n} است و از برخی نقشهها (مثلاً با شاخص کوچکتر) برای ارائه پاسخ در مقیاس کوچک و برخی دیگر (مثلاً با شاخص بزرگتر) استفاده میکنیم. ) برای ارائه پاسخ در مقیاس بزرگ.
در پیادهسازی، N = 10 را تنظیم کردیم. و لایههای کانولوشنال سلسله مراتبی از شانزده هسته 3×3 تشکیل شدهاند که به دنبال نرمال سازی نمونه [25] و فعالسازیهای leaky ReLU میآیند. ما همچنین اتصال میانبر [9] را بین هر لایه اضافه می کنیم که میدان دریافتی را در نقشه های ویژگی تغییر نمی دهد و آموزش شبکه را آسان تر می کند. برای تولید نقشه های پاسخ چند مقیاسی h n، از یک هسته 1×1 و به دنبال آن یک نرمال سازی نمونه استفاده می کنیم. همه کانولوشنها دارای لایه صفر هستند تا اندازه خروجی مشابه ورودی باشد.
3.2. تشخیص نقطه کلیدی
با پیروی از استراتژی رایج اتخاذ شده، پیکسل های با پاسخ بالا را به عنوان نقاط کلیدی انتخاب می کنیم. نقشههای پاسخ h n پاسخ پیکسلها را در مقیاسهای چندگانه نشان میدهند، بنابراین نقشه امتیاز نقاط کلیدی را از آن تولید میکنیم. سپس تشخیص نقطه کلید را مشابه LF-Net [18] طراحی می کنیم، با این تفاوت که نقشه های پاسخ ما h n توسط نقشه های ویژگی گیرنده ساخته می شوند.
به طور خاص، ما دو عملگر softmax را برای تولید نقشه امتیاز S به کار می گیریم. هدف اولین عملگر softmax تولید نقشههای پاسخ واضحتر hˆn است. اولین عملگر softmax بر روی یک پنجره 15×15×N روی h n با همان لایه صفر اعمال می شود. سپس تمام hˆn را در نقشه امتیاز نهایی S با عملگر دوم SOFtmaxn ادغام می کنیم.
تخمین جهت و مقیاس نیز بر اساس Prn تولید می شود. ما کانولوشن هایی را روی Mn با دو هسته 1 × 1 برای تولید نقشه های جهت چند مقیاسی {θn} اعمال می کنیم (شکل 1 (ب) را ببینید) که مقادیر آنها سینوس و کسینوس جهت را نشان می دهد. مقادیر برای محاسبه زاویه با استفاده از تابع آرکتانژانت استفاده می شوند. سپس همان مقدار را برای ادغام تمام θ n در نقشه جهت نهایی Θ، اعمال می کنیم توسط :
رای تولید نقشه مقیاس S¯، عملیات مشابه مورد استفاده در تخمین جهت را اعمال می کنیم:…
3.3. استخراج توصیفگر
ما ماژول استخراج توصیفگر را در شبکه به دنبال ساختاری مشابه L2-Net [24] توسعه می دهیم. این ساختار همچنین در سایر چارچوبهای یادگیری توصیفگر اخیر مانند Hard-Net [17] و He et al. [8] وجود دارد. به طور خاص، این شبکه توصیفگر از هفت لایه کانولوشن تشکیل شده است که هر کدام یک نرمال سازی دسته ای و ReLU، به جز آخرین لایه، دنبال می شود. توصیفگرهای خروجی نرمال شده L2 هستند و بعد آن 128 است. ما توصیفگرهای خروجی را با D نشان میدهیم. در حالی که ما این ساختار شبکه مؤثر را مشابه بسیاری از ماژولهای استخراج توصیفگر اخیر اتخاذ میکنیم، اما از یک تابع ضرر متفاوتی استفاده میکنیم که در ادامه مورد بحث قرار میگیرد.
تابع ضرر
یک آشکارساز نقطه کلیدی، مکان، جهت و مقیاس نقاط کلیدی را پیش بینی می کند. بنابراین، تابع ضرر آن شامل از ضرر نقطه و ازضرر پچ است. پس از انتخاب نقاط کلیدی، توصیفگر وصله از مؤلفه تشخیص مستقل می شود. از این رو، برای آموزش آن از تابع ضرردیگری استفاده می کنیم.
از دست دادن امتیاز. در این مسئله تطبیق ویژگی، چون مشخص نیست که کدام نقاط مهم هستند، نمیتوانیم نقشههای امتیازground truth را از طریق برچسبگذاری انسانی تولید کنیم. آشکارسازهای خوب باید بتوانند نقاط مورد علاقه مربوطه را هنگامی که تصویر دچار دگرگونی می شود، پیدا کنند. یک روش ساده این است که اجازه دهید دو نقشه امتیاز Si و Sj (به ترتیب از تصاویر Ii و Ij تولید شده اند) امتیاز یکسانی در مکان های مربوطه داشته باشند. یک رویکرد ساده برای اجرای این ایده، به حداقل رساندن میانگین مربعات تلفات (MSE) بین مکانهای مربوطه در Si و Sj است. با این حال، معلوم شد که این رویکرد در آزمایشهای ما چندان مؤثر نبود.