شبکه RF- NET

تطبیق با یادگیری عمیق در تصاویر استریو
آوریل 19, 2023
شبکه ASLFEAT
آوریل 28, 2023

شبکه RF- NET

این مقاله شبکه تطبیق‌ آموزش‌پذیر انتها به انتها RF-Net را بر اساس میدان گیرنده، ، برای محاسبه ارتباطات پراکنده(تنک) بین تصاویر پیشنهاد می‌کند. ساخت چارچوب تطبیقی قابل آموزش انتها به انتها مطلوب و چالش برانگیز است. رویکرد اخیر، LF-Net، با موفقیت کل خط لوله استخراج ویژگی را در یک خط لوله قابل آموزش به طور مشترک تعبیه می کند و نتایج تطبیقی خوبی را ایجاد می کند. این مقاله دو تغییر در ساختار LF-Net معرفی می کند. اول، ما پیشنهاد می‌کنیم نقشه‌های ویژگی گیرنده بسازیم، که منجر به تشخیص مؤثرتر نقاط کلیدی می‌شود. دوم، برای تسهیل انتخاب پچ آموزشی، یک ترم تابع ضرر کلی، ماسک همسایگی را معرفی می‌کنیم. این منجر به بهبود ثبات در آموزش توصیفگر می شود. ما RF-Net را بر روی مجموعه داده HPatches آموزش دادیم و آن را با روش های دیگر در مجموعه داده های چندگانه مقایسه کردیم. آزمایش‌ها نشان می‌دهند که RF-Net از روش‌های قبلی موجود بهتر عمل می‌کند.

معرفی
برقراری ارتباط بین تصاویر نقش کلیدی در بسیاری از وظایف بینایی کامپیوتر ایفا می کند، از جمله تصاویر استریو با خط پایه گسترده، بازیابی تصویر، و تطبیق تصویر. یک خط لوله تطبیق مبتنی بر ویژگی معمولی از دو جزء تشکیل شده است: تشخیص نقاط کلیدی با خصوصیاتشان(مقیاس‌ها، جهت‌)، و استخراج توصیف‌گرها.بسیاری از روش های موجود بر روی ساخت/آموزش آشکارسازهای نقطه کلیدی یا توصیفگرهای ویژگی به صورت جداگانه تمرکز می کنند.با این حال، هنگام ادغام این مولفه‌های فرعی بهینه‌سازی شده در یک خط لوله تطبیق، ممکن است افزایش عملکرد هر بخش مستقیماً باعث بهبود عملکرد کلی نشود [29].آموزش مشترک آشکارسازها و توصیفگرها برای ایجاد همکاری بهینه با یکدیگر، مطلوبتر است. با این حال، آموزش چنین شبکه ای دشوار است زیرا دو جزء فرعی اهداف جداگانه خود را برای بهینه سازی دارند.

تعداد زیادی روش موفق تطبیق انتها به انتها در مقالات گزارش نشده است. LIFT [29] احتمالاً اولین طرح قابل توجه برای این هدف است. اما، LIFT برای شروع آموزش به خروجی آشکارساز SIFT متکی است و از این رو، آشکارساز آن مشابه آشکارساز SIFT رفتار می کند. شبکهSuperPoint [5]، به این آموزش پایان به پایان دست یافته است. اما آشکارساز آن باید روی مجموعه‌های تصویر مصنوعی از قبل آموزش داده شود و کل شبکه با استفاده از تصاویر با تبدیل‌های مصنوعی افاین آموزش داده می‌شود. LF-Net جدیدتر [18] از یادگیری تقویتی الهام گرفته شده است و از معماری سیامی برای آموزش کل شبکه بدون کمک هیچ روش دست ساز استفاده می کند. در این مقاله، ما یک شبکه تطبیق انتها به انتها با ماژول های آموزشی آشکارساز و توصیفگر پیشرفته ایجاد می کنیم که به شرح زیر توضیح می دهیم.

تشخیص نقطه کلیدی
ساختن نقشه های پاسخ راهی کلی برای یافتن نقاط کلیدی است. LIFT [29] نقشه های پاسخ را با به کار گیری مسقیم کانولوشن ها بر روی وضوح های مختلف تصویر ورودی به دست می آورد. SuperPoint [5] نقشه‌های پاسخ نمی‌سازد، اما تصویر ورودی را با استفاده از لایه‌های کانولوشن و max-pooling پردازش می‌کند تا یک تانسور میانی B تولید کند که عرض و ارتفاع آن فقط 1/8 ورودی است. بنابراین پاسخ در B یک ویژگی بسیار انتزاعی از تصویر ورودی را نشان می دهد و اندازه میدان گیرنده ویژگی بزرگتر از 8 پیکسل است. LF-Net از ResNet [9] برای تولید نقشه‌های ویژگی انتزاعی از تصویر ورودی استفاده می‌کند، سپس نقشه‌های پاسخ را با کانولوشن روی نقشه‌های انتزاعی ویژگی با وضوح‌های مختلف می‌سازد. بنابراین، پاسخ در هر نقشه دارای یک میدان بزرگ است. در این کار، ما نقشه‌های پاسخ را با استفاده از زمینه‌های دریافتی مربوطه می‌سازیم.در این کار، ما نقشه‌های پاسخ را با استفاده از میدان دریافتی مربوطه می‌سازیم. به طور خاص، ما کانولوشن را برای تولید نقشه‌های ویژگی مربوط به میدان دریافتی فزاینده اعمال می‌کنیم (شکل 1 (ب)).به عنوان مثال، با اعمال کانولوشن با اندازه هسته 3×3 و گام 1، میدان گیرنده به 3، 5، 7 و غیره افزایش می یابد. این طراحی نقشه های پاسخ موثرتری را برای تشخیص نقاط کلیدی تولید می کند.

توصیفگر ویژگی
توصیفگرهای آموزشی در یک شبکه انتها به انتها با آموزش شبکه های فردی بسیار متفاوت است. آموزش توصیفگر موجود (انفرادی) اغلب بر روی مجموعه داده های به خوبی آماده شده مانند مجموعه داده آکسفورد [15]، مجموعه داده UBC PhotoTour [28] و مجموعه داده HPatches [1] انجام می شود. در مقابل، در آموزش شبکه های end-to-end، پچ ها باید از ابتدا تولید شوند. در LF-Net، جفت‌های پچ با تبدیل پچهای اطراف نقاط کلیدی در تصویر II به تصویر Ij نمونه‌برداری می‌شوند. با این حال، نقص این استراتژی نمونه‌گیری ساده می‌تواند آموزش توصیفگر را تحت تأثیر قرار دهد.به طور خاص، دو نقطه کلیدی اولیه دوراز هم، پس از تبدیل ، می توانند بسیار به یکدیگر نزدیک شوند. در نتیجه، یک پچ منفی می تواند بسیار شبیه به یک پچ لنگر و یک پچ مثبت به نظر برسد.این باعث سردرگمی شبکه در طول آموزش می شود. این وضعیت باعث ابهام در برچسب زدن می شود و بر آموزش توصیفگر اثر می گذارد. ما برای غلبه بر این مشکل یک ترم تابع ضرر کلی به نام همسایه ماسک پیشنهاد می کنیم. ماسک همسایه را می توان هم در از تابع ضرر سه گانه و هم در انواع مختلف آن استفاده کرد. مشاهده می‌کنیم که عملکرد توصیفگر به شدت بر آموزش آشکارساز تأثیر می‌گذارد و توصیفگر قوی‌تر به آشکارساز کمک می‌کند تا بهتر یاد بگیرد.بنابراین، در هر تکرار آموزشی، دو بار توصیفگر و یک بار آشکارساز را آموزش می دهیم. برای نشان دادن اثربخشی رویکرد خود از طریق ارزیابی‌های جامع و منصفانه، ما RFNet خود را با روش‌های دیگر با سه پروتکل ارزیابی در دو مجموعه داده عمومی HPatches [1] و EF Dataset [34] مقایسه می‌کنیم. آزمایش‌های تطبیق نشان می‌دهد که RF-Net ما از روش‌های گذشته موجود بهتر عمل می‌کند.

سهم اصلی این مقاله در سه جنبه است. (1) ما یک آشکارساز جدید مبتنی بر میدان پذیرنده پیشنهاد می‌کنیم که فضای مقیاس و نقشه‌های پاسخ مؤثرتر را تولید می‌کند. (2) ما یک ترم تابع ضررکلی برای یادگیری توصیف‌گر پیشنهاد می‌کنیم که استحکام نمونه‌گیری پچ (patch sampling) را بهبود می‌بخشد. (3) RF-Net یکپارچه ما از آموزش موثر انتها به انتها پشتیبانی می کند، که منجر به عملکرد تطبیق بهتری نسبت به رویکردهای موجود می شود.

کارهای مرتبط
یک خط لوله تطبیق مبتنی بر ویژگی معمولی از دو جزء تشکیل شده است: تشخیص نقاط کلیدی با خصوصیات (مقیاس‌، جهت‌)، و استخراج توصیف‌گرها. بسیاری از روش های مبتنی بر یادگیری اخیر بر بهبود یکی از این ماژول ها تمرکز می کنند، مانند تشخیص ویژگی [22، 33، 19،26]، تخمین جهت [30] و نمایش توصیفگر [17، 24، 8]. نقص این رویکردها این است که افزایش عملکرد یک جزء بهبود یافته ممکن است مستقیماً با بهبود کل خط لوله مطابقت نداشته باشد [29، 23]. رویکردهای دست ساز مانند SIFT [14]، که احتمالاً شناخته شده ترین توصیفگر ویژگی محلی سنتی است. محدودیت بزرگ SIFT سرعت آن است. SURF [3] برای تقریب LoG از فیلتر جعبه استفاده می کند و به طور قابل توجهی سرعت تشخیص را افزایش می دهد. سایر ویژگی‌های محبوب دست ساز عبارتند از WADE [21]، Edge Foci [34]، گوشه‌یاب هریس [7] و همبستگی افاین [16]. بسیاری از آشکارسازهای موثر یادگیری ماشین نیز اخیرا پیشنهاد شده اند. FAST [19] و ORB [20] از روش یادگیری ماشین برای سرعت بخشیدن به فرآیند تشخیص گوشه استفاده می کنند. TILDE [26] از تصاویر از پیش تراز شده از یک صحنه در شرایط مختلف روشنایی یاد می گیرد. اگرچه TILDE با کمک SIFT آموزش می بیند، اما همچنان می تواند نقاط کلیدی از دست رفته توسط SIFT را شناسایی کند و در مجموعه داده های ارزیابی شده بهتر از SIFT عمل کند. شبکه چهارگانه [22] بدون نظارت با تابع ضرر “رتبه بندی” آموزش داده می شود. [32] این تابع ضرر «رتبه‌بندی» را با تابع ضرر «Peakedness» ترکیب می‌کند و آشکارساز تکرارپذیرتری تولید می‌کند. لنک و همکاران [13] پیشنهاد می کنند که آشکارساز ویژگی را مستقیماً از محدودیت کوواریانس آموزش دهد. ژانگ و همکاران [33] محدودیت کوواریانت را با تعریف مفاهیم “پچ استاندارد” و “ویژگی متعارف” گسترش می دهند. روش [30] می آموزد که جهت را برای بهبود تطبیق نقاط مشخصه تخمین بزند.

یادگیری توصیفگر تمرکز بسیاری از کارها برای تراز کردن تصویر در بینایی ماشین است:

DeepDesc [27] یک شبکه سیامی را به کار می گیرد ، MatchNet [6] و Deepcompare [31] برای یادگیری ماتریس فاصله غیرخطی برای تطبیق استفاده می کنند. مجموعه‌ای از کارهای اخیر، معماری‌هایی با مدل پیشرفته‌تر و فرمول‌های یادگیری عمیق متریک مبتنی بر سه‌گانه، از جمله UCN [4]، TFeat [2]، GLoss [12]، L2-Net [24]، HardNet [17] و He et را در نظر گرفته‌اند.. کارهای اخیر بر طراحی توابع ضرر بهتر تمرکز دارند، در حالی که همچنان از همان معماری شبکه ارائه شده در L2-Net [24] استفاده می کنند.

ساخت چارچوب های تطبیق انتها به انتها کمتر مورد بررسی قرار گرفته است:

LIFT [29] احتمالاً اولین تلاش برای ساخت چنین شبکه ای بود. این روش سه CNN (برای آشکارساز، برآوردگر جهت ، و توصیفگر) را از طریق عملیات متمایز ترکیب می کند. در حالی که هدف آن استخراج زیرمجموعه‌ای ازSfM-surviving از آشکارسازی های DoG است، آشکارساز و تخمین‌گر جهت‌ آن به جای کل تصویر با یک پچ تغذیه می‌شوند و از این رو، به صورت سرتاسر آموزش داده نمی‌شوند. SuperPoint [5] یک شبکه عصبی کاملاً کانولوشن را آموزش می دهد که از یک رمزگذار مشترک و دو رمزگشا جداگانه (به ترتیب برای تشخیص و توصیف ویژگی) تشکیل شده است. اشکال مصنوعی برای تولید تصاویر برای پیش‌آموزش آشکارساز، و تبدیل‌های هموگرافی مصنوعی برای تولید جفت‌های تصویر برای تنظیم دقیق آشکارساز استفاده می‌شوند. LF-Net [18] یک معماری عمیق جدید و یک استراتژی آموزشی برای یادگیری خط لوله ویژگی محلی از ابتدا ارائه می دهد. بر اساس ساختار شبکه سیامی، LF-Net در یک شاخه پیش بینی می کند و در شاخه دیگر ground truth را تولید می کند. این روش با تصویر با اندازه QVGA تغذیه می شود و نقشه های پاسخ چند مقیاسی را تولید می کند. سپس، نقشه‌های پاسخ را پردازش می‌کند تا سه نقشه متراکم را که به ترتیب نشان‌دهنده برجسته بودن، مقیاس و جهت‌ نقاط کلیدی هستند، تولید کند.

رویکرد
شبکه RF ما متشکل از یک آشکارساز به نام RF-Det است که بر اساس نقشه‌های ویژگی دریافتی است و یک استخراج‌کننده توصیفگر که معماری آن مشابه L2-Net [24] است، اما با یک تابع ضرر اصلاح‌شده. طراحی کل ساختار شبکه در شکل 2 نشان داده شده است. در طول آزمایش، شبکه آشکارساز RF-Det یک تصویر می گیرد و یک نقشه امتیاز S، یک نقشه جهت Θ، و یک نقشه مقیاس S¯ را خروجی می دهد. این سه نقشه به ترتیب مکان، جهت مقیاس نقاط کلیدی را تولید می کنند. وصله های برش داده شده از این نقشه ها به ماژول توصیفگر داده می شود تا بردارهای ویژگی با طول ثابت را برای تطبیق تولید کند.

3.1. ساخت نقشهای پاسخ فضای مقیاس
ساختن نقشه‌های پاسخ در فضای مقیاس، مبنایی برای تشخیص نقاط کلیدی است. نقشه‌های پاسخ را به صورت {hn} نشان می‌دهیم، که در آن 1 ≤ n ≤ N و N تعداد کل لایه است. LF-Net [18] از نقشه های ویژگی انتزاعی استخراج شده از ResNet [9] برای ساختن نقشه های پاسخ خود استفاده می کند. هر پاسخ در نقشه های ویژگی انتزاعی نشان دهنده یک ویژگی سطح بالا است که از یک منطقه بزرگ در تصویر استخراج شده است، در حالی که ویژگی های سطح پایین استخراج نمی شوند. بنابراین، هر نقشه در h n یک پاسخ در مقیاس بزرگ در فضای مقیاس است. ایده ما حفظ ویژگی‌های سطح بالا و سطح پایین در هنگام ساختن نقشه‌های پاسخ {h n} است و از برخی نقشه‌ها (مثلاً با شاخص کوچک‌تر) برای ارائه پاسخ در مقیاس کوچک و برخی دیگر (مثلاً با شاخص بزرگ‌تر) استفاده می‌کنیم. ) برای ارائه پاسخ در مقیاس بزرگ.

در پیاده‌سازی، N = 10 را تنظیم کردیم. و لایه‌های کانولوشنال سلسله مراتبی از شانزده هسته 3×3 تشکیل شده‌اند که به دنبال نرمال سازی نمونه [25] و فعال‌سازی‌های leaky ReLU می‌آیند. ما همچنین اتصال میانبر [9] را بین هر لایه اضافه می کنیم که میدان دریافتی را در نقشه های ویژگی تغییر نمی دهد و آموزش شبکه را آسان تر می کند. برای تولید نقشه های پاسخ چند مقیاسی h n، از یک هسته 1×1 و به دنبال آن یک نرمال سازی نمونه استفاده می کنیم. همه کانولوشن‌ها دارای لایه صفر هستند تا اندازه خروجی مشابه ورودی باشد.

3.2. تشخیص نقطه کلیدی
با پیروی از استراتژی رایج اتخاذ شده، پیکسل های با پاسخ بالا را به عنوان نقاط کلیدی انتخاب می کنیم. نقشه‌های پاسخ h n پاسخ پیکسل‌ها را در مقیاس‌های چندگانه نشان می‌دهند، بنابراین نقشه امتیاز نقاط کلیدی را از آن تولید می‌کنیم. سپس تشخیص نقطه کلید را مشابه LF-Net [18] طراحی می کنیم، با این تفاوت که نقشه های پاسخ ما h n توسط نقشه های ویژگی گیرنده ساخته می شوند.

به طور خاص، ما دو عملگر softmax را برای تولید نقشه امتیاز S به کار می گیریم. هدف اولین عملگر softmax تولید نقشه‌های پاسخ واضح‌تر hˆn است. اولین عملگر softmax بر روی یک پنجره 15×15×N روی h n با همان لایه صفر اعمال می شود. سپس تمام hˆn را در نقشه امتیاز نهایی S با عملگر دوم SOFtmaxn ادغام می کنیم.

تخمین جهت و مقیاس نیز بر اساس Prn تولید می شود. ما کانولوشن هایی را روی Mn با دو هسته 1 × 1 برای تولید نقشه های جهت چند مقیاسی {θn} اعمال می کنیم (شکل 1 (ب) را ببینید) که مقادیر آنها سینوس و کسینوس جهت را نشان می دهد. مقادیر برای محاسبه زاویه با استفاده از تابع آرکتانژانت استفاده می شوند. سپس همان مقدار را برای ادغام تمام θ n در نقشه جهت نهایی Θ، اعمال می کنیم توسط :

رای تولید نقشه مقیاس S¯، عملیات مشابه مورد استفاده در تخمین جهت را اعمال می کنیم:…

3.3. استخراج توصیفگر
ما ماژول استخراج توصیفگر را در شبکه به دنبال ساختاری مشابه L2-Net [24] توسعه می دهیم. این ساختار همچنین در سایر چارچوب‌های یادگیری توصیفگر اخیر مانند Hard-Net [17] و He et al. [8] وجود دارد. به طور خاص، این شبکه توصیفگر از هفت لایه کانولوشن تشکیل شده است که هر کدام یک نرمال سازی دسته ای و ReLU، به جز آخرین لایه، دنبال می شود. توصیفگرهای خروجی نرمال شده L2 هستند و بعد آن 128 است. ما توصیفگرهای خروجی را با D نشان می‌دهیم. در حالی که ما این ساختار شبکه مؤثر را مشابه بسیاری از ماژول‌های استخراج توصیفگر اخیر اتخاذ می‌کنیم، اما از یک تابع ضرر متفاوتی استفاده می‌کنیم که در ادامه مورد بحث قرار می‌گیرد.

تابع ضرر
یک آشکارساز نقطه کلیدی، مکان، جهت و مقیاس نقاط کلیدی را پیش بینی می کند. بنابراین، تابع ضرر آن شامل از ضرر نقطه و ازضرر پچ است. پس از انتخاب نقاط کلیدی، توصیفگر وصله از مؤلفه تشخیص مستقل می شود. از این رو، برای آموزش آن از تابع ضرردیگری استفاده می کنیم.

از دست دادن امتیاز. در این مسئله تطبیق ویژگی، چون مشخص نیست که کدام نقاط مهم هستند، نمی‌توانیم نقشه‌های امتیازground truth را از طریق برچسب‌گذاری انسانی تولید کنیم. آشکارسازهای خوب باید بتوانند نقاط مورد علاقه مربوطه را هنگامی که تصویر دچار دگرگونی می شود، پیدا کنند. یک روش ساده این است که اجازه دهید دو نقشه امتیاز Si و Sj (به ترتیب از تصاویر Ii و Ij تولید شده اند) امتیاز یکسانی در مکان های مربوطه داشته باشند. یک رویکرد ساده برای اجرای این ایده، به حداقل رساندن میانگین مربعات تلفات (MSE) بین مکان‌های مربوطه در Si و Sj است. با این حال، معلوم شد که این رویکرد در آزمایش‌های ما چندان مؤثر نبود.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *