مقاله ساختار از حرکت Structure-from-Motion
می 21, 2022شبکه عمیق L2NET
ژوئن 18, 2022مقاله
این مقاله یک چارچوب خود نظارتی برای آموزش آشکارسازهای و توصیفگرهای نقطه کلیدی مناسب برای تعداد زیادی از مسائل هندسی چند دیدگاهی در بینایی کامپیوتر ارائه میکند. برخلاف شبکههای عصبی مبتنی برپچ، مدل کاملاً کانولوشنال ما بر روی تصاویر با اندازه کامل عمل میکند و به طور مشترک مکان نقاط کلیدی را در سطح پیکسل و توصیفگرهای مرتبط به آنها را در یک گذر رو به جلو محاسبه میکند. ما انطباق هوموگرافیک را معرفی میکنیم، یک رویکرد چند هموگرافی چند مقیاسی برای تقویت تکرارپذیری تشخیص نقطه کلیدی و انجام انطباق بین دامنهای (به عنوان مثال، مصنوعی به واقعی). مدل ما، زمانی که بر روی مجموعه دادههای تصویر عمومی MS-COCO با استفاده از تطبیق هوموگرافیک آموزش داده میشود، میتواند به طور مکرر مجموعه بسیار غنیتری از نقاط کلیدی را نسبت به مدل عمقی اولیه از پیش اقتباس شده و هر آشکارساز گوشهای سنتی تشخیص دهد. در مقایسه با LIFT، SIFT و ORB، سیستم نهایی منجر به نتایج بهروزتری تخمین هوموگرافی در HPatches میشود.
- معرفی
اولین قدم درکارهای بینایی کامپیوتری هندسی مانند مکان یابی و نقشه برداری همزمان (SLAM)، ساختار از حرکت (SfM)، کالیبراسیون دوربین و تطبیق تصویر، استخراج نقاط کلیدی از تصاویر است. نقاط کلیدی مکان های دوبعدی در یک تصویر هستند که در شرایط نوری و دیدگاه های مختلف پایدار و قابل تکرار هستند. زیرشاخه ریاضیات و بینایی کامپیوتر که به هندسه چند نمایی [9] معروف است از قضایا و الگوریتم هایی تشکیل شده است که بر این فرض ساخته شده اند که نقاط کلیدی را می توان به طور قابل اعتماد استخراج کرد و بین تصاویر مطابقت داد. در دنیا واقعی ورودیهای بیشتر سیستمهای بینایی کامپیوتری دنیای، تصاویر خام هستند، نه مکانهای نقاط کلیدی.
نشان داده شده است که شبکههای عصبی کانولوشن نسبت به بازنمایی های مهندسی شده دستی در تقریباً تمام وظایفی که به تصاویر به عنوان ورودی نیاز دارند، برتری دارند. به طور خاص، شبکههای عصبی کاملاً کانولوشنی که «نقاط کلیدی» یا «نقاط برجسته» دوبعدی را پیشبینی میکنند، برای کارهای مختلفی مانند تخمین وضعیت انسان [31]، تشخیص شی [14] و تخمین چیدمان اتاق [12] به خوبی مطالعه شدهاند. نشان داده شده است که شبکههای عصبی کانولوشن نسبت به بازنمایی های مهندسی شده دستی در تقریباً تمام وظایفی که به تصاویر به عنوان ورودی نیاز دارند، برتری دارند. به طور خاص، شبکههای عصبی کاملاً کانولوشنی که «نقاط کلیدی» یا «نقاط برجسته» دوبعدی را پیشبینی میکنند، برای کارهای مختلفی مانند تخمین وضعیت انسان [31]، تشخیص شی [14] و تخمین چیدمان اتاق [12] به خوبی مطالعه شدهاند. در قلب این تکنیک ها مجموعه داده بزرگی از 2D ground truth locations که توسط حاشیه نویسان انسانی برچسب گذاری شده اند.
به نظر می رسد طبیعی است که به طور مشابه تشخیص نقطه کلیدی را به عنوان یک مسئله یادگیری ماشین تحت نظارت در مقیاس بزرگ فرموله کنیم و آخرین معماری شبکه عصبی کانولوشنال را برای شناسایی آنها آموزش دهیم. متأسفانه، در مقایسه با کارهای معنایی مانند تخمین نقطه کلیدی بدن انسان، که در آن شبکه ای برای تشخیص اجزای بدن مانند گوشه دهان یا مچ پای چپ آموزش دیده است، مفهوم تشخیص نقطه کلیدی از نظر معنایی بد تعریف شده است. بنابراین آموزش شبکههای عصبی کانولوشن با نظارت قوی برای نقاط کلیدی بی اهمیت نیست.
به جای استفاده از نظارت انسانی برای تعریف نقاط کلیدی در تصاویر واقعی، ما راه حلی با نظارت شخصی با استفاده از خودآموزی ارائه می دهیم. در رویکرد خود، ما یک مجموعه داده بزرگ از مکانهای نقطه کلیدی pseudo-ground truth را در تصاویر واقعی ایجاد میکنیم که توسط خود آشکارساز نقطه علاقه نظارت میشود، به جای تلاش برای حاشیهنویسی در مقیاس انسانی.
برای تولید نقاط کلیدی pseudo-ground truth، ابتدا یک شبکه عصبی کاملاً کانولوشنال را بر روی میلیونها نمونه از مجموعه داده ترکیبی که ایجاد کردیم به نام اشکال ترکیبی آموزش میدهیم (شکل 2a را ببینید). مجموعه داده ترکیبی شامل اشکال هندسی ساده بدون ابهام در مکانهای نقطه کلیدی است.ما آشکارساز آموزشدیده حاصل را MagicPoint مینامیم – این آشکارساز به طور قابلتوجهی از آشکارسازهای نقطه علاقه سنتی در مجموعه داده مصنوعی بهتر عمل میکند (به بخش 4 مراجعه کنید). MagicPoint علیرغم مشکلات تطبیق دامنه، عملکرد شگفتآوری بر روی تصاویر واقعی دارد [7]. با این حال، هنگامی که با آشکارسازهای نقطه کلیدی کلاسیک در مجموعه متنوعی از بافت ها و الگوهای تصویر مقایسه می شود، MagicPoint بسیاری از مکان های بالقوه نقاط مورد کلیدی را از دست می دهد. برای پر کردن این شکاف در عملکرد بر روی تصاویر واقعی، ما یک تکنیک چند مقیاسی و چند تبدیلی ایجاد کردیم – انطباق هموگرافیک.
تطبیق هوموگرافیک برای فعال کردن آموزش خود نظارت آشکارسازهای نقطه کلیدی طراحی شده است. تصویر ورودی را چندین بار می چرخاند تا به آشکارساز نقطه کلیدی کمک کند تا صحنه را از دیدگاه ها و مقیاس های مختلف ببیند (به بخش 5 مراجعه کنید). ما از تطبیق هوموگرافیک در ارتباط با آشکارساز MagicPoint برای افزایش عملکرد آشکارساز و ایجاد نقاط کلیدی به pseudo-ground truth استفاده می کنیم (شکل 2b را ببینید). تشخیصهای حاصل تکرارپذیرتر هستند و روی مجموعه بزرگتری خوب عمل می کنند . بنابراین آشکارساز حاصل را SuperPoint نامیدیم
متداولترین مرحله پس از شناسایی نقاط کلیدی قوی و قابل تکرار، پیوست کردن یک بردار توصیفگر ابعاد ثابت به هر نقطه برای کارهای معنایی سطح بالاتر، به عنوان مثال، تطبیق تصویر است. بنابراین ما در نهایت SuperPoint را با یک زیرشبکه توصیفگر ترکیب می کنیم (شکل 2c را ببینید). از آنجایی که معماری SuperPoint شامل یک پشته عمیق از لایههای کانولوشن است که ویژگیهای چند مقیاسی را استخراج میکند، پس از آن ترکیب کردن شبکه نقطه کلیدی با یک زیرشبکه اضافی که توصیفگرهای نقطه بهره را محاسبه میکند، ساده است (به بخش 3 مراجعه کنید). سیستم به دست آمده در شکل 1 نشان داده شده است
معماری سوپرپوینت
ما یک معماری شبکه عصبی کاملاً کانولوشنال به نام SuperPoint طراحی کردیم که روی یک تصویر با اندازه کامل عمل میکند و تشخیص نقاط کلیدی همراه با توصیفگرهای طول ثابت را در یک گذر به جلو تولید میکند (شکل 3 را ببینید). این مدل دارای یک رمزگذار واحد مشترک برای پردازش و کاهش ابعاد تصویر ورودی است. پس از رمزگذار، معماری به دو “سر” رمزگشا تقسیم می شود، که وزن های خاص کار را یاد می گیرند – یکی برای تشخیص نقطه کلیدی و دیگری برای توصیف نقطه کلیدی. بیشتر پارامترهای شبکه بین دو کار مشترک است، که یک فرق از سیستمهای سنتی است که ابتدا نقاط علاقه را تشخیص میدهند، سپس توصیفگرها را محاسبه میکنند و توانایی اشتراکگذاری محاسبات وبازنمایی در بین دو وظیفه را ندارند.
. رمزگذار مشترک
معماری SuperPoint ما از یک رمزگذار به سبک VGG [27] استفاده می کند تا ابعاد تصویر را کاهش دهد. رمزگذار از لایه های کانولوشن، نمونه برداری فضایی از طریق ادغام و توابع فعال سازی غیر خطی تشکیل شده است. رمزگذار ما از سه لایه max-pooling استفاده میکند که به ما اجازه میدهد Hc = H/8 و Wc = W/8 را برای یک تصویر با اندازه H× W تعریف کنیم. ما به پیکسلهای خروجی با ابعاد پایینتر به عنوان سلولها اشاره میکنیم، که در آن سه عملیات ادغام حداکثر 2×2 غیر همپوشانی در رمزگذار منجر به سلولهای 8×8 پیکسل میشود.