مقاله

مقاله ساختار از حرکت Structure-from-Motion
می 21, 2022
شبکه عمیق L2NET
ژوئن 18, 2022

مقاله

این مقاله یک چارچوب خود نظارتی برای آموزش آشکارسازهای و توصیفگرهای نقطه کلیدی مناسب برای تعداد زیادی از مسائل هندسی چند دیدگاهی در بینایی کامپیوتر ارائه می‌کند. برخلاف شبکه‌های عصبی مبتنی برپچ، مدل کاملاً کانولوشنال ما بر روی تصاویر با اندازه کامل عمل می‌کند و به طور مشترک مکان‌ نقاط کلیدی را در سطح پیکسل و توصیفگرهای مرتبط به آنها را در یک گذر رو به جلو محاسبه می‌کند. ما انطباق هوموگرافیک را معرفی می‌کنیم، یک رویکرد چند هموگرافی چند مقیاسی برای تقویت تکرارپذیری تشخیص نقطه کلیدی و انجام انطباق بین دامنه‌ای (به عنوان مثال، مصنوعی به واقعی). مدل ما، زمانی که بر روی مجموعه داده‌های تصویر عمومی MS-COCO با استفاده از تطبیق هوموگرافیک آموزش داده می‌شود، می‌تواند به طور مکرر مجموعه بسیار غنی‌تری از نقاط کلیدی را نسبت به مدل عمقی اولیه از پیش اقتباس شده و هر آشکارساز گوشه‌ای سنتی تشخیص دهد. در مقایسه با LIFT، SIFT و ORB، سیستم نهایی منجر به نتایج به‌روزتری تخمین هوموگرافی در HPatches می‌شود.

  1. معرفی
    اولین قدم درکارهای بینایی کامپیوتری هندسی مانند مکان یابی و نقشه برداری همزمان (SLAM)، ساختار از حرکت (SfM)، کالیبراسیون دوربین و تطبیق تصویر، استخراج نقاط کلیدی از تصاویر است. نقاط کلیدی مکان های دوبعدی در یک تصویر هستند که در شرایط نوری و دیدگاه های مختلف پایدار و قابل تکرار هستند. زیرشاخه ریاضیات و بینایی کامپیوتر که به هندسه چند نمایی [9] معروف است از قضایا و الگوریتم هایی تشکیل شده است که بر این فرض ساخته شده اند که نقاط کلیدی را می توان به طور قابل اعتماد استخراج کرد و بین تصاویر مطابقت داد. در دنیا واقعی ورودی‌های بیشتر سیستم‌های بینایی کامپیوتری دنیای، تصاویر خام هستند، نه مکان‌های نقاط کلیدی.

نشان داده شده است که شبکه‌های عصبی کانولوشن نسبت به بازنمایی های مهندسی شده دستی در تقریباً تمام وظایفی که به تصاویر به عنوان ورودی نیاز دارند، برتری دارند. به طور خاص، شبکه‌های عصبی کاملاً کانولوشنی که «نقاط کلیدی» یا «نقاط برجسته» دوبعدی را پیش‌بینی می‌کنند، برای کارهای مختلفی مانند تخمین وضعیت انسان [31]، تشخیص شی [14] و تخمین چیدمان اتاق [12] به خوبی مطالعه شده‌اند. نشان داده شده است که شبکه‌های عصبی کانولوشن نسبت به بازنمایی های مهندسی شده دستی در تقریباً تمام وظایفی که به تصاویر به عنوان ورودی نیاز دارند، برتری دارند. به طور خاص، شبکه‌های عصبی کاملاً کانولوشنی که «نقاط کلیدی» یا «نقاط برجسته» دوبعدی را پیش‌بینی می‌کنند، برای کارهای مختلفی مانند تخمین وضعیت انسان [31]، تشخیص شی [14] و تخمین چیدمان اتاق [12] به خوبی مطالعه شده‌اند. در قلب این تکنیک ها مجموعه داده بزرگی از 2D ground truth locations که توسط حاشیه نویسان انسانی برچسب گذاری شده اند.

به نظر می رسد طبیعی است که به طور مشابه تشخیص نقطه کلیدی را به عنوان یک مسئله یادگیری ماشین تحت نظارت در مقیاس بزرگ فرموله کنیم و آخرین معماری شبکه عصبی کانولوشنال را برای شناسایی آنها آموزش دهیم. متأسفانه، در مقایسه با کارهای معنایی مانند تخمین نقطه کلیدی بدن انسان، که در آن شبکه ای برای تشخیص اجزای بدن مانند گوشه دهان یا مچ پای چپ آموزش دیده است، مفهوم تشخیص نقطه کلیدی از نظر معنایی بد تعریف شده است. بنابراین آموزش شبکه‌های عصبی کانولوشن با نظارت قوی برای نقاط کلیدی بی اهمیت نیست.

به جای استفاده از نظارت انسانی برای تعریف نقاط کلیدی در تصاویر واقعی، ما راه حلی با نظارت شخصی با استفاده از خودآموزی ارائه می دهیم. در رویکرد خود، ما یک مجموعه داده بزرگ از مکان‌های نقطه کلیدی pseudo-ground truth را در تصاویر واقعی ایجاد می‌کنیم که توسط خود آشکارساز نقطه علاقه نظارت می‌شود، به جای تلاش برای حاشیه‌نویسی در مقیاس انسانی.

برای تولید نقاط کلیدی pseudo-ground truth، ابتدا یک شبکه عصبی کاملاً کانولوشنال را بر روی میلیون‌ها نمونه از مجموعه داده ترکیبی که ایجاد کردیم به نام اشکال ترکیبی آموزش می‌دهیم (شکل 2a را ببینید). مجموعه داده ترکیبی شامل اشکال هندسی ساده بدون ابهام در مکان‌های نقطه کلیدی است.ما آشکارساز آموزش‌دیده حاصل را MagicPoint می‌نامیم – این آشکارساز به طور قابل‌توجهی از آشکارسازهای نقطه علاقه سنتی در مجموعه داده مصنوعی بهتر عمل می‌کند (به بخش 4 مراجعه کنید). MagicPoint علیرغم مشکلات تطبیق دامنه، عملکرد شگفت‌آوری بر روی تصاویر واقعی دارد [7]. با این حال، هنگامی که با آشکارسازهای نقطه کلیدی کلاسیک در مجموعه متنوعی از بافت ها و الگوهای تصویر مقایسه می شود، MagicPoint بسیاری از مکان های بالقوه نقاط مورد کلیدی را از دست می دهد. برای پر کردن این شکاف در عملکرد بر روی تصاویر واقعی، ما یک تکنیک چند مقیاسی و چند تبدیلی ایجاد کردیم – انطباق هموگرافیک.

تطبیق هوموگرافیک برای فعال کردن آموزش خود نظارت آشکارسازهای نقطه کلیدی طراحی شده است. تصویر ورودی را چندین بار می چرخاند تا به آشکارساز نقطه کلیدی کمک کند تا صحنه را از دیدگاه ها و مقیاس های مختلف ببیند (به بخش 5 مراجعه کنید). ما از تطبیق هوموگرافیک در ارتباط با آشکارساز MagicPoint برای افزایش عملکرد آشکارساز و ایجاد نقاط کلیدی به pseudo-ground truth استفاده می کنیم (شکل 2b را ببینید). تشخیص‌های حاصل تکرارپذیرتر هستند و روی مجموعه بزرگ‌تری خوب عمل می کنند . بنابراین آشکارساز حاصل را SuperPoint نامیدیم

متداول‌ترین مرحله پس از شناسایی نقاط کلیدی قوی و قابل تکرار، پیوست کردن یک بردار توصیفگر ابعاد ثابت به هر نقطه برای کارهای معنایی سطح بالاتر، به عنوان مثال، تطبیق تصویر است. بنابراین ما در نهایت SuperPoint را با یک زیرشبکه توصیفگر ترکیب می کنیم (شکل 2c را ببینید). از آنجایی که معماری SuperPoint شامل یک پشته عمیق از لایه‌های کانولوشن است که ویژگی‌های چند مقیاسی را استخراج می‌کند، پس از آن ترکیب کردن شبکه نقطه کلیدی با یک زیرشبکه اضافی که توصیفگرهای نقطه بهره را محاسبه می‌کند، ساده است (به بخش 3 مراجعه کنید). سیستم به دست آمده در شکل 1 نشان داده شده است

معماری سوپرپوینت
ما یک معماری شبکه عصبی کاملاً کانولوشنال به نام SuperPoint طراحی کردیم که روی یک تصویر با اندازه کامل عمل می‌کند و تشخیص نقاط کلیدی همراه با توصیفگرهای طول ثابت را در یک گذر به جلو تولید می‌کند (شکل 3 را ببینید). این مدل دارای یک رمزگذار واحد مشترک برای پردازش و کاهش ابعاد تصویر ورودی است. پس از رمزگذار، معماری به دو “سر” رمزگشا تقسیم می شود، که وزن های خاص کار را یاد می گیرند – یکی برای تشخیص نقطه کلیدی و دیگری برای توصیف نقطه کلیدی. بیشتر پارامترهای شبکه بین دو کار مشترک است، که یک فرق از سیستم‌های سنتی است که ابتدا نقاط علاقه را تشخیص می‌دهند، سپس توصیفگرها را محاسبه می‌کنند و توانایی اشتراک‌گذاری محاسبات وبازنمایی در بین دو وظیفه را ندارند.

. رمزگذار مشترک
معماری SuperPoint ما از یک رمزگذار به سبک VGG [27] استفاده می کند تا ابعاد تصویر را کاهش دهد. رمزگذار از لایه های کانولوشن، نمونه برداری فضایی از طریق ادغام و توابع فعال سازی غیر خطی تشکیل شده است. رمزگذار ما از سه لایه max-pooling استفاده می‌کند که به ما اجازه می‌دهد Hc = H/8 و Wc = W/8 را برای یک تصویر با اندازه H× W تعریف کنیم. ما به پیکسل‌های خروجی با ابعاد پایین‌تر به عنوان سلول‌ها اشاره می‌کنیم، که در آن سه عملیات ادغام حداکثر 2×2 غیر همپوشانی در رمزگذار منجر به سلول‌های 8×8 پیکسل می‌شود.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *