توضیح مختصر شبکه تطبیق تصویر super point

شبکه عمیق Super Point
آگوست 15, 2022
شبکه عصبی نگاشت خودسازمانده
آگوست 26, 2022

توضیح مختصر شبکه تطبیق تصویر super point

سلام خوانندگان!! شاید قبلاً در مورد نقاط کلیدی در حوزه بینایی رایانه شنیده باشید. دو نوع نقطه کلیدی در بینایی کامپیوتر رایج است:

  • نقاط کلیدی معنایی نقاط مورد علاقه با معنای معنایی برای اشیاء موجود در یک تصویر، مانند گوشه چشم چپ صورت، شانه راست یک فرد یا توپی لاستیک جلو سمت چپ یک خودرو هستند.
  • نقاط کلیدی، نقاط سطح پایین تری هستند که ممکن است معنای معنایی واضحی نداشته باشند، مانند نقطه گوشه یا نقطه پایان یک پاره خط.

از آنجایی که نقاط کلیدی از نظر معنایی بد تعریف شده اند و بنابراین یک حاشیه نویس انسانی نمی تواند به طور قابل اعتماد و مکرر مجموعه ای از نقاط مورد علاقه را شناسایی کند.

بنابراین غیرممکن است که وظیفه تشخیص نقطه علاقه را به عنوان یک مسئله یادگیری نظارت شده فرموله کنیم.

کاربردهای سوپرپوینت:

  • تشخیص ویژگی
  • تشخیص ژست
  • ردیابی اشیا
  • تشخیص بیرونی
  • تشخیص اثر انگشت
  • رباتیک و واقعیت افزوده


بیایید کمی در مورد نقاط علاقه یاد بگیریم:

نقاط مورد علاقه، مکان‌های دوبعدی در یک تصویر هستند که در شرایط نوری و دیدگاه‌های مختلف پایدار و قابل تکرار هستند.

به جای استفاده از نظارت انسانی برای تعریف نقاط کلیدی در تصاویر واقعی، SuperPoint راه حلی با نظارت شخصی با استفاده از خودآموزی ارائه می دهد.

این کار از طریق ایجاد یک مجموعه داده بزرگ از مکان‌های نقاط کلیدی واقعی گراند تورث در تصاویر واقعی با استفاده از یک آشکارساز پایه به نام Magic Point انجام می‌شود.

آموزش سوپرپوینت شامل چندین مرحله است:

  • پیش آموزش نقطه کلیدی
  • خود برچسب گذاری نقطه کلیدی
  • آموزش مشترک

بیایید این مراحل را با جزئیات بررسی کنیم

پیش آموزش نقطه کلیدی


ما ابتدا مجموعه داده مصنوعی را تولید می کنیم که شامل اشکال هندسی ساده مانند ستاره های خطوط مکعبی و تخته شطرنجی با استفاده از کد ساده پایتون است.

در این تولید داده، تصاویر شکل هندسی را همراه با برچسب ها ایجاد می کنیم. با استفاده از این مجموعه داده، آشکارساز پایه را که MagicPoint نامیده می شود، آموزش خواهیم داد.

برای ایجاد نقاط کلیدی حقیقی گراند تورث، ابتدا یک شبکه عصبی کاملاً کانولوشنال را بر روی میلیون‌ها نمونه از مجموعه داده مصنوعی که ایجاد کردیم به نام اشکال مصنوعی آموزش می‌دهیم.

MagicPoint در اشکال مصنوعی به خوبی عمل می کند، اما در مقایسه با آشکارسازهای نقطه کلیدی کلاسیک در مجموعه متنوعی از بافت ها و الگوهای تصویر، روی تصاویر واقعی خیلی خوب تعمیم نمی یابد.

MagicPoint بسیاری از مکان‌های بالقوه مورد علاقه را از دست می‌دهد.

برای پر کردن این شکاف در عملکرد روی تصاویر واقعی، یک تکنیک چند مقیاسی و چند تبدیلی به نام تطبیق هوموگرافیک توسعه داده شد.

تطبیق هوموگرافیک همراه با آشکارساز MagicPoint برای افزایش عملکرد آشکارساز و ایجاد نقاط کلیدی گراند تورث ساختگی استفاده می شود.

تطبیق هوموگرافیک برای فعال کردن آموزش خود نظارت آشکارسازهای نقطه کلیدی طراحی شده است

در این فرآیند، تصویر ورودی را چندین بار با استفاده از هموگرافی تصادفی چرخش می‌دهیم و از آشکارساز magic point استفاده می‌کنیم تا نقاط کلیدی روی تصویرچرخش خورده را بدست آوریم.

هنگامی که نقاط کلیدی روی تصویرچرخش خورده را داشته باشیم، نقاط کلیدی را بدون چرخش می کنیم، به این ترتیب نقاط تصویر اصلی را دردیدگاه و مقیاس های مختلف بدست می آوریم.

خود برچسب گذاری نقطه کلیدی

هنگامی که مدل آموزش دیده MagicPoint را داشته باشیم، از این مدل برای ایجاد نقاط کلیدی گراند تورث ساختگی استفاده خواهیم کرد. در اینجا ما از فرآیند تطبیق هوموگرافیک همانطور که قبلاً صحبت کردیم استفاده خواهیم کرد.

همانطور که در اینجا بحث کردیم، نقاط کلیدی گراند تورث ساختگی را برای MSCOCO 2014 ایجاد خواهیم کرد.

این مجموعه داده تولید شده برای آموزش Magic Point استفاده خواهد شد.

ما این فرآیند را چندین بار انجام خواهیم داد.

معماری سوپرپوینت


معماری SuperPoint از یک رمزگذار به سبک VGG برای کاهش ابعاد تصویر استفاده می کند.

رمزگذار از لایه‌های کانولوشن، سمپلینگ مکانی از طریق پولینگ و توابع فعال‌سازی غیرخطی تشکیل شده است.

رمزگذار


این معماری دارای هشت لایه کانولوشن 3×3 با اندازه‌های 64–64–64–64–128–128– 128–128 است. برای هر دو لایه تبدیل، یک لایه max pool 2×2 وجود دارد.
تمام لایه‌های کانولوشن در شبکه با فعال‌سازی غیرخطی ReLU و نرمال سازی BatchNorm دنبال می‌شوند.

رمزگشای توصیفگر

سر توصیفگر D∈ Hc×Wc×D را محاسبه می کند و یک تانسور اندازه H×W×D را خروجی می دهد.

سپس رمزگشا tf.image.resize_bilinear از توصیفگر را انجام می دهد و سپس L2-normalize (tf.nn.l2_normalize) فعال سازی ها را به طول واحد انجام می دهد.

آموزش مشترک


آموزش مشترک آموزش سوپر پوینت با استفاده از مجموعه داده coco است.

آموزش مشترک بر روی 2 تصویر انجام می شود که با هموگرافی H به طور تصادفی ایجاد شده مرتبط هستند. این فرآیند آموزشی به ما امکان می دهد تا دو تابع هدف را به طور همزمان بهینه کنیم.

بسیاری از پارامترهای شبکه بین دو وظیفه مشترک هستند، متفاوت از سیستم‌های سنتی که ابتدا نقاط کلیدی را شناسایی می‌کنند، سپس توصیفگرها را محاسبه می‌کنند و توانایی اشتراک‌گذاری محاسبات و نمایش در بین دو وظیفه را ندارند.

نتایج


خطوط سبز مطابقت صحیح را نشان می دهد. SuperPoint در مقایسه با LIFT، SIFT و ORB تمایل به تولید منطبقات متراکم و صحیح تری دارد. در حالی که ORB بالاترین میانگین تکرارپذیری را دارد،آشکارسازی ها در کنار هم قرار می گیرند و به طور کلی به تطابق بیشتر یا تخمین های هموگرافی دقیق تر منجر نمی شوند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *