loftr-شبکه عمیق LOFTR

سوال 140 انگلیسی دکتری 1400
آگوست 29, 2022
A case for using rotation invariant features in state of the art feature matcher
سپتامبر 3, 2022

loftr-شبکه عمیق LOFTR

تطبیق ویژگی های محلی بین تصاویر سنگ بنای بسیاری از کارهای بینایی کامپیوتری سه بعدی است، از جمله ساختار از حرکت (SfM)، محلی سازی و نقشه برداری همزمان (SLAM)، محلی سازی بصری، و غیره. در تطبیق تصویر با ید دو تصویر با هم مطابقت داده شوند. اکثر روش های تطبیق موجود دارای سه مرحله جداگانه هستند: تشخیص ویژگی، توصیف ویژگی و تطبیق ویژگی.

در مرحله تشخیص، نقاط برجسته مانند گوشه ها ابتدا به عنوان نقاط کلیدی از هر تصویر شناسایی می شوند. سپس توصیفگرهای محلی در اطراف مناطق همسایگی این نقاط کلیدی استخراج می شوند. مراحل تشخیص و توصیف ویژگی، دو مجموعه از نقاط مورد علاقه را با توصیفگرها تولید می کنند، که تطابق نقطه به نقطه آنها بعداً توسط جستجوی نزدیکترین همسایه یا الگوریتم های تطبیق پیچیده تر یافت می شود.

استفاده از آشکارساز ویژگی فضای جستجوی تطبیق را کاهش می‌دهد و ارتباطات پراکنده به دست آمده برای اکثر کارها، به عنوان مثال، تخمین موقعیت دوربین کافی است. با این حال، یک آشکارساز ویژگی ممکن است به دلیل عوامل مختلفی مانند بافت ضعیف، الگوهای تکراری، تغییر دیدگاه، تغییر نور و تاری حرکت نتواند نقاط کلیدی کافی را که بین تصاویر قابل تکرار هستند استخراج کند.این موضوع به ویژه در محیط های داخلی که مناطق کم بافت یا الگوهای تکراری اغلب مناطق میدان دید را اشغال می کنند برجسته است. شکل 1 یک مثال را نشان می دهد. بدون نقاط کلیدی قابل تکرار، یافتن مطابقتهای صحیح حتی با توصیفگرهای کامل غیرممکن است.

چندین کار اخیر [34، 33، 19] تلاش کرده اند این مشکل را با ایجاد تطابق متراکم پیکسلی برطرف کنند. تطابقات با امتیاز اطمینان بالا را می توان از تطابقات متراکم انتخاب کرد و بنابراین از تشخیص ویژگی جلوگیری کرد. با این حال، ویژگی‌های متراکم استخراج‌شده توسط شبکه‌های عصبی کانولوشنال (CNN) در این آثار، میدان دریافت محدودی دارند که ممکن است مناطق نامشخص را تشخیص ندهد.

در عوض، انسان ها در این مناطق نامشخص ارتباطاتی را نه تنها بر اساس همسایگی محلی، بلکه با یک محتوا کلی بزرگتر پیدا می کنند. به عنوان مثال، مناطق کم بافت در شکل 1 را می توان با توجه به موقعیت نسبی آنها نسبت به لبه ها متمایز کرد. این مشاهدات به ما می گوید که یک میدان پذیرنده بزرگ در شبکه استخراج ویژگی بسیار مهم است.

با مشاهدات بالا، ما تبدیل کننده ویژگی محلی (LoFTR) را پیشنهاد می کنیم، یک رویکرد جدید بدون آشکارساز برای تطبیق ویژگی های محلی. با الهام از کار اصلی SuperGlue [37]، ما از Transformer [48] با لایه های self and cross attention برای پردازش (تبدیل) ویژگی های متراکم محلی استخراج شده از ستون فقرات کانولوشنال استفاده می کنیم. تطبیق های متراکم ابتدا بین دو مجموعه از ویژگی های تبدیل شده با وضوح ویژگی پایین (1/8 بعد تصویر) استخراج می شوند.

تطبیقات با اطمینان بالا از این تطبیقات متراکم انتخاب می شوند و بعداً با رویکرد مبتنی بر همبستگی به سطح زیرپیکسلی اصلاح می شوند.میدان دریافتی کلی و رمزگذاری موقعیتی ترانسفورماتور، بازنمایی ویژگی تبدیل‌شده را قادر می‌سازد تا به محتوا و موقعیت وابسته باشند.LoFTR با چندین بار در هم تنیدن لایه‌های self and cross attention، اولویت‌های تطبیق با توافق-کلی را که به طور متراکم مرتب شده‌اند، نشان‌داده شده درتطبیق های حقیقی را می‌آموزد. یک ترانسفورماتور خطی نیز برای کاهش پیچیدگی محاسباتی به سطح قابل مدیریتی اتخاذ شده است.

ما روش پیشنهادی را بر روی چندین تطبیق تصویر و کارهای تخمین موقعیت دوربین با مجموعه داده‌های داخلی و خارجی ارزیابی می‌کنیم. آزمایش‌ها نشان می‌دهند که LoFTR out ویژگی‌های مبتنی بر آشکارساز و بدون آشکارساز را با اختلاف خوبی مطابقت می‌دهد. LoFTR همچنین به عملکرد پیشرفته ای دست می یابد و در بین روش های منتشر شده در دو معیار عمومی محلی سازی بصری رتبه اول را دارد. در مقایسه با روش‌های پایه مبتنی بر آشکارساز، LoFTR می‌تواند حتی در مناطق نامشخص با بافت‌های کم، تاری حرکت یا الگوهای تکراری، مطابقت با کیفیت بالا تولید کند.

کارهای مرتبط

تطبیق ویژگی محلی مبتنی بر آشکارساز.
روش‌های مبتنی بر آشکارساز رویکرد غالب برای تطبیق ویژگی‌های محلی بوده‌اند. قبل از عصر یادگیری عمیق، بسیاری از آثار مشهور در ویژگی های محلی سنتی دست ساز اجراهای خوبی به دست آورده اند. SIFT [26] و ORB [35] مسلماً موفق‌ترین ویژگی‌های محلی هستند که با دست ساخته شده‌اند و به طور گسترده در بسیاری از وظایف بینایی رایانه سه بعدی استفاده می‌شوند. عملکرد درتغییر دیدگاه زیاد و تغییرات روشنایی ویژگی های محلی را می توان به طور قابل توجهی با روش های مبتنی بر یادگیری بهبود بخشید. قابل ذکر است، LIFT [51] و MagicPoint [8] از اولین ویژگی های محلی موفق مبتنی بر یادگیری هستند. آنها طراحی مبتنی بر آشکارساز را در روش های دست ساز اتخاذ می کنند و به عملکرد خوبی دست می یابند. SuperPoint [9] مبتنی بر MagicPoint است و یک روش آموزشی تحت خود نظارت را از طریق تطبیق هوموگرافیک پیشنهاد می کند. بسیاری از ویژگی های محلی مبتنی بر یادگیری در امتداد این خط [32، 11، 25، 28، 47] نیز طراحی مبتنی بر آشکارساز را اتخاذ می کنند.

ویژگی های محلی فوق الذکر از جستجوی نزدیکترین همسایه برای یافتن موارد منطبق بین نقاط علاقه استخراج شده استفاده می کنند. اخیرا، SuperGlue [37] یک رویکرد مبتنی بر یادگیری را برای تطبیق ویژگی های محلی پیشنهاد کرده است. SuperGlue دو مجموعه از نقاط علاقه را با توصیفگرهای آنها به عنوان ورودی می پذیرد و مطابقت آنها را با یک شبکه عصبی گراف (GNN) که یک شکل کلی از ترانسفورماتورها است، یاد می گیرد [16].

از آنجایی که مقدمات تطبیق ویژگی ها را می توان با رویکرد داده محور آموخت، SuperGlue به عملکرد چشمگیری دست می یابد وحالت جدیدی را در تطبیق ویژگی های محلی ایجاد می کند. با این حال، به عنوان یک روش وابسته به آشکارساز، این اشکال اساسی را دارد که قادر به تشخیص نقاط علاقه تکرارپذیر در مناطق غیر مشخص نیست. attention range در SuperGlue نیز فقط به نقاط کلیدی شناسایی شده محدود است. کار ما از SuperGlue از نظر استفاده از self and cross attention در GNN برای ارسال پیام بین دو مجموعه توصیفگر الهام گرفته شده است، اما ما یک طراحی بدون آشکارساز را برای جلوگیری از اشکالات آشکارسازهای ویژگی پیشنهاد می کنیم. ما همچنین از یک نوع کارآمد از لایه هایattention در Transformer برای کاهش هزینه های محاسباتی استفاده می کنیم.

تطبیق ویژگی محلی بدون آشکارساز.
روش‌های بدون آشکارساز فاز آشکارساز ویژگی را حذف می‌کنند و مستقیماً توصیفگرهای متراکم یا تطابق ویژگی‌های متراکم تولید می‌کنند. ایده تطبیق ویژگی های متراکم به SIFT Flow [23] برمی گردد. [6، 39] اولین رویکردهای مبتنی بر یادگیری برای یادگیری توصیفگرهای ویژگی پیکسلی با از دست دادن کنتراست هستند. مشابه روش‌های مبتنی بر آشکارساز، جستجوی نزدیک‌ترین همسایه معمولاً به عنوان یک مرحله پس از پردازش برای مطابقت با توصیفگرهای متراکم استفاده می‌شود. NCNet [34] یک رویکرد متفاوت را با یادگیری مستقیم متناظرهای متراکم به روشی انتها به انتها پیشنهاد کرد. حجم‌های هزینه چهاربعدی را برای برشمردن همه تطابق‌های ممکن بین تصاویر می‌سازد و از کانولوشن های چهار بعدی برای منظم کردن حجم هزینه و اجرای اجماع همسایگی در بین همه تطبیق ها استفاده می‌کند.Sparse NCNet [33] NCNet را بهبود می بخشد و آن را با کانولوشن های پراکنده کارآمدتر می کند. همزمان با کار ما، DRC-Net [19] این خط کار را دنبال می کند و یک رویکرد درشت به ریز برای تولید تطبیق های متراکم با دقت بالاتر پیشنهاد می کند. اگر چه تمام تطابقات ممکن در حجم هزینه 4 بعدی در نظر گرفته شده است، میدان پذیرایی کانولوشن 4 بعدی هنوز به منطقه همسایگی هر تطبیق محدود است. جدای از اجماع همسایگی، کار ما بر روی دستیابی به اجماع کلی بین تطبیق ها با کمک میدان پذیرای کلی در Transformers متمرکز است که در NCNet و کارهای بعدی آن مورد استفاده قرار نمی‌گیرد. [24] یک مسیر تطبیق متراکم برای SfM با ویدئوهای آندوسکوپی پیشنهاد می کند. خط تحقیق اخیر [46، 45، 44، 15] که بر پل زدن کار تطبیق ویژگی های محلی و تخمین جریان نوری تمرکز دارد، نیز به کار ما مرتبط است.

ترانسفورماتورها در وظایف مرتبط با بینایی.
ترانسفورماتور [48] به دلیل سادگی و کارایی محاسباتی، به استاندارد واقعی برای مدل‌سازی توالی در پردازش زبان طبیعی (NLP) تبدیل شده است. اخیراً، ترانسفورماتورها همچنین در وظایف بینایی رایانه، مانند طبقه بندی تصویر [10]، تشخیص اشیا [3] و تقسیم بندی معنایی [49] توجه بیشتری را به خود جلب کرده اند. همزمان با کار ما، [20] پیشنهاد می کند که از Transformer برای تخمین نابرابری استفاده شود.هزینه محاسباتی ترانسفورماتور وانیلیا به دلیل ضرب بین بردارهای پرس و جو و کلید، با طول توالی های ورودی به صورت درجه دوم افزایش می یابد. بسیاری از انواع کارآمد [42، 18، 17، 5] اخیراً در زمینه پردازش توالی های طولانی زبان پیشنهاد شده اند. از آنجایی که هیچ فرضی در مورد داده های ورودی در این آثار وجود ندارد، آنها برای پردازش تصاویر نیز مناسب هستند.

  1. روش ها
    با توجه به جفت تصویر IA و IB، روش‌های تطبیق ویژگی محلی موجود از یک آشکارساز ویژگی برای استخراج نقاط علاقه استفاده می‌کنند. ما پیشنهاد می‌کنیم که مشکل تکرارپذیری آشکارسازهای ویژگی را با طراحی بدون آشکارساز حل کنیم. یک نمای کلی از روش پیشنهادی LoFTR در شکل 2 ارائه شده است.

3.1. استخراج ویژگی های محلی
ما از یک معماری کانولوشنال استاندارد با FPN [22] (که CNN ویژگی محلی مشخص می شود) برای استخراج ویژگی های چند سطحی از هر دو تصویر استفاده می کنیم. ما از F˜A و F˜B برای نشان دادن ویژگی‌های coarse-level در 1/8 بعد تصویر اصلی و FˆA و FˆB ویژگی‌های fine-level در 1/2 بعد تصویر اصلی استفاده می‌کنیم.

شبکه‌های عصبی کانولوشنال (CNN) دارای بایاس محلی و translation equivariance هستند که برای استخراج ویژگی محلی مناسب هستند. downsampling ارائه شده توسط CNN همچنین طول ورودی ماژول LoFTR را کاهش می دهد، که برای اطمینان از هزینه محاسباتی قابل مدیریت بسیار مهم است.

3.2. ماژول ترانسفورماتور ویژگی محلی (LoFTR).
پس از استخراج ویژگی محلی، F˜A و F˜B از طریق ماژول LoFTR برای استخراج ویژگی‌های محلی وابسته به موقعیت و محتوا منتقل می‌شوند. به طور شهودی، ماژول LoFTR ویژگی‌ها را به بازنمایی ویژگی‌هایی تبدیل می‌کند که تطبیق آنها آسان است. ویژگی های تبدیل شده را به صورت F˜A tr و F˜B tr نشان می دهیم.

مقدمات: مبدل [48]. ابتدا ترانسفورماتور را در اینجا به عنوان پس زمینه به طور خلاصه معرفی می کنیم. یک رمزگذار ترانسفورماتور از لایه‌های رمزگذار متصل به ترتیب تشکیل شده است. شکل 3(a) معماری یک لایه رمزگذار را نشان می دهد.

عنصر کلیدی در لایه رمزگذار، لایهattention است. بردارهای ورودی برای یک لایه attentionمعمولاً query، key و value نامیده می شوند. مشابه بازیابی اطلاعات، بردار پرس و جو Q اطلاعات را از بردار مقدار V با توجه به وزن attention محاسبه شده از حاصل ضرب نقطه ای Q و بردار کلید K مربوط به هر مقدار V بازیابی می کند. گراف محاسباتی لایه attention در شکل 3 (b) ارائه شده است. به طور رسمی، لایه attention به صورت زیر مشخص می شود:

Attention(Q, K, V ) = softmax(QKT

)V

به طور مستقیم، عملیات attention، اطلاعات مربوطه را با اندازه‌گیری شباهت بین عنصر پرس و جو و هر عنصر کلیدی انتخاب می‌کند. بردار خروجی مجموع بردارهای ارزش وزن دارشده با امتیازهای شباهت است. در نتیجه در صورت زیاد بودن شباهت، اطلاعات مربوطه از بردار مقدار استخراج می شود. به این فرآیند در شبکه عصبی گراف، «گذر پیام» نیز گفته می شود..

ترانسفورماتور خطی

با نشان دادن طول Q و K به عنوان N و بعد ویژگی آنها به عنوان D، حاصلضرب نقطه ای بین Q و K در ترانسفورماتور هزینه محاسباتی را معرفی می کند که به طور درجه دوم (O(N2)) با طول دنباله ورودی افزایش می یابد. استفاده مستقیم از نسخه وانیلیا Transformer در زمینه تطبیق ویژگی های محلی غیرعملی است حتی زمانی که طول ورودی توسط ویژگی محلی CNN کاهش یابد. برای رفع این مشکل، پیشنهاد می کنیم از یک نوع کارآمد از لایه attention وانیلیا در Transformer استفاده کنید

ترانسفورماتور خطی [17] پیشنهاد می کند که پیچیدگی محاسباتی ترانسفورماتور را با جایگزین کردن هسته نمایی استفاده شده در لایه attention اصلی با یک تابع هسته جایگزین sim(Q, K) =φ(Q) · φ(K) به O(N) کاهش دهد. T، جایی که φ(·) = elu(·) + 1. این عملیات توسط نمودار محاسباتی در شکل 3(c) نشان داده شده است. با استفاده از خاصیت انجمنی ماتریس، ابتدا می توان ضرب بین φ(K) T و V را انجام داد. از آنجایی که D ≪ N، هزینه محاسبات به O(N) کاهش می یابد.

رمزگذاری موقعیتی
ما از اکستنش 2 بعدی کدگذاری موقعیتی استاندارد در ترانسفورماتورها به دنبال DETR [3] استفاده می کنیم. متفاوت از DETR، فقط یک بار آنها را به خروجی backbone اضافه می کنیم. ما تعریف رسمی رمزگذاری موقعیتی را در مطالب تکمیلی می گوییم. به طور مستقیم، رمزگذاری موقعیتی به هر عنصر اطلاعات موقعیت منحصر به فرد در قالب سینوسی می دهد.

با افزودن رمزگذاری موقعیت به F˜A و F˜B، ویژگی‌های تبدیل‌شده به موقعیت وابسته می‌شوند، که برای توانایی LoFTR برای تولید تطبیقات در مناطق نامشخص بسیار مهم است. همانطور که در ردیف پایین شکل 4(c) نشان داده شده است، اگرچه رنگ RGB ورودی روی دیوارهای سفید همگن است، ویژگی های تبدیل شده F˜A tr و F˜B tr برای هر موقعیتی که با گرادیان های رنگی صاف نشان داده می شود، منحصر به فرد هستند. تجسم های بیشتر در شکل 6 ارائه شده است.

لایه هایSelf-attention and Cross-attention. برای لایه هایselfattention، ویژگی های ورودی fi و fj (نشان داده شده در شکل 3) یکسان هستند (یا F˜A یا F˜B). برای لایه هایcross-attention، ویژگی های ورودی fi و fj بسته به جهت crossattentionیا (F˜A و F˜B) یا (F˜B و F˜A) هستند. به دنبال [37]، لایه‌های self and cross attention را در ماژول LoFTR با بار Nc ترکیب می کنیم. وزنattention لایه های self and cross attention در LoFTR در دو ردیف اول شکل 4 (c) نشان داده شده است.

3.3. ایجاد تطبیقات در سطح درشت
دو نوع لایه تطبیقی قابل تمایز را می توان در LoFTR اعمال کرد، یا با یک لایه انتقال بهینه (OT) مانند [37] یا با یک عملگر دوگانه softmax [34، 47]. ماتریس امتیاز S بین ویژگی های تبدیل شده ابتدا با S (i، j) = 1 τ محاسبه می شود. hF˜A tr (i)، F˜B tr (j)i. هنگام تطبیق با OT، -S می تواند به عنوان ماتریس هزینه مسئله تخصیص جزئی مانند [37] استفاده شود.ما همچنین می‌توانیم softmax را روی هر دو بعد (که در ادامه به آن dual-softmax گفته می‌شود) S اعمال کنیم تا احتمال تطبیق نزدیکترین همسایه نرم را به دست آوریم. به طور رسمی، هنگام استفاده از dual-softmax، احتمال تطبیق Pc به دست می آید:

Pc(i, j) = softmax (S (i, ·))j
· softmax (S (·, j))i

انتخاب تطبیق
بر اساس ماتریس اطمینان Pc، ما تطبیق را با اطمینان بالاتر از آستانه θc انتخاب می‌کنیم و معیارهای نزدیک‌ترین همسایه متقابل (MNN) را اعمال می‌کنیم، که تطابق‌های درشت دور احتمالی را فیلتر می‌کند. پیش‌بینی‌های تطبیق در سطح درشت را به صورت زیر نشان می‌دهیم:

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *