سوال 140 انگلیسی دکتری 1400
آگوست 29, 2022A case for using rotation invariant features in state of the art feature matcher
سپتامبر 3, 2022loftr-شبکه عمیق LOFTR
تطبیق ویژگی های محلی بین تصاویر سنگ بنای بسیاری از کارهای بینایی کامپیوتری سه بعدی است، از جمله ساختار از حرکت (SfM)، محلی سازی و نقشه برداری همزمان (SLAM)، محلی سازی بصری، و غیره. در تطبیق تصویر با ید دو تصویر با هم مطابقت داده شوند. اکثر روش های تطبیق موجود دارای سه مرحله جداگانه هستند: تشخیص ویژگی، توصیف ویژگی و تطبیق ویژگی.
در مرحله تشخیص، نقاط برجسته مانند گوشه ها ابتدا به عنوان نقاط کلیدی از هر تصویر شناسایی می شوند. سپس توصیفگرهای محلی در اطراف مناطق همسایگی این نقاط کلیدی استخراج می شوند. مراحل تشخیص و توصیف ویژگی، دو مجموعه از نقاط مورد علاقه را با توصیفگرها تولید می کنند، که تطابق نقطه به نقطه آنها بعداً توسط جستجوی نزدیکترین همسایه یا الگوریتم های تطبیق پیچیده تر یافت می شود.
استفاده از آشکارساز ویژگی فضای جستجوی تطبیق را کاهش میدهد و ارتباطات پراکنده به دست آمده برای اکثر کارها، به عنوان مثال، تخمین موقعیت دوربین کافی است. با این حال، یک آشکارساز ویژگی ممکن است به دلیل عوامل مختلفی مانند بافت ضعیف، الگوهای تکراری، تغییر دیدگاه، تغییر نور و تاری حرکت نتواند نقاط کلیدی کافی را که بین تصاویر قابل تکرار هستند استخراج کند.این موضوع به ویژه در محیط های داخلی که مناطق کم بافت یا الگوهای تکراری اغلب مناطق میدان دید را اشغال می کنند برجسته است. شکل 1 یک مثال را نشان می دهد. بدون نقاط کلیدی قابل تکرار، یافتن مطابقتهای صحیح حتی با توصیفگرهای کامل غیرممکن است.
چندین کار اخیر [34، 33، 19] تلاش کرده اند این مشکل را با ایجاد تطابق متراکم پیکسلی برطرف کنند. تطابقات با امتیاز اطمینان بالا را می توان از تطابقات متراکم انتخاب کرد و بنابراین از تشخیص ویژگی جلوگیری کرد. با این حال، ویژگیهای متراکم استخراجشده توسط شبکههای عصبی کانولوشنال (CNN) در این آثار، میدان دریافت محدودی دارند که ممکن است مناطق نامشخص را تشخیص ندهد.
در عوض، انسان ها در این مناطق نامشخص ارتباطاتی را نه تنها بر اساس همسایگی محلی، بلکه با یک محتوا کلی بزرگتر پیدا می کنند. به عنوان مثال، مناطق کم بافت در شکل 1 را می توان با توجه به موقعیت نسبی آنها نسبت به لبه ها متمایز کرد. این مشاهدات به ما می گوید که یک میدان پذیرنده بزرگ در شبکه استخراج ویژگی بسیار مهم است.
با مشاهدات بالا، ما تبدیل کننده ویژگی محلی (LoFTR) را پیشنهاد می کنیم، یک رویکرد جدید بدون آشکارساز برای تطبیق ویژگی های محلی. با الهام از کار اصلی SuperGlue [37]، ما از Transformer [48] با لایه های self and cross attention برای پردازش (تبدیل) ویژگی های متراکم محلی استخراج شده از ستون فقرات کانولوشنال استفاده می کنیم. تطبیق های متراکم ابتدا بین دو مجموعه از ویژگی های تبدیل شده با وضوح ویژگی پایین (1/8 بعد تصویر) استخراج می شوند.
تطبیقات با اطمینان بالا از این تطبیقات متراکم انتخاب می شوند و بعداً با رویکرد مبتنی بر همبستگی به سطح زیرپیکسلی اصلاح می شوند.میدان دریافتی کلی و رمزگذاری موقعیتی ترانسفورماتور، بازنمایی ویژگی تبدیلشده را قادر میسازد تا به محتوا و موقعیت وابسته باشند.LoFTR با چندین بار در هم تنیدن لایههای self and cross attention، اولویتهای تطبیق با توافق-کلی را که به طور متراکم مرتب شدهاند، نشانداده شده درتطبیق های حقیقی را میآموزد. یک ترانسفورماتور خطی نیز برای کاهش پیچیدگی محاسباتی به سطح قابل مدیریتی اتخاذ شده است.
ما روش پیشنهادی را بر روی چندین تطبیق تصویر و کارهای تخمین موقعیت دوربین با مجموعه دادههای داخلی و خارجی ارزیابی میکنیم. آزمایشها نشان میدهند که LoFTR out ویژگیهای مبتنی بر آشکارساز و بدون آشکارساز را با اختلاف خوبی مطابقت میدهد. LoFTR همچنین به عملکرد پیشرفته ای دست می یابد و در بین روش های منتشر شده در دو معیار عمومی محلی سازی بصری رتبه اول را دارد. در مقایسه با روشهای پایه مبتنی بر آشکارساز، LoFTR میتواند حتی در مناطق نامشخص با بافتهای کم، تاری حرکت یا الگوهای تکراری، مطابقت با کیفیت بالا تولید کند.
کارهای مرتبط
تطبیق ویژگی محلی مبتنی بر آشکارساز.
روشهای مبتنی بر آشکارساز رویکرد غالب برای تطبیق ویژگیهای محلی بودهاند. قبل از عصر یادگیری عمیق، بسیاری از آثار مشهور در ویژگی های محلی سنتی دست ساز اجراهای خوبی به دست آورده اند. SIFT [26] و ORB [35] مسلماً موفقترین ویژگیهای محلی هستند که با دست ساخته شدهاند و به طور گسترده در بسیاری از وظایف بینایی رایانه سه بعدی استفاده میشوند. عملکرد درتغییر دیدگاه زیاد و تغییرات روشنایی ویژگی های محلی را می توان به طور قابل توجهی با روش های مبتنی بر یادگیری بهبود بخشید. قابل ذکر است، LIFT [51] و MagicPoint [8] از اولین ویژگی های محلی موفق مبتنی بر یادگیری هستند. آنها طراحی مبتنی بر آشکارساز را در روش های دست ساز اتخاذ می کنند و به عملکرد خوبی دست می یابند. SuperPoint [9] مبتنی بر MagicPoint است و یک روش آموزشی تحت خود نظارت را از طریق تطبیق هوموگرافیک پیشنهاد می کند. بسیاری از ویژگی های محلی مبتنی بر یادگیری در امتداد این خط [32، 11، 25، 28، 47] نیز طراحی مبتنی بر آشکارساز را اتخاذ می کنند.
ویژگی های محلی فوق الذکر از جستجوی نزدیکترین همسایه برای یافتن موارد منطبق بین نقاط علاقه استخراج شده استفاده می کنند. اخیرا، SuperGlue [37] یک رویکرد مبتنی بر یادگیری را برای تطبیق ویژگی های محلی پیشنهاد کرده است. SuperGlue دو مجموعه از نقاط علاقه را با توصیفگرهای آنها به عنوان ورودی می پذیرد و مطابقت آنها را با یک شبکه عصبی گراف (GNN) که یک شکل کلی از ترانسفورماتورها است، یاد می گیرد [16].
از آنجایی که مقدمات تطبیق ویژگی ها را می توان با رویکرد داده محور آموخت، SuperGlue به عملکرد چشمگیری دست می یابد وحالت جدیدی را در تطبیق ویژگی های محلی ایجاد می کند. با این حال، به عنوان یک روش وابسته به آشکارساز، این اشکال اساسی را دارد که قادر به تشخیص نقاط علاقه تکرارپذیر در مناطق غیر مشخص نیست. attention range در SuperGlue نیز فقط به نقاط کلیدی شناسایی شده محدود است. کار ما از SuperGlue از نظر استفاده از self and cross attention در GNN برای ارسال پیام بین دو مجموعه توصیفگر الهام گرفته شده است، اما ما یک طراحی بدون آشکارساز را برای جلوگیری از اشکالات آشکارسازهای ویژگی پیشنهاد می کنیم. ما همچنین از یک نوع کارآمد از لایه هایattention در Transformer برای کاهش هزینه های محاسباتی استفاده می کنیم.
تطبیق ویژگی محلی بدون آشکارساز.
روشهای بدون آشکارساز فاز آشکارساز ویژگی را حذف میکنند و مستقیماً توصیفگرهای متراکم یا تطابق ویژگیهای متراکم تولید میکنند. ایده تطبیق ویژگی های متراکم به SIFT Flow [23] برمی گردد. [6، 39] اولین رویکردهای مبتنی بر یادگیری برای یادگیری توصیفگرهای ویژگی پیکسلی با از دست دادن کنتراست هستند. مشابه روشهای مبتنی بر آشکارساز، جستجوی نزدیکترین همسایه معمولاً به عنوان یک مرحله پس از پردازش برای مطابقت با توصیفگرهای متراکم استفاده میشود. NCNet [34] یک رویکرد متفاوت را با یادگیری مستقیم متناظرهای متراکم به روشی انتها به انتها پیشنهاد کرد. حجمهای هزینه چهاربعدی را برای برشمردن همه تطابقهای ممکن بین تصاویر میسازد و از کانولوشن های چهار بعدی برای منظم کردن حجم هزینه و اجرای اجماع همسایگی در بین همه تطبیق ها استفاده میکند.Sparse NCNet [33] NCNet را بهبود می بخشد و آن را با کانولوشن های پراکنده کارآمدتر می کند. همزمان با کار ما، DRC-Net [19] این خط کار را دنبال می کند و یک رویکرد درشت به ریز برای تولید تطبیق های متراکم با دقت بالاتر پیشنهاد می کند. اگر چه تمام تطابقات ممکن در حجم هزینه 4 بعدی در نظر گرفته شده است، میدان پذیرایی کانولوشن 4 بعدی هنوز به منطقه همسایگی هر تطبیق محدود است. جدای از اجماع همسایگی، کار ما بر روی دستیابی به اجماع کلی بین تطبیق ها با کمک میدان پذیرای کلی در Transformers متمرکز است که در NCNet و کارهای بعدی آن مورد استفاده قرار نمیگیرد. [24] یک مسیر تطبیق متراکم برای SfM با ویدئوهای آندوسکوپی پیشنهاد می کند. خط تحقیق اخیر [46، 45، 44، 15] که بر پل زدن کار تطبیق ویژگی های محلی و تخمین جریان نوری تمرکز دارد، نیز به کار ما مرتبط است.
ترانسفورماتورها در وظایف مرتبط با بینایی.
ترانسفورماتور [48] به دلیل سادگی و کارایی محاسباتی، به استاندارد واقعی برای مدلسازی توالی در پردازش زبان طبیعی (NLP) تبدیل شده است. اخیراً، ترانسفورماتورها همچنین در وظایف بینایی رایانه، مانند طبقه بندی تصویر [10]، تشخیص اشیا [3] و تقسیم بندی معنایی [49] توجه بیشتری را به خود جلب کرده اند. همزمان با کار ما، [20] پیشنهاد می کند که از Transformer برای تخمین نابرابری استفاده شود.هزینه محاسباتی ترانسفورماتور وانیلیا به دلیل ضرب بین بردارهای پرس و جو و کلید، با طول توالی های ورودی به صورت درجه دوم افزایش می یابد. بسیاری از انواع کارآمد [42، 18، 17، 5] اخیراً در زمینه پردازش توالی های طولانی زبان پیشنهاد شده اند. از آنجایی که هیچ فرضی در مورد داده های ورودی در این آثار وجود ندارد، آنها برای پردازش تصاویر نیز مناسب هستند.
- روش ها
با توجه به جفت تصویر IA و IB، روشهای تطبیق ویژگی محلی موجود از یک آشکارساز ویژگی برای استخراج نقاط علاقه استفاده میکنند. ما پیشنهاد میکنیم که مشکل تکرارپذیری آشکارسازهای ویژگی را با طراحی بدون آشکارساز حل کنیم. یک نمای کلی از روش پیشنهادی LoFTR در شکل 2 ارائه شده است.
3.1. استخراج ویژگی های محلی
ما از یک معماری کانولوشنال استاندارد با FPN [22] (که CNN ویژگی محلی مشخص می شود) برای استخراج ویژگی های چند سطحی از هر دو تصویر استفاده می کنیم. ما از F˜A و F˜B برای نشان دادن ویژگیهای coarse-level در 1/8 بعد تصویر اصلی و FˆA و FˆB ویژگیهای fine-level در 1/2 بعد تصویر اصلی استفاده میکنیم.
شبکههای عصبی کانولوشنال (CNN) دارای بایاس محلی و translation equivariance هستند که برای استخراج ویژگی محلی مناسب هستند. downsampling ارائه شده توسط CNN همچنین طول ورودی ماژول LoFTR را کاهش می دهد، که برای اطمینان از هزینه محاسباتی قابل مدیریت بسیار مهم است.
3.2. ماژول ترانسفورماتور ویژگی محلی (LoFTR).
پس از استخراج ویژگی محلی، F˜A و F˜B از طریق ماژول LoFTR برای استخراج ویژگیهای محلی وابسته به موقعیت و محتوا منتقل میشوند. به طور شهودی، ماژول LoFTR ویژگیها را به بازنمایی ویژگیهایی تبدیل میکند که تطبیق آنها آسان است. ویژگی های تبدیل شده را به صورت F˜A tr و F˜B tr نشان می دهیم.
مقدمات: مبدل [48]. ابتدا ترانسفورماتور را در اینجا به عنوان پس زمینه به طور خلاصه معرفی می کنیم. یک رمزگذار ترانسفورماتور از لایههای رمزگذار متصل به ترتیب تشکیل شده است. شکل 3(a) معماری یک لایه رمزگذار را نشان می دهد.
عنصر کلیدی در لایه رمزگذار، لایهattention است. بردارهای ورودی برای یک لایه attentionمعمولاً query، key و value نامیده می شوند. مشابه بازیابی اطلاعات، بردار پرس و جو Q اطلاعات را از بردار مقدار V با توجه به وزن attention محاسبه شده از حاصل ضرب نقطه ای Q و بردار کلید K مربوط به هر مقدار V بازیابی می کند. گراف محاسباتی لایه attention در شکل 3 (b) ارائه شده است. به طور رسمی، لایه attention به صورت زیر مشخص می شود:
Attention(Q, K, V ) = softmax(QKT
)V
به طور مستقیم، عملیات attention، اطلاعات مربوطه را با اندازهگیری شباهت بین عنصر پرس و جو و هر عنصر کلیدی انتخاب میکند. بردار خروجی مجموع بردارهای ارزش وزن دارشده با امتیازهای شباهت است. در نتیجه در صورت زیاد بودن شباهت، اطلاعات مربوطه از بردار مقدار استخراج می شود. به این فرآیند در شبکه عصبی گراف، «گذر پیام» نیز گفته می شود..
ترانسفورماتور خطی
با نشان دادن طول Q و K به عنوان N و بعد ویژگی آنها به عنوان D، حاصلضرب نقطه ای بین Q و K در ترانسفورماتور هزینه محاسباتی را معرفی می کند که به طور درجه دوم (O(N2)) با طول دنباله ورودی افزایش می یابد. استفاده مستقیم از نسخه وانیلیا Transformer در زمینه تطبیق ویژگی های محلی غیرعملی است حتی زمانی که طول ورودی توسط ویژگی محلی CNN کاهش یابد. برای رفع این مشکل، پیشنهاد می کنیم از یک نوع کارآمد از لایه attention وانیلیا در Transformer استفاده کنید
ترانسفورماتور خطی [17] پیشنهاد می کند که پیچیدگی محاسباتی ترانسفورماتور را با جایگزین کردن هسته نمایی استفاده شده در لایه attention اصلی با یک تابع هسته جایگزین sim(Q, K) =φ(Q) · φ(K) به O(N) کاهش دهد. T، جایی که φ(·) = elu(·) + 1. این عملیات توسط نمودار محاسباتی در شکل 3(c) نشان داده شده است. با استفاده از خاصیت انجمنی ماتریس، ابتدا می توان ضرب بین φ(K) T و V را انجام داد. از آنجایی که D ≪ N، هزینه محاسبات به O(N) کاهش می یابد.
رمزگذاری موقعیتی
ما از اکستنش 2 بعدی کدگذاری موقعیتی استاندارد در ترانسفورماتورها به دنبال DETR [3] استفاده می کنیم. متفاوت از DETR، فقط یک بار آنها را به خروجی backbone اضافه می کنیم. ما تعریف رسمی رمزگذاری موقعیتی را در مطالب تکمیلی می گوییم. به طور مستقیم، رمزگذاری موقعیتی به هر عنصر اطلاعات موقعیت منحصر به فرد در قالب سینوسی می دهد.
با افزودن رمزگذاری موقعیت به F˜A و F˜B، ویژگیهای تبدیلشده به موقعیت وابسته میشوند، که برای توانایی LoFTR برای تولید تطبیقات در مناطق نامشخص بسیار مهم است. همانطور که در ردیف پایین شکل 4(c) نشان داده شده است، اگرچه رنگ RGB ورودی روی دیوارهای سفید همگن است، ویژگی های تبدیل شده F˜A tr و F˜B tr برای هر موقعیتی که با گرادیان های رنگی صاف نشان داده می شود، منحصر به فرد هستند. تجسم های بیشتر در شکل 6 ارائه شده است.
لایه هایSelf-attention and Cross-attention. برای لایه هایselfattention، ویژگی های ورودی fi و fj (نشان داده شده در شکل 3) یکسان هستند (یا F˜A یا F˜B). برای لایه هایcross-attention، ویژگی های ورودی fi و fj بسته به جهت crossattentionیا (F˜A و F˜B) یا (F˜B و F˜A) هستند. به دنبال [37]، لایههای self and cross attention را در ماژول LoFTR با بار Nc ترکیب می کنیم. وزنattention لایه های self and cross attention در LoFTR در دو ردیف اول شکل 4 (c) نشان داده شده است.
3.3. ایجاد تطبیقات در سطح درشت
دو نوع لایه تطبیقی قابل تمایز را می توان در LoFTR اعمال کرد، یا با یک لایه انتقال بهینه (OT) مانند [37] یا با یک عملگر دوگانه softmax [34، 47]. ماتریس امتیاز S بین ویژگی های تبدیل شده ابتدا با S (i، j) = 1 τ محاسبه می شود. hF˜A tr (i)، F˜B tr (j)i. هنگام تطبیق با OT، -S می تواند به عنوان ماتریس هزینه مسئله تخصیص جزئی مانند [37] استفاده شود.ما همچنین میتوانیم softmax را روی هر دو بعد (که در ادامه به آن dual-softmax گفته میشود) S اعمال کنیم تا احتمال تطبیق نزدیکترین همسایه نرم را به دست آوریم. به طور رسمی، هنگام استفاده از dual-softmax، احتمال تطبیق Pc به دست می آید:
Pc(i, j) = softmax (S (i, ·))j
· softmax (S (·, j))i
انتخاب تطبیق
بر اساس ماتریس اطمینان Pc، ما تطبیق را با اطمینان بالاتر از آستانه θc انتخاب میکنیم و معیارهای نزدیکترین همسایه متقابل (MNN) را اعمال میکنیم، که تطابقهای درشت دور احتمالی را فیلتر میکند. پیشبینیهای تطبیق در سطح درشت را به صورت زیر نشان میدهیم: