LDAHash: Improved Matching with Smaller Descriptors

Image Matching from Handcrafted to Deep Features: A Survey
نوامبر 7, 2020
آشکارسازهای ویژگی گوشه
نوامبر 8, 2020

LDAHash: Improved Matching with Smaller Descriptors

چکیده:
توصیفگرهای ویژگی محلی SIFT در برنامه های زیادی در بینایی ماشین مانند بازیابی مبتنی بر محتوا ، تجزیه و تحلیل ویدئو ، تشخیص جعل ، تشخیص اشیا و بازسازی سه بعدی استفاده می شوند. توصیفگرهای ویژگی را می توان به گونه ای طراحی کرد که در مجموعه های خاصی از تبدیلات فوتومتریک و هندسی ، به ویژه تغییر شکل افاین و تغییر روشنایی و تغییر مقیاس، ثابت باشند. با این حال ، تبدیلات واقعی که یک تصویر می تواند متحمل شود فقط می توان به طور تقریبی از این طریق مدلسازی شود بنابراین بیشتر توصیفگر در عمل تقریباً مقاوم هستند.دوم ، توصیفگرها معمولاً دارای ابعاد بالا هستند (به عنوان مثال ، SIFT با بردار 128 بعدی نشان داده می شود). در مشکلات بازیابی و تطبیق در مقیاس بزرگ ، این امر می تواند در ذخیره و بازیابی داده های توصیفگر چالش ایجاد کند. ما بردارهای توصیفگر را در فضای همینگ که در آن از معیار Hamming برای مقایسه بازنمایی های حاصل استفاده شده است ،نگاشت می کنیم. به این ترتیب ، ما با بازنمایی آنها به عنوان رشته های باینری کوتاه ، اندازه توصیفگرها را کاهش می دهیم و ثبات توصیفگرها را از مثال ها یاد می گیریم. ما آزمایشات گسترده ای را برای اثبات مزیت روش پیشنهادی نشان می دهیم .

Abstract:
SIFT-like local feature descriptors are ubiquitously employed in computer vision applications such as content-based retrieval, video analysis, copy detection, object recognition, photo tourism, and 3D reconstruction. Feature descriptors can be designed to be invariant to certain classes of photometric and geometric transformations, in particular, affine and intensity scale transformations. However, real transformations that an image can undergo can only be approximately modeled in this way, and thus most descriptors are only approximately invariant in practice.Second, descriptors are usually high dimensional (e.g., SIFT is represented as a 128-dimensional vector). In large-scale retrieval and matching problems, this can pose challenges in storing and retrieving descriptor data. We map the descriptor vectors into the Hamming space in which the Hamming metric is used to compare the resulting representations. This way, we reduce the size of the descriptors by representing them as short binary strings and learn descriptor invariance from examples. We show extensive experimental validation, demonstrating the advantage of the proposed approach.

طی دهه گذشته ، توصیفگرهای ویژگی نقطه ای از جمله SIFT [1] و روش های مشابه [2] ، [3] ، [4] به روش های پر استفاده در جامعه بینایی ماشین تبدیل شده اند. آنها معمولاً به عنوان بردارهای با ابعاد بالا ، مانند بردارهای 128 بعدی SIFT یا SURF بعدی 64 ، نشان داده می شوند. اگرچه ابعاد بالای توصیفگر هنگامی که فقط کمتراز صد نقطه کلیدی باید نمایش داده شوند مسئله ای نیست ، اما هنگامی که توصیفگرهای میلیون ها نقطه باید در دستگاهی با منابع محاسباتی و ذخیره سازی محدود نمایش داده شوند، این کار به یک مسئله نگران کننده قابل توجه تبدیل می شود. به عنوان مثال ، هنگام ذخیره تمام توصیفگرها برای یک صحنه شهری در مقیاس بزرگ برای هدف موقعیت یابی بر روی تلفن همراه این امر اتفاق می افتد.این امر نه تنها به حافظه ذخیره سازی زیادی نیاز دارد ، بلکه کند است و ممکن است غیر قابل اعتماد باشد زیرا بیشتر الگوریتم های تشخیص به محاسبات نزدیکترین همسایه متکی هستند و محاسبه فاصله اقلیدسی بین بردارهای طولانی نه ارزان است و نه ایده آل.در نتیجه ، اخیراً تلاشهای زیادی برای فشرده کردن توصیفگرهای شبیه SIFT صورت گرفته است تا ضمن حفظ نرخ شناسایی عالی ، امکان تطابق سریعتر فراهم شود. یک دسته از تکنیک ها به کمیت سازی [5] ، [6] و کاهش ابعاد [7] ، [8] متکی هستند. اگرچه مفید بوده ، اما این روش ها معمولاً برای تولید توصیفگرهای کوتاه بدون از دست دادن عملکرد تطبیق مناسب و کافی نیست.دسته دیگری [9] ، [10] ، [11] ، [12] از مزیت های داده های آموزشی استفاده می کند تاکدهای دودویی کوتاه که فواصل آنها برای جفت های آموزشی مثبت کم و برای دیگران زیاد است را یاد بگیرید. این امر امیدوارکننده است زیرا نه تنها دوتایی سازی اندازه توصیفگر را کاهش می دهد ، بلکه تا حدی عملکرد را افزایش می دهد ، همانطور که نشان داده خواهد شد.

Not only does this require a tremendous amount of storage, it is also slow and potentially unreliable because most recognition algorithms rely on nearest-neighbor computations and computing euclidean distances between long vectors is neither cheap nor optimal.

Consequently, there have been many recent attempts at compacting SIFT-like descriptors to allow for faster matching while retaining their outstanding recognition rates. One class of techniques relies on quantization [5], [6] and dimensionality reduction [7], [8]. While helpful, this approach is usually not sufficient to produce truly short descriptors without loss of matching performance. Another class [9], [10], [11], [12] takes advantage of training data to learn short binary codes whose distances are small for positive training pairs and large for others. This is particularly promising because not only does binarization reduce the descriptor size, but also partly increases performance, as will be shown.

پاسخی بگذارید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *