توضیح الگوریتم sift
اکتبر 4, 2020مقاله یادگیری ویژگی بدون نظارت برای طبقه بندی صحنه هوایی
اکتبر 6, 2020Scale Invariant Feature Transform (SIFT) is an image descriptor for image-based matching and recognition developed by David Lowe (1999, 2004). This descriptor as well as related image descriptors are used for a large number of purposes in computer vision related to point matching between different views of a 3-D scene and view-based object recognition. The SIFT descriptor is invariant to translations, rotations and scaling transformations in the image domain and robust to moderate perspective transformations and illumination variations. Experimentally, the SIFT descriptor has been proven to be very useful in practice for image matching and object recognition under real-world conditions
Scale Invariant Feature Transform (SIFT) توصیف کننده تصویر برای تطبیق و شناسایی مبتنی بر تصویر است که توسط David Lowe ( 1999 ، 2004 ) ساخته شده است. این توصیفگر و همچنین توصیفگرهای تصویر مربوطه برای اهداف زیادی در بینایی رایانه مربوط به تطبیق نقطه بین نماهای مختلف یک صحنه 3 بعدی و تشخیص شی مبتنی بر نمایش استفاده می شوند. توصیفگر SIFT در تبدیل ها ، چرخش ها و تغییر مقیاس ها در دامنه تصویر و تغییرات چشم اندازمتوسط و تغییرات نورپردازی حدودی تغییر نمی کند. به طور آزمایشی ، ثابت شده است که توصیفگر SIFT در عمل برای تطبیق تصویر و تشخیص شی در شرایط دنیای واقعی بسیار مفید است.
In its original formulation, the SIFT descriptor comprised a method for detecting interest points from a grey-level image at which statistics of local gradient directions of image intensities were accumulated to give a summarizing description of the local image structures in a local neighbourhood around each interest point, with the intention that this descriptor should be used for matching corresponding interest points between different images. Later, the SIFT descriptor has also been applied at dense grids (dense SIFT) which have been shown to lead to better performance for tasks such as object categorization, texture classification, image alignment and biometrics . The SIFT descriptor has also been extended from grey-level to colour images and from 2-D spatial images to 2+1-D spatio-temporal video.
در فرمول اصلی خود ، توصیفگر SIFT شامل روشی برای تشخیص نقاط مورد علاقه از یک تصویر در سطح خاکستری است که در آن آماری از جهت های شیب (گرادیان) محلی روشنایی تصویر جمع شده است تا توصیف خلاصه ای از ساختارهای محلی تصویر در یک همسایگی محلی در اطراف هر نقطه مورد علاقه ارائه شود. با این هدف که از این توصیفگر برای تطبیق نقاط مورد علاقه مربوطه بین تصاویر مختلف استفاده شود. بعداً ، توصیفگر SIFT نیز در شبکه های متراکم (SIFT متراکم) اعمال شده است که نشان داده شده است منجر به عملکرد بهتر برای کارهایی مانند طبقه بندی اشیا ، طبقه بندی بافت ، ترازبندی تصویر و بیومتریک می شود. توصیفگر SIFT همچنین از سطح خاکستری به تصاویر رنگی و از تصاویر فضایی 2 بعدی به فیلم مکانی 2 + 1-D گسترش یافته است.
Scale-invariant interest points from scale-space extrema
The original SIFT descriptor (Lowe 1999, 2004) was computed from the image intensities around interesting locations in the image domain which can be referred to as interest points, alternatively key points. These interest points are obtained from scale-space extrema of differences-of-Gaussians (DoG) within a difference-of-Gaussians pyramid. The concept of difference-of-Gaussian bandpass pyramids was originally proposed by Burt and Adelson (1983) and by Crowley and Stern (1984).
A Gaussian pyramid is constructed from the input image by repeated smoothing and subsampling, and a difference-of-Gaussians pyramid is computed from the differences between the adjacent levels in the Gaussian pyramid. Then, interest points are obtained from the points at which the difference-of-Gaussians values assume extrema with respect to both the spatial coordinates in the image domain and the scale level in the pyramid.
تشخیص نقطه علاقه
مقادیر مورد علاقه غیر متغیر از موارد اضافی مقیاس فضا
توصیف کننده اصلی SIFT (لوو 1999 ، 2004 ) از روشنایی تصویر در اطراف مکان های مورد علاقه در دامنه تصویر محاسبه شده است که می توان آنها را به عنوان نقاط علاقه ، و همچنین نقاط کلیدی نامید. این نقاط مورد علاقه ازاکسترمم اختلاف فضای مقیاس گاوسی ها (DoG) در هرم اختلاف گاوسی ها بدست می آید. مفهوم هرم های باندعبور اختلاف گاوسی در ابتدا توسط برت و آدلسون ( 1983 ) و كرولی و استرن ( 1984 ) ارائه شد.
هرم گاوسی با نرم سازی و نمونه برداری مکرر از تصویر ورودی ساخته می شود و هرم تفاضل گاوسی از اختلاف بین سطوح مجاور در هرم گاوسی محاسبه می شود.سپس ، نقاط مورد علاقه که از نقاط در مقادیر اختلاف گاوسی با توجه به هر دو مختصات مکانی در حوزه تصویر و سطح مقیاس در هرم ، که اکسترمم هستند ، به دست می آید.
Figure 1: Scale-invariant interest points detected from a grey-level image using scale-space extrema of the Laplacian. The radii of the circles illustrate the selected detection scales of the interest points. Red circles indicate bright image features with ∇^2L<0, whereas blue circles indicate dark image features with ∇^2L>0.
This method for detecting interest points in the SIFT operator can be seen as a variation of a scale-adaptive blob detection method proposed by Lindeberg (1994, 1998), where blobs with associated scale levels are detected from scale-space extrema of the scale-normalized Laplacian. The scale-normalized Laplacian is normalized with respect to the scale level in scale-space and is defined as
این روش برای تشخیص نقاط مورد علاقه در اپراتور SIFT می تواند به عنوان یک تغییر در روش تشخیص حباب سازگار با مقیاس ارائه شده توسط Lindeberg (1994 ، 1998) دیده شود ، جایی که حباب هایی با سطح مقیاس مرتبط از اکسترمم فضای مقیاس از مقیاس نرمال شده لاپلاسین شناسایی می شوند . در مقیاس نرمال شده لاپلاس با توجه به سطح مقیاس در فضای مقیاس نرمال می شود و به صورت زیر تعریف شده است
∇^2normL(x,y;s)=s(Lxx+Lyy)=s(∂^2L∂x2+∂^2L∂y2)=s∇^2(G(x,y;s)∗f(x,y))
از مقادیر تصویر صاف شده L ( x ، y؛ د ) از تصویر ورودی محاسبه شده است f( x ، y) توسط کانولوشن با هسته های گوسی
G(x,y;s)=12πse−(x2+y2)/(2s)
of different widths s=σ2, where σ denotes the standard deviation and s the variance of the Gaussian kernel. Then, the scale-space extrema are detected from the points (x,y;s) in scale-space at which the scale-normalized Laplacian assumes local extrema with respect to space and scale. In a discrete setting, such comparisons are usually made in relation to all neighbours of a point in a 3×3×3 neighbourhood over space and scale. The difference-of-Gaussians operator constitutes an approximation of the Laplacian operator
از عرض های مختلف s =σ^2، جایی که σ انحراف معیار را نشان می دهد و sواریانس هسته گوسی. سپس ، اکسترمم فضای مقیاس از نقاط ( x ، y؛ s )در فضای مقیاس که در آن لاپلاسین نرمال مقیاس با توجه به اکسترمم فضا و مقیاس شناسایی می شوند . در یک محیط گسسته ، چنین مقایسه هایی معمولاً در رابطه با تمام همسایگان یک نقطه در یک 3×3×3 همسایگی از فضا و مقیاس است عملگر اختلاف گاوسی به معنای تقریب عملگر لاپلاس است
DOG(x,y;s)=L(x,y;s+Δs)−L(x,y;s)≈Δs2∇2L(x,y;s)
which by the implicit normalization of the differences-of-Gaussian responses, as obtained by a self-similar distribution of scale levels σi+1=kσi used by Lowe, also constitutes an approximation of the scale-normalized Laplacian with Δs∇2L=(k2−1)t∇2L=(k2−1)∇2normL, thus implying
که با نرمال سازی ضمنی پاسخ اختلاف های گاوسی ، همانطور که با توزیع مشابه سطوح مقیاس σi + 1 = kσi استفاده شده توسط Lowe بدست می آید ، همچنین یک تقریب Laplacian نرمال مقیاس با Δs∇2L = ( k2−1) t∇2L = (k2−1) ∇2normL ، تشکیل می دهد بنابراین
DOG(x,y;s)≈(k2−1)2∇2normL(x,y;s)
It can be shown that this method for detecting interest points leads to scale-invariance in the sense that (i) the interest points are preserved under scaling transformations and (ii) the selected scale levels are transformed in accordance with the amount of scaling (Lindeberg 1998). Hence, the scale values obtained from these interest points can be used for normalizing local neighbourhoods with respect to scaling variations (Lindeberg 2013a, 2014) which is essential for the scale-invariant properties of the SIFT descriptor; see also (Lindeberg 2008) for an overview of the scale-space theory on which these image operations are based. The Laplacian operation is rotationally invariant. Therefore, (iii) these interest points will also be rotationally invariant.
می توان نشان داد که این روش برای شناسایی نقاط مورد علاقه منجر به عدم تغییر مقیاس می شود به این معنا که (i) نقاط مورد علاقه تحت تبدیلات مقیاس حفظ می شوند و (ii) سطح مقیاس انتخاب شده مطابق با مقدار مقیاس گذاری تبدیل می شود (لیندبرگ 1998) از این رو ، مقادیر مقیاس بدست آمده از این نقاط مورد علاقه می توانند برای نرمال سازی همسایگان محلی با توجه به تغییرات مقیاس بندی (Lindeberg 2013a، 2014) مورد استفاده قرار گیرند که برای خصوصیات مستقل از مقیاس توصیفگر SIFT ضروری است. همچنین برای مروری بر نظریه فضای مقیاس که این عملیات تصویری بر اساس آن انجام شده است ، به (Lindeberg 2008) مراجعه کنید. عملیات لاپلاس از نظر چرخشی ثابت هستند. بنابراین ، (iii) این نقاط مورد علاقه نیز از نظر چرخشی تغییر نخواهد کرد.
The difference-of-Gaussians approach proposed by Lowe constitutes a computationally efficient way to compute approximations of such Laplacian interest points. Another way of detecting scale-space extrema of the Laplacian efficiently for real-time implementation has been presented by Lindeberg and Bretzner (2003) based on a hybrid pyramid. A closely related method for real-time scale selection has been developed by Crowley and Riff (2003).
روش اختلاف گاوسی پیشنهاد شده توسط لو ، یک روش کارآمد محاسباتی برای محاسبه تقریب این نقاط مورد علاقه لاپلاس است. روش دیگری برای تشخیص اکسترمم فضای مقیاس لاپلاسین برای اجرای زمان واقعی توسط Lindeberg و Bretzner ( 2003 ) بر اساس هرم ترکیبی ارائه شده است. روشی نزدیک برای انتخاب مقیاس در زمان واقعی توسط کراولی و ریف ( 2003 ) ساخته شده است.
درون یابی
Both the difference-of-Gaussians approach by Lowe and the Laplacian approach by Lindeberg and Bretzner involve the fitting of a quadratic polynomial to the magnitude values around each scale-space extremum to localize the scale-space extremum with a resolution higher than the sampling density over space and scale. This post-processing stage is in particular important to increase the accuracy of the scale estimates for the purpose of scale normalization.
رویکرد اختلاف گاوسی ها توسط لاو و رویکرد لاپلاسیایی توسط لیندبرگ و برتزنر شامل برازش یک چند جمله ای درجه دو به مقادیر اندازه اطراف هر یک ازاکسترمم های فضا مقیاس برای محلی سازی اکسترمم در فضای مقیاس با وضوح بالاتر از تراکم نمونه برداری در فضا و مقیاس است. مرحله پیش پردازش به ویژه برای افزایش دقت برآورد مقیاس به منظور نرمال سازی مقیاس مهم است.
Suppression of interest point responses along edges
In addition to responding to blob-like and corner-like image structures, the Laplacian operator may also lead to strong responses along edges. To suppress such points, which will be less useful for matching, Lowe (1999, 2004) formulated a criterion in terms of the ratio between the eigenvalues of the Hessian matrix
محو پاسخهای نقطه مورد علاقه در امتداد لبه ها
عملگرلاپلاسین علاوه بر پاسخ به ساختارهای تصویری شبیه حباب و گوشه ، ممکن است منجر به پاسخ های شدید در امتداد لبه ها شود. برای حذف چنین نقاطی ، که برای مطابقت کمتر مفید خواهد بود ، لو (1999 ، 2004) معیاری را از نظر نسبت بین مقادیر ویژه ماتریس هسین تنظیم کرد
HL=[LxxLxyLxyLyy]
computed at the position and the scale of the interest point, which can be reformulated in terms of the trace and the determinant of the Hessian matrix to allow for more efficient computations
در موقعیت و مقیاس نقطه مورد علاقه محاسبه می شود ، که می تواند از نظر ردیابی و دترمینان ماتریس هسین دوباره فرموله شود تا محاسبات کارآمدتر فراهم شود.
detHLtrace2HL=LxxLyy−L2xy(Lxx+Lyy)2≥r(r+1)2
where r≥1 denotes an upper limit on the permitted ratio between the larger and the smaller eigenvalues. (To avoid possible division by the determinant of the Hessian, which may approach zero along edges, the original statement by Lowe has been reformulated here to give a more well-conditioned numerical criterion.)
To suppress image features with low contrast, the interest points are usually also thresholded on the magnitude of the response.
جایی که r≥1نشان دهنده یک حد بالایی در نسبت مجاز بین مقادیر ویژه بزرگتر و کوچکتر است. (برای جلوگیری از تقسیم احتمالی توسط تعیین کننده Hessian ، که ممکن است در امتداد لبه ها به صفر نزدیک شود ، جمله اصلی Lowe در اینجا دوباره فرموله شده است تا یک معیار عددی مطابق با شرط بیشتری ارائه دهد.)
برای حذف ویژگی های تصویر با کنتراست کم ، نقاط مورد علاقه معمولاً از میزان پاسخ آستانه می گیرند.
توصیف کننده تصویر
در هر نقطه مورد علاقه که در بالا بدست آمد ، یک توصیفگر تصویر محاسبه می شود. توصیفگر SIFT پیشنهاد شده توسط لوو ( 1999 ، 2004 ) را می توان به عنوان یک هیستوگرام وابسته به موقعیت جهت های شیب محلی در اطراف نقطه علاقه مشاهده کرد. برای به دست آوردن عدم تغییر مقیاس توصیفگر ، اندازه این محله محلی باید به روشی غیر متغیر نرمال شود. برای بدست آوردن عدم تحول چرخشی توصیفگر ، جهت گیری غالب در این محله از جهت گیری بردارهای شیب دار در این محله تعیین می شود و برای جهت دهی به شبکه ای که هیستوگرام وابسته به موقعیت با توجه به این جهت غالب محاسبه می شود ، استفاده می شود تا بدست آید. عدم تحول چرخشی
نرمال سازی مقیاس و جهت گیری
در توصیفگر SIFT ، تخمین اندازه یک منطقه اطراف نقطه علاقه به عنوان یک ثابت برابر مقیاس تشخیص تعیین می شود sاز نقطه بهره ، که می تواند توسط ویژگی مکانیسم انتخاب مقیاس در آشکارساز نقطه بهره برای برگرداندن برآورد اندازه مشخص مرتبط با هر نقطه بهره ایجاد شود ( Lindeberg 1998 ).
برای تعیین برآورد جهت گیری ترجیحی برای نقطه علاقه ، یک هیستوگرام محلی از جهت های شیب در محله اطراف نقطه علاقه با (i) جهت های شیب محاسبه شده از بردارهای شیب جمع می شود ∇ L ( x ، y؛ د ) در مقیاس تشخیص s از نقطه بهره و (ii) مساحت پنجره تجمع متناسب با مقیاس تشخیص s. برای یافتن جهت غالب ، قله ها در این هیستوگرام جهت گیری شناسایی می شوند. برای رسیدگی به شرایطی که ممکن است بیش از یک جهت غالب در اطراف نقطه علاقه وجود داشته باشد ، اگر ارتفاع قله های ثانویه بیش از 80٪ ارتفاع بلندترین قله باشد ، قله های متعددی پذیرفته می شوند. در مورد چندین قله ، هر قله برای محاسبه توصیفگر تصویر جدید برای برآورد جهت مربوطه استفاده می شود.
هنگام محاسبه هیستوگرام جهت گیری ، این افزایش ها با اندازه گرادیان وزن می شوند و همچنین با یک عملکرد پنجره گاوسی که در نقطه علاقه قرار دارد و اندازه آن متناسب با مقیاس تشخیص است ، وزن می شود. برای افزایش دقت برآورد جهت گیری ، از یک نمونه نسبتاً متراکم از جهت گیری ها با 36 سطر در هیستوگرام استفاده می شود. علاوه بر این ، موقعیت قله توسط درون یابی سهموی محلی در اطراف حداکثر نقطه در هیستوگرام قرار دارد.
هیستوگرام وابسته به موقعیت از جهت های شیب محلی
با توجه به این مقیاس و برآورد جهت گیری برای یک نقطه مورد علاقه ، یک شبکه مستطیل شکل در مرکز تصویر ، با مرکزیت در نقطه علاقه ، با جهت گیری آن توسط قله (های) اصلی در هیستوگرام و با فاصله متناسب با تشخیص تعیین می شود مقیاس نقطه بهره. از آزمایشات ، لو ( 1999 ، 2004 ) دریافت که الف4×4 شبکه اغلب انتخاب خوبی است.
برای هر نقطه از این شبکه ، یک هیستوگرام محلی از جهت های شیب محلی در مقیاس نقطه علاقه
arg ∇ L = atan2 ( L سال، L x )
از طریق یک محله محلی در اطراف این نقطه شبکه با جهت های شیب در 8 جهت گسسته کوانتیزه می شود. در طول جمع شدن هیستوگرام ها ، افزایش در سطل های هیستوگرام با اندازه گرادیان وزن می شوند
|∇L|=ل2ایکس+ل2بله−−−−−−−√
در هر نقطه از شبکه برای ایجاد وزن های قویتر به نقاط تصویر که انتظار می رود تخمین های شیب قابل اطمینان تر باشند. برای دادن وزنه های بیشتر به جهت گیری های شیب نزدیک به نقطه علاقه ، ورودی های هیستوگرام نیز توسط یک تابع پنجره گاوسی که در نقطه علاقه قرار دارد و با اندازه آن متناسب با مقیاس تشخیص نقطه علاقه ، توزین می شوند. روی هم رفته ، هیستوگرام های محلی محاسبه می شوند4×4 نقاط شبکه و با 8 جهت کوانتیزه منجر به توصیف تصویر با 4×4×8=128ابعاد برای هر نقطه بهره. از این توصیفگر تصویر به عنوان توصیف کننده SIFT یاد می شود.
شکل 2: تصویری از نحوه محاسبه توصیفگر SIFT از مقادیر نمونه گیری جهت گیری گرادیان و اندازه گرادیان بر روی یک شبکه سازگار محلی در اطراف هر نقطه علاقه ، با فاکتور مقیاس تعیین شده از مقیاس های تشخیص نقطه علاقه و جهت گیری تعیین شده از قله غالب در هیستوگرام جهت گیری شیبدار در اطراف نقطه علاقه. این شکل توصیف کننده تصویر را نشان می دهد که با یک محاسبه شده است2×2 در حالی که توصیفگر SIFT معمولاً از طریق یک محاسبه می شود 4×4 توری.
برای افزایش دقت هیستوگرام های محلی ، از توزیع سه خطی برای توزیع افزایش وزن برای اندازه گیری های تصویر نمونه در سطل های هیستوگرام مجاور استفاده می شود. به عبارت دیگر ، هر ورودی در سطل آشغال در یک وزن اضافی ضرب می شود1 – د، جایی که د فاصله بین نمونه و موقعیت مرکزی سطل آشغال است که در واحد فاصله سطل در هیستوگرام بیان می شود.
یک مفهوم نزدیک مربوط به هیستوگرام های جهت گیری (“منطقه بندی”) قبلاً نیز برای تشخیص شخصیت نوری استفاده شده است ( تریر و همکاران 1996 ) ، اگرچه در آن زمینه برای الگوهای تصویری باینریزه محلی فرموله شده است.
عادی سازی کنتراست
برای بدست آوردن عدم تغییر از کنتراست ، توصیفگر SIFT به واحد جمع نرمال می شود. به این ترتیب ، ورودی های وزنی در هیستوگرام تحت تغییر شکل موضعی شدت عکس در اطراف نقطه علاقه ثابت نخواهند بود ، که این باعث بهبود مقاومت توصیف کننده تصویر تحت تغییرات نور می شود.
برای جلوگیری از تأکید زیاد بیش از حد اندازه گیری های کنتراست محلی در توصیف کننده تصویر ، لو ( 1999 ، 2004 ) یک عادی سازی دو مرحله ای را پیشنهاد داد ، جایی که ورودی ها پس از عادی سازی واحد مرحله اول محدود به 0.2 نمی شود ، پس از آن توصیفگر تصویر اصلاح شده دوباره به واحد جمع عادی می شود.
توضیح نظری
استفاده از نمودارهای محلی وابسته به موقعیت جهت های شیب برای تطبیق و شناسایی در SIFT ، نمونه خاصی از استفاده از توصیفگرهای تصویر بر اساس اندازه گیری های تصویر از نظر زمینه های پذیرایی است . به طور کلی، زمینه پذیرش در شرایط مشتقات گاوسی به عنوان یک مدل استاندارد را برای زمینه پذیرای خطی در بینایی کامپیوتر توسط Koenderink و ون دورن (ارائه شده است 1987 ، 1992 ) و Lindeberg ( 1994 ، 2011 ، 2013b ). نمایندگی هرم قبلاً توسط برت و آدلسون ( 1983 ) و كراولی و استرن ( 1984) پیشنهاد شده بود) و مورد استفاده لوو می تواند به عنوان یک تقریب عددی از چنین زمینه های دریافتی گوسی دیده شود. با تجزیه و تحلیل نظری در (Lindeberg 2013b ) می توان نشان داد که چنین زمینه های پذیرایی ویژگی های ذاتی الگوهای بازتاب سطوح اشیا را به دست می آورند و بنابراین شناخت بصری را امکان پذیر می کنند.
استفاده از انتخاب مقیاس در مرحله تشخیص نقطه علاقه تضمین می کند که نقاط بهره تحت تغییرات تحول مقیاس پذیری ثابت خواهند بود (Lindeberg 1998 ، 2013c ، 2015 ). به طور خاص ، نرمال سازی مقیاس توصیف کننده تصویر ، یک مرجع محلی با مقیاس ثابت تغییر می دهد که به این معنی است که توصیفگرهای تصویر و طرح های تطبیق مبتنی بر آن ، تحت تغییر شکل مقیاس سازی ، ثابت نخواهند بود (Lindeberg 2013a ، 2014 ). بدین ترتیب ، تطبیق تصویر و تشخیص شی بر اساس چنین ویژگی های تصویری ، توانایی اداره اشیا of در اندازه های مختلف و همچنین اشیایی را دارد که از فواصل مختلف به دوربین دیده می شوند.
یک مجموعه کلی تر از آشکارسازهای نقطه علاقه به مقیاس فضا برای تطبیق و شناسایی مبتنی بر تصویر و با خواص بهتر از نقاط علاقه لاپلاسی یا اختلاف گاوسی در (Lindeberg 2015 ) ارائه شده است.
تطبیق توصیفگرهای تصویر محلی
مطابقت نزدیکترین همسایه با توصیفگرهای تصویر محلی
با توجه به مجموعه ای از توصیفگرهای تصویر که از دو تصویر مختلف محاسبه شده اند ، می توان این توصیفگرهای تصویر را برای هر نقطه یافتن نقطه در دامنه تصویر دیگر که فاصله اقلیدسی بین توصیف کنندگان به عنوان بردارهای 128 بعدی را به حداقل می رساند ، مطابقت داشته باشد. برای سرکوب مسابقات که احتمالاً مبهم تلقی می شود ، لاو فقط مسابقاتی را پذیرفت که نسبت بین فاصله ها به نزدیکترین و نزدیکترین نقاط بعدی کمتر از 0.8 باشد.
شکل 3: نقاط علاقه ای که از دو تصویر یک صحنه با تصاویر محاسباتی مطابقت دارد که به عنوان خطوط سیاه بین نقاط علاقه مربوطه مطابقت دارد. فلشهای آبی و قرمز در مراکز دایره ها تخمین های جهت گیری به دست آمده از قله ها را در هیستوگرام های جهت گیری محلی در اطراف نقاط مورد علاقه نشان می دهند.
بهترین تقریب بین اولین بن برای انتخاب موارد منطبق در نقطه
اگر از رویکرد تطبیق نزدیکترین همسایه در بالا برای شناسایی یک شی در برابر مجموعه بزرگی از اشیا موجود در یک پایگاه داده استفاده کنیم ، چنین تطبیق نزدیکترین همسایه به معنی مقایسه با تمام توصیفگرهای تصویر ذخیره شده در پایگاه داده است. برای سرعت بخشیدن به تطبیق نزدیکترین همسایه برای مجموعه داده های بزرگتر ، لو ( 2004 ) الگوریتم تقریبی بهترین بن اول (BBF) ( Beis and Lowe 1997 ) را اعمال کرد که با افزایش تعداد ویژگی های تصویر ، مقیاس بهتری دارد. در کارهای بعدی ( موجا و لوو 2009 ) ، این رویکرد به درختان سلسله مراتبی k-means و درختان kd تصادفی توسعه یافته است.
تجمع شواهد مبتنی بر تبدیل Affine Hough برای مدل های شی
هنگام استفاده از توصیفگر SIFT برای شناسایی شی ، لوو ( 2004 ) رویکرد تبدیل هاف را بر اساس سه برابر تطابق تصویر ایجاد کرد تا شواهدی را برای اشیا جمع کند که توسط مجموعه ای از نقاط علاقه با توصیفگرهای تصویر مرتبط نشان داده می شود.
هنگام تلفیق م componentsلفه های مختلف با هم ، تطبیق بر اساس توصیفگر SIFT به سرعت خود را به عنوان یک روش پیشرفته برای تطبیق مبتنی بر تصویر و تشخیص شی معرفی کرد. در یک ارزیابی تجربی از استحکام توصیفگرهای مختلف تصویر که توسط Mikolajczyk و Schmid ( 2005 ) انجام شد ، مشخص شد که توصیفگر SIFT نسبت به فیلترهای فرمان پذیر ، تغییرات دیفرانسیل ، تغییرات لحظه ای ، فیلترهای پیچیده و همبستگی متغیرهای مختلف نسبت به تغییر شکل تصویر قوی تر است. انواع امتیازات جالب
برنامه های افزودنی
PCA SIFT
Ke و Sukthankar ( 2004 ) یک روش جایگزین برای تعریف توصیفگرهای تصویر محلی ، مشابه توصیفگر SIFT به معنای تشخیص نقاط بهره با برآورد مقیاس مرتبط از موارد اضافی فضای مقیاس و انجام نرمال سازی جهت گیری از قله ها در یک هیستوگرام جهت گیری محلی ارائه دادند ، اما از نظر اندازه گیری واقعی تصویر در زیر توصیف کننده های تصویر متفاوت است. آنها به جای محاسبه جهت گیری های شیب ، ابتدا نقشه های محلی با اندازه شیب را محاسبه می کنند
|∇L|=ل2ایکس+ل2بله−−−−−−−√
بیش از تکه های محلی در اطراف نقاط مورد علاقه. برای دستیابی به عدم تغییر مقیاس ، وصله محلی برای هر نقطه علاقه به مقیاسی نرمال می شود39×39چارچوب مرجع مشترک برای تمام نقاط علاقه. این وصله های محلی سپس با توجه به جهت گیری تصویر غالب جهت دستیابی به عدم تحول چرخشی جهت گیری می شوند. همچنین یک نرمال سازی برای جمع واحد برای دستیابی به عدم تغییر کنتراست محلی انجام می شود.
سپس ، این نقشه های شیب محلی با استفاده از تجزیه و تحلیل م componentلفه اصلی (PCA) به زیر فضایی با ابعاد پایین تر (با 20 بعد) پیش بینی می شوند. بنابراین ، با توجه به یک نقطه علاقه خاص ، نقشه شیب مربوطه محاسبه می شود و پس از نرمال سازی کنتراست به زیر فضای کم ابعاد پیش بینی می شود. سپس ، با به حداقل رساندن فاصله اقلیدسی ، این توصیفگرهای تصویر محلی مطابقت داده می شوند. از نتایج تجربی ، Ke و Sukthankar استدلال کردند که PCA-SIFT هم سریعتر و هم متمایزتر از توصیف کننده معمول SIFT است.
SIFT رنگی
روش های مختلف گسترش توصیفگر SIFT از تصاویر خاکستری به رنگی توسط نویسندگان مختلف ارائه شده است. بوش و همکاران ( 2006 ) توصیف کنندگان SIFT را در هر سه کانال فضای رنگی HSV محاسبه کرده و در نتیجه یک3×128توصیف کننده تصویر بعدی HSV-SIFT. ون دی ویجر و اشمید ( 2006 ) توصیفگر SIFT را با هیستوگرام های زاویه رنگ یا وزنه مخالف به هم پیوند داده و عملکرد توصیفگرهای تصویر حاصل را برای محاسبات مطابقت نقطه در مجموعه داده های مختلف ارزیابی کردند.
Burghouts and Geusebroek ( 2009)) مجموعه ای از توصیفگرهای تصویر را تعریف کرد که براساس مجموعه ای از رنگهای ثابت با یک مدل روشنایی تنظیم شده بود. این مواد ناخوشایند به نوبه خود با توجه به مدل رنگی گاوسی پیشنهاد شده توسط کوئندرینک بیان شد. به طور خاص ، آنها مجموعه ای از توصیفگرهای رنگ SIFT را با جایگزینی شیب سطح خاکستری در اپراتور SIFT معمولی با شیب های مختلف رنگ که برای ترکیبات مختلف سطح شدت محلی ، سایه ها ، سایه و هایلایت ها تغییر ندارند ، ساختند و این توصیف کنندگان تصویر را بر روی داده های معیار ارزیابی کردند مجموعه ها نشان داده شد که یکی از توصیف کنندگان در این ارزیابی ، با عنوان C-color-SIFT ،
ون دو ساند و همکاران ( 2010 ) یک مطالعه مرتبط راجع به خصوصیات تغییرناپذیر نمایش های مختلف رنگ تحت انواع مختلف تبدیل نور ، شامل تغییرات شدت نور ، تغییرات شدت نور ، تغییرات رنگ نور و تغییر رنگ نور انجام داد. به طور خاص ، نویسندگان نمایش رنگ را از نظر هیستوگرام رنگ ، لحظه های رنگی و تغییر رنگ و همچنین انواع مختلف توصیف رنگ های SIFT مانند در نظر گرفتند. به طور تجربی ، آنها دریافتند که توصیفی از OpponentSIFT بر اساس کانالهای رنگی-حریف منجر به بهترین عملکرد با توجه به مسئله طبقه بندی دسته بندی اشیا می شود.
توصیف کننده های تصویر SIFT مانند برای شناخت مکانی – زمانی
توصیفگر SIFT توسط Laptev و Lindeberg ( 2004 ) ، با محاسبه هیستوگرام های وابسته به موقعیت بر محله های محلی-مکانی محلی یا بردارهای شیب مکانی-زمانی ، از تصاویر فضایی 2-D به فیلم + مکانی 2 + 1-D تعمیم داده شده است ( جایی کهتی زمان را نشان می دهد)
∇L=(لایکس,لبله,لتی)
یا جریان نوری (سرعت تصویر محلی)
( تو ، V )
در هر موقعیت در دامنه مکانی 2 + 1-D محاسبه می شود.
به طور خاص ، توصیف کنندگان تصویر در نقاط علاقه محلی-زمانی محلی شناسایی شده با استفاده از یک مکانیزم انتخاب مقیاس مکانی-زمانی برای سازگاری محلی و در نتیجه عدم تغییر مقیاس با توجه به مقیاس های مکانی و مقیاس های زمانی محاسبه شد. نشان داده شد که این رویکرد شناخت اقدامات انسانی را بر اساس توصیف کنندگان تصویر مکانی – زمانی محلی به روشی مشابه امکان پذیر می سازد همانطور که توصیف کنندگان محلی SIFT برای شناسایی شی و طبقه بندی طبقه بندی اشیا allow امکان پذیر است.
برای به دست آوردن عدم تغییر با توجه به حرکات نسبی احتمالاً ناشناخته بین اجسام در جهان و ناظر ، این روش همچنین با یک مکانیزم انطباق سرعت برای سازگاری عملیات هموار سازی فضایی-زمانی با حرکات محلی ترکیب شده و نشان داده شده است که امکان شناخت مکان را فراهم می کند. – وقایع زمانی در صحنه های نامرتب ( Laptev و همکاران 2007 ).
غربال متراکم
هنگام استفاده از توصیفگر SIFT برای وظایفی مانند طبقه بندی طبقه بندی اشیا scene یا طبقه بندی صحنه ، ارزیابی های تجربی نشان می دهد که نتایج طبقه بندی بهتر اغلب با محاسبه توصیفگر SIFT بر روی شبکه های متراکم در دامنه تصویر به دست می آید در مقابل در نقاط کم بهره که در نتیجه علاقه به دست می آید اپراتور. یک توضیح اساسی برای این امر این است که یک مجموعه بزرگتر از توصیفگرهای تصویر محلی که از طریق یک شبکه متراکم محاسبه می شوند ، معمولاً اطلاعات بیشتری نسبت به توصیف کنندگان مربوطه که در یک مجموعه پراکنده از نقاط تصویر ارزیابی می شوند ، ارائه می دهند.
این جهت توسعه توسط بوش و همکاران آغاز شد. ( 2006 ، 2007 ) و اکنون خود را بعنوان یک رویکرد پیشرفته برای طبقه بندی دسته بندی اشیا visual بصری تثبیت کرده است. وقتی در عمل برای کارهای دسته بندی اشیا اعمال می شود ، محاسبه توصیف کنندگان متراکم SIFT معمولاً با یک مرحله خوشه بندی همراه است ، جایی که توصیف کنندگان SIFT به یک واژگان کوچکتر از کلمات تصویری تقلیل می یابند ، که می تواند با یک کلمه ترکیب شود مدل یا روشهای مرتبط ( Csurka و همکاران 2004 ، Lazebnik و همکاران 2006 ).
برای کار ایجاد مکاتبات تصویری بین تصاویر مختلف که در ابتدا از یک جسم 3 بعدی یا یک صحنه سه بعدی نامرتبط هستند ، تشخیص نقاط کم بهره اما هنوز یک مرحله مهم قبل از پردازش برای جلوگیری از پیچیدگی هنگام ایجاد مهم است. مکاتبات تصویری.
توصیفگرهای تصویر مرتبط
توصیفگر SIFT را می توان مورد خاصی از یک کلاس کلی تر از توصیفگر تصویر دانست که بر اساس هیستوگرام پاسخ های میدان پذیرنده محلی است.
هیستوگرام های میدان پذیرایی
Swain and Ballard ( 1991 ) جهت نشان دادن اینكه می توان با مقایسه هیستوگرام RGB تصاویر اشیا ، عملکرد معقولی در تشخیص شی object بدست آورد ، جهت تحقیق در مورد توصیف كننده های تصویر مبتنی بر هیستوگرام آغاز شد ، بدین ترتیب هرگونه روابط فضایی بین ویژگی های تصویر در نقاط مختلف ، نادیده گرفته می شود. Schiele و Crowley ( 2000 ) این ایده را به هیستوگرام مشتقات جزئی مرتبه اول یا ترکیبی از اندازه های شیب و پاسخ های لاپلاس در مقیاس های مختلف محاسبه کردند.
لیند و لیندبرگ ( 2004 ، 2012 ) این رویکرد را بیشتر به هیستوگرام های زمینه پذیرای متشکل از ساختارهای مختلف مشتقات گاوسی یا مواد تغییر دهنده دیفرانسیل محاسبه شده از نشانه های سطح خاکستری و رنگ مخالف تا سفارش دو تعمیم دادند و ارزیابی گسترده ای از آنها را انجام دادند توصیفگرهای هیستوگرام با توجه به تشخیص مصداق شی و طبقه بندی رده شی. به طور خاص ، آنها یک روش کارآمد برای رسیدگی به هیستوگرام های با ابعاد بالاتر ارائه دادند و مجموعه ای از هیستوگرام های نشانه پیچیده متشکل را که منجر به عملکرد بهتر از هیستوگرام های میدان پذیرای ابتدایی با ابعاد پایین تر می شود ، معرفی کردند.
هیستوگرام شیب های گرا (HOG)
Dalal and Triggs ( 2005 ) با الهام از خاصیت بسیار تبعیض آمیز هیستوگرام های گرادیان وابسته به موقعیت محلی که در توصیفگر SIFT استفاده می شود ، یک توصیفگر تصویر از نزدیک مرتبط با مجموعه ای از هیستوگرام های جهت گیری گرادیان ایجاد کردند
arg ∇ L = atan2 ( L سال، L x )
در یک شبکه در دامنه تصویر محاسبه شده است. برخلاف توصیفگر SIFT ، که یک توصیفگر تصویر محلی است ، هیستوگرام های شیب گرا (HOG) توصیفگر منطقه ای استتوصیف کننده تصویر. به این معنا ، توصیفگر HOG ارتباط نزدیکی با هیستوگرام های زمینه پذیرش منطقه ای دارد که در مناطق مختلف در حوزه تصویر تعریف می شوند ، با این تفاوت که (i) اپراتور HOG شامل ترکیب شدن از مجموعه کوچکتر هیستوگرامها در زیر مناطق تعریف شده اند و (ii) با تعریف شدن از جهت گیریهای شیب به جای مشتقات جزئی یا تغییرات متفاوت. بر خلاف توصیفگر SIFT ، توصیفگر HOG با توجه به جهت گیری نرمال نیست. بنابراین ، توصیفگر HOG از نظر چرخشی ثابت نیست. هیستوگرام ها در اپراتور HOG با توجه به کنتراست تصویر نرمال می شوند.
دالال و تریگز دو نسخه از عملگر HOG را توسعه دادند: یكی كه هیستوگرام های محلی از طریق یك شبكه مستطیل (R-HOG) محاسبه می شوند و دیگری كه هیستوگرام ها از طریق یك شبكه دایره ای جمع می شوند (C-HOG). به طور تجربی ، نویسندگان نشان دادند که توصیفگر HOG امکان تشخیص قوی انسان در محیط های طبیعی را فراهم می کند.
هیستوگرام مکان شیب و جهت گیری (GLOH)
Mikolajczyk and Schmid ( 2005) یک توصیفگر تصویر به نام GLOH پیشنهاد کرد ، که از نزدیک به توصیفگر اصلی SIFT مربوط می شود به این معنا که یک هیستوگرام وابسته به موقعیت محلی از جهت گیری های شیبدار در اطراف یک نقطه علاقه نیز باشد. توصیف کننده GLOH از نظر جنبه های (i) محاسبه بر روی یک شبکه قطبی بر خلاف شبکه مستطیل ، متفاوت است (ii) استفاده از تعداد بیشتری 16 سطل برای تعیین مقدار جهت های شیب در مقابل 8 سطر همانطور که در توصیف کننده معمولی SIFT استفاده می شود ، و (iii) با استفاده از تجزیه و تحلیل م componentلفه اصلی برای کاهش ابعاد توصیف کننده تصویر. از نتایج تجربی خود ، نویسندگان استدلال کردند که توصیف کننده GLOH منجر به عملکرد بهتر برای تطبیق نقطه در صحنه های ساختاری می شود در حالی که توصیفگر SIFT در صحنه های بافتی عملکرد بهتری دارد.
ویژگی های سریع (SURF) سریع تر
توصیف کننده SURF که توسط Bay و همکاران پیشنهاد شده است. ( 2006 ، 2008 ) از نزدیک به توصیف کننده SIFT مربوط می شود به این معنا که این یک بردار ویژگی نیز است که از پاسخ هایی مانند میدان پذیرا در محله ای از یک نقطه مورد علاقه به دست می آید. توصیفگر SURF از لحاظ جنبه های زیر متفاوت است:
- این به جای تقریب های مشتق شده در هرم تصویر بر اساس موجک های Haar است ،
- نقاط مورد علاقه تقریب فضاهای اضافی مقیاس فضا از تعیین کننده هسی به جای عملگر لاپلاس را تشکیل می دهند ،
- ورودی های بردار ویژگی به عنوان مبالغ و مبالغ مطلق مشتقات مرتبه اول محاسبه می شوند ∑لایکس,∑|لایکس|,∑لبله,∑|لبله| به جای هیستوگرام جهت های شیب دانه درشت.
به طور آزمایشی ، عملگر SURF منجر به عملکردی قابل مقایسه با اپراتور SIFT می شود. با توجه به اینکه از نظر موجک های Haar اجرا می شود ، عملگر SURF سریعتر است.
Gauss-SIFT
Gauss-SIFT (Lindeberg 2015 ) یک توصیفگر تصویر خالص است که با انجام تمام اندازه گیری های تصویر زمینه توصیف کننده تصویر خالص در SIFT توسط پاسخ های مشتق گاوسی در مقابل تقریب های مشتق در هرم تصویر همانطور که در SIFT معمولی انجام می شود ، تعریف شده است. به این ترتیب می توان اثرات گسسته سازی بر روی فضا و مقیاس را به حداقل ممکن رساند تا توصیف کنندگان تصویر به طور بالقوه دقیق تر باشند.
در (Lindeberg 2015) چنین توصیفگرهای تصویری خالص Gauss-SIFT با مجموعه ای از نقاط علاقه به مقیاس فضا تعمیم یافته از جمله لاپلاسیان گاوسی و تعیین کننده نقاط علاقه هسی ترکیب شدند. در یک ارزیابی تجربی گسترده بر روی یک مجموعه داده پوستر شامل چندین نمایش از 12 پوستر در مورد تغییرات پوسته پوسته شدن تا ضریب 6 و تغییرات جهت مشاهده تا زاویه شیب 45 درجه ، نشان داده شد که افزایش قابل توجهی در عملکرد تطبیق تصویر (بالاتر با جایگزینی Laplacian از امتیازات گاوسی توسط تعیین کننده امتیازات بهره هسی می توان به امتیازات کارایی و نمرات با دقت 1 پایین تر دست یافت. از آنجا که امتیازات اختلاف گاوسی ها تقریب عددی لاپلاسی از امتیازات گاوسی است ،
مقایسه کمی بین توصیف کننده Gauss-SIFT و توصیف کننده Gauss-SURF مربوطه نیز نشان داد که Gauss-SIFT به طور کلی عملکرد قابل توجهی بهتر از Gauss-SURF برای تعداد زیادی از آشکارسازهای مختلف در مقیاس فضا در نقطه مختلف دارد. بنابراین این مطالعه نشان می دهد که بی توجهی به اثرات گسسته سازی ، توصیف کننده تصویر خالص در SIFT به طور قابل توجهی بهتر از توصیف کننده تصویر خالص در SURF است ، در حالی که ردیاب نقطه توجه زمینه در SURF ، که می تواند به عنوان تقریب عددی با فضای اضافی مقیاس تعیین کننده Hessian ، به طور قابل توجهی بهتر از SIFT است.
حوزه های کاربرد
مقیاس تبدیل ویژگی ثابت (SIFT) با توصیفگرهای تصویر مربوط به آن از نظر هیستوگرام عملیات تصویری درست مانند زمینه پذیرایی ، زمینه تحقیق در مورد تطبیق و شناسایی مبتنی بر تصویر را با زمینه های کاربردی متعدد فراهم کرده است. با توجه به اینکه اساساً بر اساس عملیات مقیاس-فضایی یا تقریب های کاملاً مبتنی بر تئوری استوار است ، این روش ها برای محاسبه قوی ویژگی های تصویر و توصیف کننده تصویر از داده های تصویر دنیای واقعی نشان داده شده است.
تطبیق چند نمایه
توصیفگر SIFT با روشهای تطبیق مربوط به آن می تواند برای ایجاد تطابق نقطه ای بین نماهای مختلف یک شی 3 بعدی یا یک صحنه استفاده شود. با ترکیب چنین مکاتبات با هندسه چند نمای ( هارتلی و زایسرمن 2004 ) ، می توان مدل های 3 بعدی از اشیا و صحنه ها را ساخت.
روشهای مشابه برای ایجاد مکاتبات چند نمایه همچنین می تواند برای سنتز نماهای جدید یک شی / صحنه 3 بعدی با توجه به مجموعه ای از نماهای دیگر از همان شی / صحنه (درون یابی مشاهده) استفاده شود ( Chen and Williams 1993 ، Zitnick et al.) 2004 ، Liu و همکاران 2011 ) یا برای ترکیب چندین تصویر از قسمت مشابه که با هم تداخل دارند در پانوراماهای گسترده تر ( Brown and Lowe 2007 ).
تشخیص اشیا
لو در کار پیشگامانه خود در زمینه شناسایی اشیا using با استفاده از اپراتور SIFT نشان داد که تشخیص قوی و کارآمد اشیا در صحنه های طبیعی بر اساس مجموعه ویژگی های تصویر محلی قابل انجام است. در ارتباط نزدیک با این موضوع ، یک تحقیق در حال رشد در مورد روشهای به اصطلاح کیسه ای و روشهای مرتبط برای تشخیص اشیا in در سناریوهای دنیای واقعی ایجاد شده است.
علاوه بر منطقه خاص تشخیص شی ، این نوع روش ها همچنین می توانند برای کارهای مرتبط مانند جستجوی تصویری در پایگاه داده های تصویر ( Lew et al. 2006 ، Datta et al. 2008 ) ، تعامل رایانه ای انسان بر اساس ورودی بصری ( Porta 2002 ، Jaimesa and Sebe 2008 ) یا بیومتریک ( Bicego et al. 2006 ، Li 2009 ، Wang et al. 2010 ).
طبقه بندی دسته اشیا
در حالی که وظیفه شناسایی یک شی previously قبلاً دیده شده در یک صحنه را می توان با استفاده از توصیفگر SIFT یا سایر توصیفگرهای تصویر نزدیک مرتبط توصیف شده در این نظرسنجی به طور مثر انجام داد ، وظیفه طبقه بندی اشیا un دیده نشده قبلی به دسته های اشیا مشکل سخت تری است . در تحقیق برای توسعه چنین روش هایی ، طبقه بندی اشیا in از نظر ویژگی های متراکم SIFT ( بوش و همکاران 2007 ، ماتچ و لوو 2008 ) از سال 2012 هنوز یکی از روش های بهتر است.
رباتیک
برای رباتی که در یک محیط طبیعی حرکت می کند ، می توان از مکاتبات تصویری از نظر ویژگی های SIFT یا توصیف کننده های تصویر مربوطه برای کارهایی مانند (i) بومی سازی ربات با توجه به مجموعه ای از منابع شناخته شده ، (2) نقشه برداری از اطراف از داده های تصویری که با حرکت روبات به دست می آیند ( نگاه کنید به همکاران 2005 ، سعیدی و همکاران 2006 ) یا (3) شناخت و ایجاد روابط هندسی با اشیا in محیط برای دستکاری ربات ( سیسیلیو و خطیب 2008 ).
پیاده سازی ها
برای پردازش کارآمد در زمان واقعی ، پیاده سازی های موازی SIFT برای واحدهای پردازنده گرافیکی (GPU) ( Heymann و همکاران 2007 ) و آرایه های گیت قابل برنامه ریزی میدانی (FPGA) توسعه یافته است ( Se et al. 2001 ، Se et al. 2004 ) . برای پردازش خارج از خط ، پیاده سازی های عمومی در دسترس است ، مانند VLFeat (منبع باز) و برنامه آزمایشی SIFT دیوید لوو ( باینری لینوکس و ویندوز) (به “پیوندهای خارجی” در زیر مراجعه کنید).