الگوریتم C-SIFT

الگوریتم SIFT
سپتامبر 12, 2020
آموزش پردازش تصویر _دستور imread
سپتامبر 20, 2020

الگوریتم C-SIFT

چکیده

SIFT has been proven to be the most robust local invariant feature descriptor. SIFT is designed mainly for gray images. However, color provides valuable information in object description and matching tasks. Many objects can be misclassified if their color contents are ignored. This paper addresses this problem and proposes a novel colored local invariant feature descriptor. Instead of using the gray space to represent the input image, the proposed approach builds the SIFT descriptors in a color invariant space. The built Colored SIFT (CSIFT) is more robust than the conventional SIFT with respect to color and photometrical variations.The evaluation results support the potential of the proposed approach.

ثابت شده است که SIFT قوی ترین توصیف کننده ویژگی ثابت محلی است. SIFT عمدتا برای تصاویر خاکستری طراحی شده است. با این حال ، رنگ اطلاعات ارزشمندی را در توصیف شی و کارهای تطبیق فراهم می کند. در صورت نادیده گرفتن رنگ بسیاری از اشیا ، ممکن است به غلط طبقه بندی شوند. این مقاله به این مشکل پرداخته و یک توصیفگر ویژگی جدید مقاوم به رنگ ,محلی را پیشنهاد می کند. روش پیشنهادی به جای استفاده از فضای خاکستری برای نشان دادن تصویر ورودی ، توصیفگرهای SIFT را در یک فضای ثابت رنگی ایجاد می کند. SIFT رنگی ساخته شده (CSIFT) نسبت به SIFT معمولی به تغییرات رنگ و فتومتریک مقاوم تر است. نتایج ارزیابی از پتانسیل روش پیشنهادی پشتیبانی می کند.

Introduction
Color is an important component for distinction between objects. If the color information in an object is neglected,a very important source of distinction may be lost. The objects of Figure 1 are good examples for the importance of considering color information for object distinction. In this figure, we can see clearly how the pure gray-based geometric description can cause confusion between two completely different features. Nevertheless, most of the existing approaches use gray geometric-based feature extractors. On the other hand, color based image retrieval approaches neglect the geometrical characteristics of objects. Thus, most research studies in feature extraction for object recognition and matching problems have been focusing on either geometric or color features. Geometric features of an object are extracted in high informative regions like corners. Other kinds of approaches use the luminance and/or color signature in order to describe an object. Color histograms [25] and gray level histograms [22] are well-known luminancebased approaches. The color histograms concept has been extended to include some sort of illumination invariance by using color ratios of neighboring pixels [20] or by using illumination-invariant moments for color histogram distributions [8, 24].

مقدمه

رنگ یک جز مهم برای تمایز بین اشیا است. اگر اطلاعات رنگی در یک شی نادیده گرفته شود ، یک منبع تمایز بسیار مهم ممکن است از بین برود. اشیا شکل 1 مثالهای خوبی برای اهمیت در نظر گرفتن اطلاعات رنگ برای تمایز شی هستند. در این شکل ، ما می توانیم به وضوح ببینیم که چگونه توصیف هندسی خالص بر اساس خاکستری می تواند باعث ایجاد سردرگمی بین دو ویژگی کاملا متفاوت شود. با این وجود ، بیشتر روش های موجود از دستگاه های استخراج ویژگی هندسی مبتنی بر (تصویر)خاکستری استفاده می کنند. از طرف دیگر ، رویکردهای بازیابی تصویر مبتنی بر رنگ ، از مشخصات هندسی اشیا غافل می شوند. بنابراین ، بیشتر مطالعات تحقیقاتی در زمینه استخراج ویژگی ها برای شناسایی شی و مشکلات تطبیق بر ویژگی های هندسی یا رنگ متمرکز بوده است. ویژگی های هندسی یک شی در مناطق حاوی اطلاعات زیاد مانند گوشه ها استخراج می شود. انواع دیگر رویکردها برای توصیف یک شی از درخشندگی و / یا نشان رنگ استفاده می کنند. هیستوگرام های رنگی [25] و هیستوگرام های سطح خاکستری [22] روش های شناخته شده مبتنی بر درخشندگی هستند. مفهوم هیستوگرام های رنگی شامل نوعی عدم تغییر روشنایی با استفاده از نسبت رنگ پیکسل های همسایه [20] یا با استفاده از گشتاورهای های مقاوم نور برای توزیع هیستوگرام رنگ است.[8 ، 24]

For all of those approaches, the invariance with respect to imaging conditions represents the biggest challenge. Specifically, the extracted features should be invariant with respect to geometrical variations, such as translation, rotation, scaling, and affine/projective transformations. At the same time, these features should be invariant with respect to photometric variations such as illumination direction, intensity, colors, and highlights. Therefore, several research studies in the literature have been presented to develop feature descriptors that maximize the robustness with respect to these variations.

برای همه این رویکردها ، عدم تغییر در شرایط تصویربرداری بزرگترین چالش است. به طور خاص ، ویژگی های استخراج شده باید با توجه به تغییرات هندسی ، مانند تبدیل ، چرخش ، مقیاس و تبدیل آفاین / پروجکتیو ،مقاوم باشند. در عین حال ، این ویژگی ها باید با توجه به تغییرات فتومتریک مانند جهت نور ، مقدار پیکسل ها ، رنگ ها و هایلایت ها ثابت باشند. بنابراین ، چندین تحقیق در مطالعات گذشته برای توسعه توصیفگر ویژگی ها ارائه شده است که مقاومت را با توجه به این تغییرات به حداکثر می رساند.

In geometrical invariant approaches, local features are preferred because of their robustness to partial appearance and their lower sensitivity to global displacements in the image [16, 23]. Nearly all geometrical invariant approaches avoid dealing with colored images; since colors add another layer of difficulty represented in the color constancy problem .Therefore, color invariance is a crucial problem which has to be solved for distinct object description and recognition. Many research studies have been presented to solve the color constancy problem [3, 6]. The normalized RGB representation [9] has been used to partially achieve the illumination invariance. Some other invariant color representations have been developed depending on statisticalbased transformations [1, 21]. As a more sophisticated approach, various physical-based color invariants have been developed in [11] for invariant color representations under different imaging conditions.

در رویکردهای مقاوم هندسی ، ویژگی های محلی به دلیل استحکام نسبت به جزییات ظاهری و حساسیت کمتری که نسبت به جابجایی های کلی در تصویر دارند ، ترجیح داده می شوند [16 ، 23]. تقریباً تمام رویکردهای ثابت هندسی از برخورد با تصاویر رنگی جلوگیری می کنند زیرا رنگها یک لایه سختی دیگر را اضافه می کنند که در مسئله ثابت بودن رنگ نشان داده شده است. بنابراین ، مستقل از رنگ یک مشکل اساسی است که باید برای توصیف و تشخیص شی مجزا حل شود. بسیاری از مطالعات تحقیقاتی برای حل مسئله ثابت بودن رنگ ارائه شده است [3 ، 6]. نمایش نرمال RGB [9] برای دستیابی به بخشی از عدم تغییر نور استفاده شده است. برخی از نمایش های رنگ ثابت نیز بسته به تبدیلات آماری ایجاد شده اند [1 ، 21]. به عنوان یک رویکرد پیچیده تر ، انواع مختلف رنگ مبتنی بر فیزیک در [11] برای نمایش رنگ ثابت در شرایط مختلف تصویربرداری ایجاد شده است.

Pure geometric-based approaches may have difficulties in describing ”non-geometric objects” and they may fail in differentiating between many objects [23]. On the other hand, due to the global nature in photometric-based approaches,they suffer from partial visibility and ”extraneous features” [23]. In spite of their relatively few number, some research studies in the literature have been presented to combine geometrical and color features. For example, in [12], color and shape invariants are combined for image retrieval. However, the color invariants in that approach are very sensitive to the noise around their singularities. Also, the geometrical invariants are primitive when compared with the pure gray-based approaches.

رویکردهای مبتنی بر هندسه صرف ممکن است در توصیف “اشیا غیر هندسی” مشکل داشته باشند و ممکن است در تمایز بین بسیاری از اشیا شکست بخورند [23]. از طرف دیگر ، به دلیل ماهیت کلی در رویکردهای مبتنی بر فتومتریک ، آنها از دید جزئی و “ویژگی های اضافی” رنج می برند [23]. علیرغم تعداد نسبتاً کمی که دارند ، برخی مطالعات تحقیقاتی در گذشته برای ترکیب ویژگی های هندسی و رنگی ارائه شده است. به عنوان مثال ، در [12] ، تغییر رنگ و شکل برای بازیابی تصویر ترکیب شده است. با این حال ، مقاومت رنگ در این روش نسبت به نویزهای موجود در آنها بسیار حساس هستند. همچنین ، تغییرات هندسی در مقایسه با رویکردهای مبتنی بر خاکستری خالص ابتدایی هستند.

Scale Invariant Feature Transform (SIFT) [16, 17] has been proven to be the most robust among the other local invariant feature descriptors with respect to different geometrical changes [19]. SIFT was mainly developed for gray images which limits its performance with some colored objects. However, there are some attempts in the literature which have been introduced to make use of the color information inside the SIFT descriptors. For example, in [4], the normalized RGB model has been used in combination with SIFT to achieve partial illumination invariance besides its geometrical invariance. The color invariance of this approach is still limited because of the primitive color model used. In [7], a multi-stages recognition approach has been developed in order to achieve both color and geometrical invariance. In the first stage, a color classifier is used label the different image regions. Then, the SIFT descriptors are augmented by adding the color labels. In spite of the good performance of this approach, its need for colored learning instances limits its performance in several applications.

ثابت شده است که تبدیل مستقل از مقیاس ویژگی (SIFT) [16 ، 17] با توجه به تغییرات هندسی مختلف ، در بین سایر توصیفگرهای ویژگی ثابت محلی ، مقاوم ترین است. [19] SIFT عمدتا برای تصاویر خاکستری ساخته شده است که عملکرد آن را با برخی از اشیا رنگی محدود می کند. با این وجود ، در تحقیقات گذشته برخی تلاش ها برای استفاده از اطلاعات رنگی در توصیفگرهای SIFT وجود دارد. به عنوان مثال ، در [4] ، مدل RGB نرمال شده در ترکیب با SIFT برای دستیابی به مقاومت روشنایی علاوه بر عدم تغییر هندسی ، استفاده شده است. مقاومت رنگ این روش به دلیل مدل ابتدایی رنگ مورد استفاده, محدود مانده است. در [7] ، به منظور دستیابی مستقل از رنگ و هندسی ، رویکرد شناسایی چند مرحله ای ایجاد شده است. در مرحله اول ، از طبقه بندی رنگ برای برچسب مناطق مختلف تصویر استفاده می شود. سپس ، توصیف کنندگان SIFT با افزودن برچسب های رنگی ادغام می شوند. علی رغم عملکرد خوب این روش ، نیاز آن به موارد یادگیری رنگی عملکرد آن را در چندین کاربرد محدود می کند.

In this paper, we present a novel Colored SIFT (CSIFT),not to just embed the color information in the descriptors,but to give the built descriptor the robustness with respect to color variations as well as the robustness of the conventional SIFT against geometrical changes. The proposed CSIFT approach is compared to the conventional SIFT approach [16, 17]. The evaluation results show that CSIFT is more stable and distinctive with respect to variations in the photometrical imaging conditions.

در این مقاله ، ما یک SIFT رنگی جدید (CSIFT) را ارائه می دهیم ، نه فقط برای جاسازی اطلاعات رنگ در توصیف گرها ، بلکه برای توصیف ساخته شده مقاوم نسبت به تغییرات رنگ و همچنین استحکام SIFT معمولی در برابر تغییرات هندسی. . روش پیشنهادی CSIFT با رویکرد معمول SIFT مقایسه می شود [16 ، 17]. نتایج ارزیابی نشان می دهد که CSIFT با توجه به تغییرات در شرایط تصویربرداری فتومتریک پایدارتر و متمایزتر است.

Problem Statement
The problem of object description using local invariant approaches can be looked at as the problem of transforming the object image into a set of feature vectors or descriptors.For good object description, two criteria should be satisfied in the extracted features. The first one is the stability, i.e. the extracted features should be invariant to different photometric and geometric changes. The second one is the distinctiveness, which means that the extracted features should have the minimum information to distinguish between the object which they describe and other objects.In section (3), we discuss the geometrical invariance, whereas in section (4) we focus on the color invariance. In section (5), we explain our proposed CSIFT approach for combining both geometrical and color invariants in a single descriptor. Finally, we show some evaluation results that support the potential of CSIFT.

بیان مسأله

مسئله توصیف شی با استفاده از رویکردهای ثابت محلی را می توان به عنوان مسئله تبدیل تصویر شی به مجموعه ای از بردارها یا توصیفگرهای ویژگی در نظر گرفت. برای توصیف خوب شی ، دو معیار باید در ویژگی های استخراج شده رعایت شود. اولین مورد پایداری است ، یعنی ویژگی های استخراج شده باید در تغییرات مختلف فوتومتریک و هندسی ثابت باشند. مورد دوم متمایز بودن است ، به این معنی که ویژگی های استخراج شده باید حداقل اطلاعات را برای تشخیص بین شی توصیف شده از سایر اشیا داشته باشند(تمایز). در بخش (3) ، ما در مورد عدم تغییر هندسی بحث می کنیم ، در حالی که در بخش (4) در عدم تغییر رنگ تمرکز می کنیم در بخش (5) ، ما روش CSIFT پیشنهادی خود را برای ترکیب هر دو فرم هندسی و رنگ در یک توصیفگر توضیح می دهیم. در آخر ، ما برخی از نتایج ارزیابی را نشان می دهیم که از پتانسیل CSIFT پشتیبانی می کنند.

Geometrical Invariance
Geometrical invariance means the invariance of the extracted features to translation, rotation, scaling, or affine transformations as well as occlusion and partial appearance. In other words, for a specific object, a feature F(x) at a location x = (x, y) should satisfy the following condition:

عدم تغییر هندسی
عدم تغییر هندسی به معنای عدم تغییر ویژگی های استخراج شده نسبت به تبدیل، چرخش ، مقیاس یا تبدیل افاین و همچنین انسداد و جزییات ظاهر است. به عبارت دیگر ، برای یک شی خاص ، ویژگی F (x) در مکان x = (x، y) باید شرایط زیر را داشته باشد:

where T is a transformation which includes translation, rotation, scaling or affine transformation.The locality of the extracted features and the way in which the descriptors are built provides the invariance with respect to these geometrical variations, as shown in section (5). The more challenging point is the invariance to scale changes.

که در آن T یک تبدیل است که شامل انتقال ، چرخش ، مقیاس یا تغییر افاین می شود. محل ویژگی های استخراج شده و نحوه ساخت توصیف کننده ها ، با توجه به این تغییرات هندسی ، همانطور که در بخش 5 نشان داده شده است ، عدم تغییر را ایجاد می کند. نکته چالش برانگیزتر عدم تغییر در مقیاس است.

Scale-space theory offers the main tools for selecting the most robust feature locations, or the interest points, against scale variations. Given a signal f : R^N → R, the scalespace representation L : R^N × R+ → R is defined as:

تئوری فضای مقیاس ابزارهای اصلی را برای انتخاب مقاوم ترین مکان های ویژگی یا نقاط مورد علاقه در برابر تغییرات مقیاس ارائه می دهد. با توجه به سیگنال f: RN → R ، نمایش فضای مقیاس L: R^N × R + → R به این صورت تعریف می شود:

where L(x, 0) = f(x)∀x ∈ RN and g(x, t) is the scalespace kernel. As t increases, the scale-space representation L(x, t) of the signal tends to coarser scales.

جایی که L (x ، 0) = f (x) ∀ x ∈ R^N و g (x ، t) هسته فضای مقیاس است. با افزایش t ، نمایش فضای مقیاس L (x ، t) ازسیگنال به مقیاس های درشت تر تمایل دارد.

It has been proven that the Gaussian kernel is the unique kernel for generating the scale-space representation [15].Moreover, Lindeberg [14] has shown that the normalization of the Laplacian of Gaussian, ∇^2g, with a factor σ^2 = t is necessary to give a signal the scale-invariance property. Empirically, it has been proven that the maxima and minima of σ^2∇^2g produces the most stable image features [18]. The normalized Laplacian of Gaussian pyramid can be approximated by a difference-of-Gaussian pyramid [17]. Hence,the locations of the maxima and minima in the differenceof-Gaussian pyramid correspond to the most stable features with respect to scale changes.

ثابت شده است که هسته گاوسی هسته منحصر به فردی برای تولید نمایش فضای مقیاس است [15]. علاوه بر این ، لیندبرگ [14] نشان داده است که نرمال سازی لاپلاس گوسین ، ∇^2g ، با عامل σ^2 = t است برای دادن سیگنال خاصیت عدم تغییر مقیاس لازم است . از نظر تجربی ، ثابت شده است که حداکثر و حداقل های σ^2∇^2g پایدارترین ویژگی های تصویر را تولید می کند [18]. لاپلاسای نرمال هرم گاوسی را می توان با هرم تفاضل گاوسی تقریب زد [17]. از این رو ، مکان های حداکثر و حداقلها در هرم تفاضل گاوسی با ثبات ترین ویژگی ها با توجه به تغییرات مقیاس هستند.

Color Invariance
In this paper, we use the color invariance model, which was developed by Geusebroek et.al [11] to build our CSIFT descriptors. So, in this section, we give a brief description of the invariants in this model. In this model, the color invariants depend on the old Kubelka-Munk theory which models the reflected spectrum of colored bodies [13, 26]. The Kubelka-Munk theory models the photometric reflectance by:

عدم تغییر رنگ

در این مقاله ما از مدل عدم تغییر رنگ استفاده می کنیم ، که توسط Geusebroek et.al [11] ساخت شده برای توصیف گرهای CSIFT استفاده کردیم. بنابراین ، در این بخش ، شرح مختصری از عدم تغییرها در این مدل ارائه می دهیم.در این مدل ، تغییرات رنگ به نظریه قدیمی Kubelka-Munk بستگی دارد که طیف منعکس شده بدنه ها رنگی را مدل می کند [13 ، 26]. تئوری کوبلکا-مونک بازتاب نورسنجی را توسط:

where λ is the wavelength and x is a 2D vector which denotes the image position. e(λ, x) denotes the illumination spectrum and ρf (x) is the Fresnel reflectance at x. R∞(λ, x) denotes the material reflectivity. E(λ, x) represents the reflected spectrum in the viewing direction.This model is suitable for modelling nontransparent /nontranslucent materials. Some special cases can be derived from Eq. (3). For example, the Fresnel coefficient can be neglected for matte and dull surfaces. By assuming equal energy illumination, the spectral components of the source are constant over the wavelengthes and variable over the position, which is applicable for most of the practical cases.So, they can be denoted as i(x). Then, Eq. (3) will be

که λ طول موج است و x یک بردار 2D است که موقعیت تصویر را نشان می دهد. e (λ، x) طیف روشنایی را نشان می دهد و ρf (x) بازتاب فرنل در x است. R∞ (λ، x) نشان دهنده بازتاب مواد است. E (λ، x) طیف منعکس شده را در جهت مشاهده نشان می دهد. این مدل برای مدل سازی مواد غیرشفاف / غیرثاقب مناسب است. برخی موارد خاص را می توان از معادله 3 استخراج کرد. به عنوان مثال ، برای سطوح مات و راکد می توان از ضریب فرنل غافل شد. با فرض انرژی روشنایی برابر ، اجزای طیفی منبع در طول موج ثابت و در موقعیت متغیر هستند ، که در بیشتر موارد عملی قابل اجرا است. بنابراین ، می توان آنها را به عنوان i (x) نشان داد. سپس ، معادله (3) خواهد بود

By considering only matte and dull surfaces for the model of Eq. (3), i.e. ρf ≈ 0 and E = i(x)R∞(λ, x)(which is the Lambertian model under the constraint of equal energy illumination), another object reflectance property Cλ =( Eλ \E ) is provided as an invariant to the viewpoint,surface orientation, illumination direction and illumination intensity. By adding an assumption of planar objects to the previous assumptions, Wx =(Ex\E) is given as an invariant to the changes in the illumination intensity. For matte and dull surfaces with single illumination spectrum Nλx =(ExE−EλEx\E2) is given as an object reflectance property that is independent of the viewpoint, surface orientation, illumination direction, illumination intensity, and illumination color. Hence, Nλx determines material transitions independent of illumination color and intensity distribution. Higher order derivatives for these invariants are used for more robust representations. For the detailed derivation of these invariants, the reader is referred to [11].

فقط با در نظر گرفتن سطوح مات و راکد برای مدل معادله 3، به عنوان مثال ρf ≈ 0 و E = i (x) R∞ (λ، x) (که مدل لمبرتی تحت محدودیت انرژی روشنایی برابر است) ، خاصیت بازتاب جسم دیگری Cλ =( Eλ \E ) که مقاوم از نظر دیدگاه ، جهت گیری سطح ، جهت روشنایی و شدت روشنایی ارائه شده است.با افزودن یک فرض از اشیا مسطح به فرضیات قبلی ، Wx =(Ex\E) مقاوم در تغییرات شدت روشنایی می شود. برای سطوح مات و راکد با یک طیف روشنایی واحد Nλx =(ExE−EλEx\E2) به عنوان یک خاصیت بازتاب شی ارائه می شود که مستقل از دیدگاه ، جهت گیری سطح ، جهت روشنایی ، شدت روشنایی و رنگ روشنایی است. از این رو ، Nλx انتقال مواد را مستقل از توزیع رنگ و شدت نور تعیین می کند. مشتقات مرتبه بالاتر برای این نامتغیرها برای نمایش مقاوم تر استفاده می شوند. برای استخراج دقیق این موارد نامتغیرها ، به [11] مراجعه می شود .

To calculate these invariants from the known RGB color space, the Gaussian color model is used as a general model for representation of spectral information and local image structure [11]. In this model, a linear transformation from the RGB space is used to obtain spectral differential quotients( ˆ E, ˆEλ, ˆEλλ). Then, spatial differential quotients (ˆEx, ˆEλx, ˆEλλx) are obtained by convolution with Gaussian derivative filters. A good approximation for the human vision system and for the CIE 1964 XYZ basis can be obtained by taking λo = 520nm and σλ = 55nm when calculating the first three components ( ˆ E, ˆEλ, ˆEλλ) of the Gaussian color model [11]. Using the product of two linear transformations, one from RGB to XYZ and the other from XYZ to the Gaussian color model [11], the desired implementation of the Gaussian color model in terms of RGB can be obtained, as shown in Eq. (8). Measurement of the color invariants is obtained by substitution of E,Eλ, and Eλλ by ˆ E, ˆEλ, and ˆEλλ at a given σx.

برای محاسبه این تغییرات از فضای رنگی شناخته شده RGB ، از مدل رنگی گاوسی به عنوان یک مدل کلی برای نمایش اطلاعات طیفی و ساختار محلی تصویر استفاده می شود [11]. در این مدل ، یک تبدیل خطی از فضای RGB برای بدست آوردن ضرایب دیفرانسیل طیفی (ˆ E ، ˆEλ ، ˆEλλ) استفاده می شود. سپس ، ضرایب دیفرانسیل مکانی (ˆEx ، ˆEλx ، ˆEλλx) با ترکیب با فیلترهای مشتق گاوسی بدست می آیند. می توان یک تقریب خوب برای سیستم دید انسان و برای CIE 1964 XYZ با محاسبه سه مولفه اول (ˆ E ، λEλ ، ˆEλλ) مدل رنگی گاوسی ، با استفاده از λo = 520nm و σλ = 55nm را بدست آورد. [11] با استفاده از محصول دو تبدیل خطی ، یکی از RGB به XYZ و دیگری از XYZ به مدل رنگی گاوسی [11] ، می توان اجرای مطلوبی از مدل رنگی گاوسی از نظر RGB را بدست آورد ، همانطور که در معادله نشان داده شده است. (8) اندازه گیری عدم تغییر رنگ با جایگزینی E ، Eλ و Eλλ با ˆ E ، ˆEλ و ˆEλλ در σx داده شده بدست می آید.

CSIFT descriptors
Object recognition using local invariant features involves three main stages: interest points detection, descriptor building, and descriptor matching and pose estimation.Considering all the points in the image for object description is not feasible. Therefore, highly informative points are selected as interest points. More stable interest points means better performance. For each of these interest points,a local feature descriptor is built to distinctively describe the local region around the interest point. The final stage is matching the descriptors to decide if this point belongs to the object of interest or not. The matched points are used for further processing such as performing a global object recognition or pose estimation

توصیف گرهای CSIFT
تشخیص اشیا با استفاده از ویژگی های ثابت محلی شامل سه مرحله اصلی است: تشخیص نقاط مورد علاقه ، ساخت توصیفگر ، و مطابقت توصیفگر و تخمین موقعیت. در نظر گرفتن تمام نقاط موجود در تصویر برای توصیف شی عملی نیست. بنابراین ، نقاط حاوی اطلاعات به عنوان نقاط مورد علاقه انتخاب می شوند. نقاط با ثبات تر به معنای عملکرد بهتر است. برای هر یک از این نقاط مورد علاقه ، یک توصیفگر ویژگی محلی ساخته شده است تا به طور متمایز منطقه محلی اطراف نقطه مورد علاقه را توصیف کند. مرحله نهایی مطابقت با توصیف گر برای تصمیم گیری در مورد اینکه آیا این نکته به شی مورد علاقه تعلق دارد یا خیر. از نقاط همسان شده برای پردازش بیشتر مانند انجام شناسایی کلی شی یا برآورد موقعیت استفاده می شود

Interest points detection
Interest points should be selected so that they achieve the maximum possible repeatability under different photomet ric and geometric imaging conditions. As discussed in section (3), the extrema in Laplacian pyramid, which is approximated by difference-of-Gaussian for the input image in different scales, has been proven to be the most robust interest points detector to geometrical changes [5, 19]. Therefore,we detect the interest points at the extrema of a differenceof-Gaussian pyramid of the input image.

تشخیص نقاط مورد علاقه
نقاط مورد علاقه باید طوری انتخاب شوند که در شرایط مختلف تصویربرداری هندسی و فوتومتریک به حداکثر تکرارپذیری ممکن برسند. همانطور که در بخش (3) بحث شد ، اکسترمم در هرم لاپلاس ، که با تفاضل گاوسی برای تصویر ورودی در مقیاس های مختلف تقریب می یابد ، ثابت شده است که قوی ترین آشکارساز نقاط موردعلاقه تغییرات هندسی است [5 ، 19] . بنابراین ، ما نقاط مورد علاقه را در اکسترمم هرم تفاضل گاوسی تصویر ورودی تشخیص می دهیم.

We use the color invariants, which were presented in the previous section, as the working space for the input image in order to achieve the stability of the detected features to photometric changes. Similarly, as in SIFT, we expand the input image by factor of two, before building the pyramid, to preserve the highest spatial frequencies. For the Gaussian color model, we use σx = 2, whereas σ = 1.4 for the Gaussian filter of the pyramid levels. In order to localize the interest points, subpixel/ sub-scale approximation is performed for the obtained extrema to achieve the maximum geometrical stability of the detected interest points [4].

ما برای دستیابی به پایداری ویژگی های شناسایی شده در برابر تغییرات فوتومتریکی ، از ثابت های رنگها که در بخش قبلی ارائه شده اند ، به عنوان فضای کار برای تصویر ورودی استفاده می کنیم. به همین ترتیب ، همانند SIFT ، قبل از ساختن هرم ، تصویر ورودی را با ضریب دو گسترش می دهیم تا بالاترین فرکانس های مکانی را حفظ کنیم. برای مدل رنگ گاوسی ، ما از σx = 2 استفاده می کنیم ، در حالی که σ = 1.4 برای فیلتر گاوسی سطح هرم استفاده می کنیم. به منظور محلی سازی نقاط مورد علاقه، تقریب زیر پیکسل / مقیاس برای اکسترمم بدست آمده برای دستیابی به حداکثر ثبات هندسی نقاط مورد علاقه شناسایی شده انجام می شود [4].

In this paper, we show the results obtained by using the H invariant of Eq. (7)only. However, CSIFT is developed to be used with the other invariants as well. In the next section, we show the improvement which is obtained by using this model instead of gray level representation.

در این مقاله ، ما نتایج به دست آمده با استفاده از ثابت H از معادله 7 را نشان می دهیم. فقط با این حال ، CSIFT ساخته شده است تا با سایر ثابت ها به خوبی استفاده شود. در بخش بعدی ، بهبودی را نشان می دهیم که با استفاده از این مدل به جای نمایش سطح خاکستری بدست آمده است.

Descriptor building
After localizing the interest points, feature descriptors are built to characterize these points. These descriptors should contain the necessary distinct information for their corresponding interest points. Different schemes have been followed for descriptor building [16, 17, 19, 23]. We follow the same strategy of SIFT in building CSIFT descriptors. In other words, the local gradient-orientation histograms for the same-scale neighboring pixels of an interest point are used as the key entries of the descriptor. All orientations are assigned relative to a dominant/canonical orientation of the interest point. Thus, the built descriptor is invariant to the global object orientation. The stability to occlusion, partial appearance, and cluttered surroundings is achieved by the nature of the local description of the interest points.

ساختمان توصیف کننده
پس از محلی سازی نقاط مورد علاقه ، توصیفگرهای ویژگی برای توصیف این نقاط ساخته می شوند. این توصیف کنندگان باید شامل اطلاعات مجزا برای ارتباط نقاط مورد علاقه باشند. طرح های مختلفی برای ساختار توصیف کننده در منابع زیر است [16 ، 17 ، 19 ، 23]. ما در ساخت توصیفگرهای CSIFT از همان استراتژی SIFT پیروی می کنیم. به عبارت دیگر ، هیستوگرام های گرادیان محلی برای پیکسل های همسایه در یک مقیاس از یک نقطه مورد علاقه به عنوان ورودی های اصلی توصیف کننده استفاده می شوند. همه جهت گیری ها نسبت به یک جهت گیری غالب / متعارف از نقطه موردعلاقه تعیین می شوند. بنابراین ، توصیفگر ساخته شده در جهت گیری کلی شی ثابت است. ثبات در انسداد ، شکل ظاهری جزئی و محیط به هم ریخته با ماهیت توصیف محلی نقاط مورد علاقه حاصل می شود.

Instead of using gray gradients in building the keys, we use the gradients of the color invariants which are represented in the previous section. Building CSIFT descriptors in this way makes them obtain inherently the robustness of SIFT to different geometrical transformations. At the same time, the use of color invariants in the feature descriptors, instead of using gray values, guarantees the robustness with respect to photometric changes

به جای استفاده از گرادیان های خاکستری در ساخت کلیدها ، ما از گرادیان های رنگ های مقاوم استفاده می کنیم که در بخش قبلی نشان داده شده اند. ساخت توصیفگرهای CSIFT از این طریق باعث می شود ذاتاً از مقاومت SIFT در برابر تبدیلات مختلف هندسی برخوردار شوند. در عین حال ، به جای استفاده از مقادیر خاکستری ، استفاده از نامتغیرهای رنگ در توصیفگرهای ویژگی ، قدرت را نسبت به تغییرات نورسنجی تضمین می کند.

Feature matching and pose estimation
The matching process is performed for the built local descriptors by finding the nearest neighbor of each feature key in a given feature descriptor database. The collection of location, scale, and canonical orientation of each match provides an estimation for a 2D transformation of the object. After rejecting outliers, the generalized Hough transform [2] is used to find a peak cluster among the estimated 2D transformations. Hence, the object pose is estimated.

تطبیق ویژگی و برآورد موقعیت
فرآیند تطبیق برای توصیف کنندگان محلی ساخته شده با یافتن نزدیکترین همسایه از هر کلید ویژگی در یک پایگاه داده توصیف کننده ویژگی انجام می شود. مجموعه مکان ، مقیاس و جهت گیری متعارف هر مطابقت ، تخمینی را برای تبدیل 2 بعدی جسم فراهم می کند. پس از رد کردن خطوط فرعی ، از تبدیل هاف تعمیم یافته [2] برای یافتن پیک یک خوشه در میان تبدیلات 2D تخمین زده شده استفاده می شود. از این رو ، موقعیت شی تخمین زده می شود.

Experimental Results
To evaluate the proposed approach, we use the ”Amsterdam Library of Object Images (ALOI)” [10] which is an image database of colored objects. ALOI contains a large number of objects under different imaging conditions, namely, different illumination directions, illumination intensities,illumination colors, and object viewpoints. Figure 2 shows a sample object under different illumination directions and intensities. It is noted that there are large variations in the image content with respect to the illumination changes. Therefore, we found that this database will be a good data set in order to prove the potential of our proposed CSIFT.

نتایج تجربی

برای ارزیابی رویکرد پیشنهادی ، ما از “کتابخانه تصاویر شی آمستردام (ALOI)” [10] استفاده می کنیم که یک پایگاه داده تصویری از اشیا رنگی است. ALOI شامل تعداد زیادی اشیا در شرایط مختلف تصویربرداری است ، یعنی جهت های مختلف روشنایی ، شدت روشنایی ، رنگ های روشنایی و دیدگاه های شی. شکل 2 نمونه ای از اشیا را در جهت ها و شدت های مختلف روشنایی نشان می دهد. اشاره شده است که تغییرات زیادی در محتوای تصویر با توجه به تغییرات نور وجود دارد. بنابراین ، متوجه شدیم که این پایگاه داده برای اثبات پتانسیل CSIFT پیشنهادی ما مجموعه داده خوبی خواهد بود.

For evaluation purposes, we compare the performance of CSIFT with the performance of the SIFT. For fair comparison, we assign the optimum values to the SIFT parameters, as described in [17]. Since the geometrical-feature structure of SIFT and CSIFT are very close to each other, we focus on the comparison results between them with respect to photometric variations. Figure 3 shows the detected features of a sample object under different illumination directions and intensities using the H color invariant space versus those obtained using SIFT. It is clear that the number of detected features in the color invariant space is much larger than those in the gray images. It is known that as the number of the detected features increases, the performance of the recognition process is enhanced. Therefore, it is noted from the first glance at Figure 3 that CSIFT performs better with respect to the number of the detected features.

برای اهداف ارزیابی ، ما عملکرد CSIFT را با عملکرد SIFT مقایسه می کنیم. برای مقایسه منصفانه ، ما مقادیر بهینه را به پارامترهای SIFT اختصاص می دهیم ، همانطور که در [17] شرح داده شده است. از آنجا که ساختار ویژگی های هندسی SIFT و CSIFT بسیار نزدیک به یکدیگر هستند ، ما بر روی نتایج مقایسه بین آنها با توجه به تغییرات فوتومتریک تمرکز می کنیم. شکل 3 ویژگی های کشف شده از یک شی نمونه را در جهت ها و شدت های مختلف روشنایی با استفاده از فضای ثابت رنگ H در مقابل آنچه با استفاده از SIFT بدست آمده نشان می دهد. واضح است که تعداد ویژگی های شناسایی شده در فضای ثابت رنگ بسیار بیشتر از تصاویر موجود در تصاویر خاکستری است. شناخته شده است که با افزایش تعداد ویژگی های شناسایی شده ، عملکرد فرایند شناسایی افزایش می یابد. بنابراین ، از نگاه اول در شکل 3 مشخص شده است که CSIFT با توجه به تعداد ویژگی های شناسایی شده عملکرد بهتری دارد

The potential of CSIFT in feature detection is appreciated when some challenging regions for SIFT are considered, e.g. the head and the tail areas of the object of Figure 3. Although the total number of the detected features depends on thresholding constraints, e.g. the contrast threshold,CSIFT still has a large number of repeated features, which leads to a more accurate estimation of the object pose. Table 1 shows the average values of the ratio between the number of the repeated CSIFT features to the number of those obtained by SIFT after rejecting the pixels whose contrast is under a certain threshold. In general, the performance of CSIFT is at least 1.5 times better than the graybased SIFT for low contrast rejection threshold up to 10%. For the recommended threshold of SIFT, which is 3% [17], the number of the repeated CSIFT features is, in average, 1.94 times the number of the repeated gray SIFT features

پتانسیل CSIFT در شناسایی ویژگی ها وقتی برخی مناطق چالش برانگیزSIFT در نظر گرفته شوند درک می شود. به طور مثال قسمت های سر و دم شی از شکل 3. اگرچه تعداد کل ویژگی های شناسایی شده به محدودیت های آستانه بستگی دارد ، به عنوان مثال آستانه کنتراست ، CSIFT هنوز تعداد زیادی ویژگی تکراری دارد که منجر به تخمین دقیق تری از موقعیت جسم می شود. جدول 1 مقادیر متوسط نسبت بین تعداد ویژگیهای تکراری CSIFT به تعداد آنهایی را که SIFT پس از رد پیکسلهایی که کنتراست آنها در یک آستانه مشخص است بدست آورد ، نشان می دهد. به طور کلی ، عملکرد CSIFT حداقل 1.5 برابر بهتر از SIFT خاکستری است برای آستانه رد کنتراست کم تا 10٪. برای آستانه توصیه شده SIFT که 3٪ است [17] ، تعداد ویژگیهای تکراری CSIFT به طور متوسط 1.94 برابر تعداد ویژگیهای تکراری خاکستری SIFT است.

Figure 4 shows quantitative evaluation results for CSIFT versus SIFT. In this figure, we show the repeatability and the matching results for objects imaged under different illumination conditions. Although the percentage repeatability of SIFT may be higher than CSIFT in few cases, the number of matched features of CSIFT is much larger than those of SIFT, as shown in Figures 4(b).

شکل 4 نتایج ارزیابی کمی CSIFT در مقابل SIFT را نشان می دهد. در این شکل ، تکرارپذیری و نتایج مطابقت را برای اشیایی که در شرایط مختلف روشنایی تصویر شده اند ، نشان می دهیم. اگرچه درصد تکرارپذیری SIFT در موارد معدودی ممکن است از CSIFT بالاتر باشد ، اما همانطور که در شکل 4 (ب) نشان داده شده است ، تعداد ویژگی های مطابق CSIFT بسیار بیشتر از SIFT است.

Conclusion
In this paper, we introduced CSIFT as a novel colored local invariant feature descriptor for the purpose of combining both color and geometrical information in object description. Opposite to many existing methods, the proposed approach balances between color and geometrical characteristics. We achieved the color invariance by using the color invariance model developed by Geusebroek et. al. [11], whereas the geometrical invariance is achieved by building CSIFT using a structure similar to that of the SIFT descriptors. Evaluation results proved the high performance of CSIFT when compared with the conventional SIFT descriptors.

نتیجه
در این مقاله ، ما CSIFT را به عنوان یک توصیفگر ویژگی محلی مستقل از رنگ ,جدید به منظور ترکیب اطلاعات رنگی و هندسی در توصیف شی معرفی کردیم. در مقابل بسیاری از روش های موجود ، رویکرد پیشنهادی بین رنگ و مشخصات هندسی تعادل برقرار می کند. ما با استفاده از مدل ثابت نسبت به رنگ که توسط Geusebroek et et ساخته شده , به مدل مستقل از رنگ دست یافتیم، در حالی که عدم تغییر هندسی با ساخت CSIFT با استفاده از ساختاری شبیه به توصیفگرهای SIFT حاصل می شود. نتایج ارزیابی در مقایسه با توصیف گرهای معمولی SIFT عملکرد بالای CSIFT را ثابت کرد.

Acknowledgements
The authors would like to appreciate the useful discussion with Prof. David Lowe. This research has been suppored by NSF Grant IIS-0513974

سپاسگزاریها
نویسندگان مایلند از بحث مفید با پروفسور دیوید لوو قدردانی کنند. این تحقیق توسط NSF Grant IIS-0513974 پشتیبانی شده است

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *