مقاله یادگیری ویژگی بدون نظارت برای طبقه بندی صحنه هوایی

اکتبر 5, 2020
بازنمایی تنک در پردازش تصویر
اکتبر 10, 2020

مقاله یادگیری ویژگی بدون نظارت برای طبقه بندی صحنه هوایی

Abstract—The rich data provided by high-resolution satellite imagery allow us to directly model aerial scenes by understanding their spatial and structural patterns. While pixel- and objectbased classification approaches are widely used for satellite image analysis, often these approaches exploit the high-fidelity image data in a limited way. In this paper, we explore an unsupervised feature learning approach for scene classification. Dense low-level feature descriptors are extracted to characterize the local spatial patterns. These unlabeled feature measurements are exploited in a novel way to learn a set of basis functions.

The low-level feature descriptors are encoded in terms of the basis functions to generate new sparse representation for the feature descriptors. We show that the statistics generated from the sparse features characterize the scene well producing excellent classification accuracy.We apply our technique to several challenging aerial scene data sets: ORNL-I data set consisting of 1-m spatial resolution satellite imagery with diverse sensor and scene characteristics representing five land-use categories, UCMERCED data set representing twenty one different aerial scene categories with sub-meter resolution, and ORNL-II data set for large-facility scene detection.Our results are highly promising and, on the UCMERCED data set we outperform the previous best results. We demonstrate that the proposed aerial scene classification method can be highly effective in developing a detection system that can be used to automatically scan large-scale high-resolution satellite imagery for detecting large facilities such as a shopping mall.

چکیده – داده های غنی ارائه شده توسط تصاویر ماهواره ای با وضوح بالا به ما امکان می دهد صحنه های هوایی را با درک الگوهای مکانی و ساختاری آنها مستقیماً مدلسازی کنیم. در حالی که رویکردهای طبقه بندی مبتنی بر پیکسل و مبتنی بر شی به طور گسترده ای برای تجزیه و تحلیل تصویر ماهواره ای استفاده می شود ، اما اغلب این روش ها از داده های تصویر با کیفیت بالا به روشی محدود بهره می گیرند. در این مقاله ، ما یک رویکرد یادگیری بدون نظارت ویژگی برای طبقه بندی صحنه را بررسی می کنیم. توصیفگرهای متراکم ویژگی های سطح پایین برای توصیف الگوهای مکانی محلی استخراج می شوند. این سنجش های ویژگی بدون برچسب به روشی جدید برای یادگیری مجموعه ای از توابع پایه مورد استفاده قرار می گیرند.

توصیف گرهای ویژگی سطح پایین با توجه به توابع پایه کدگذاری می شوند تا نمایش پراکنده جدیدی برای توصیفگرهای ویژگی ایجاد کند. ما نشان می دهیم که آمار تولید شده از ویژگی های پراکنده ، صحنه را به خوبی تشخیص می دهد و دقت طبقه بندی بسیار خوبی را ایجاد می کند. ما روش خود را در چندین مجموعه داده چالش برانگیز صحنه هوایی اعمال می کنیم: مجموعه داده های ORNL-I متشکل از تصاویر ماهواره ای با وضوح مکانی 1 متر با مشخصات سنسور و صحنه متنوع نشان دهنده پنج دسته کاربری اراضی ، مجموعه داده های UCMERCED نشان دهنده بیست و یک دسته مختلف صحنه های هوایی با وضوح کمتراز متر و مجموعه داده های ORNL-II برای تشخیص صحنه با امکانات بزرگ. نتایج ما بسیار امیدوار کننده هستند و در مجموعه داده های UCMERCED ما از بهترین نتایج قبلی ,بهتر عمل کردیم. ما نشان می دهیم که روش طبقه بندی صحنه هوایی پیشنهادی می تواند در ایجاد یک سیستم شناسایی که می تواند برای اسکن خودکار تصاویر ماهواره ای مقیاس بزرگ با وضوح بالا برای تشخیص امکانات بزرگ مانند یک مرکز خرید استفاده شود ، بسیار موثر باشد.

I. INTRODUCTION
THE high-fidelity image data provided by the new and advanced space-borne sensors provide fresh opportunities to characterize aerial scenes based on the spatial and structural patterns encoded in the imagery. Efficient representation and recognition of scenes from image data are challenging problems. Most of the previous approaches for high-resolution satellite image analysis [2]–[6] focus on classifying pixels or objects (grouping of local homogeneous pixels) into their thematic classes by extracting spectral, textural, and geometrical attributes as classification features. Often, the objective is to model scenes by aggregating the classes in a bottom-up manner.

In contrast, we focus on directly modeling scenes by exploiting the variations in the local spatial arrangements and structural patterns captured by the low-level features. Our approach allows us to develop a holistic representation for aerial scenes that does not require intermediate stages of segmentation and representation of individual geospatial objects. The proposed unsupervised feature learning and encoding strategy maps lowlevel feature descriptors to a new representation that is highly accurate in characterizing different aerial scenes. Fig. 1 shows a few example images representing various aerial scenes that are dealt with in this paper.

With high-resolution image data, aerial scenes are often comprised of different and distinct thematic classes. For example, an image patch associated with a scene representing commercial or large-facility class might comprise different thematic classes such as roads, buildings, trees, impervious surfaces, and parking lots. Encoding the local structural and spatial scene attributes in an efficient and robust fashion is the key to generating discriminatory models to classify such aerial scenes. Direct modeling of aerial scenes based on lowlevel feature statistics is a popular idea. Bag-of-visual-words (BOVW) [7] is a feature encoding approach that has been well explored for scene classification.

Recent studies [8], [9] have shown that sparse coding of features is highly effective for scene classification compared to the traditional BOVW approaches. Our proposed method involves generating a set of basis functions from unlabeled features. The low-level feature descriptors extracted from the scene are encoded in terms of the basis functions to generate spare feature representations.We show that simple statistics generated from these sparse features characterize the scene well producing significant improvement in scene classification accuracies compared to existing approaches reported in [10], [11]. The proposed sparse feature representation works with linear classification model, yet outperforming classification performance of other methods that use complex nonlinear classification models. In this paper,we also evaluated the classification performance of various lowlevel feature measurements such as raw pixel intensity values, oriented filter responses, and local scale invariant feature transformation (SIFT)-based feature descriptors [12].

The major contributions of this paper are:
• Unsupervised feature learning approach to generate feature representation for various high-resolution aerial scenes.
• Extensive experiments with various low-level feature measurements such as raw pixel intensities, oriented filter responses, and SIFT feature descriptors.
• Evaluation of the methodology with different and diverse data sets.
• Detection system based on the proposed feature extraction and learning approaches for detecting large-facility in large-scale high resolution aerial imagery.

The rest of the paper is organized as follows. In Section II, we briefly review recent and relevant work on high-resolution satellite image classification that exploits spatial features. In Section III, we describe our approach on unsupervised feature learning in detail. Section IV provides the overall classification framework. Details of our experiments and results are presented in Sections V and VI. Section VII concludes the paper with discussions on the findings and ideas for extending the work.

مقدمه: داده های تصویر با کیفیت بالا که توسط سنسورهای فضایی جدید و پیشرفته ارائه می شوند فرصت های تازه ای برای توصیف صحنه های هوایی بر اساس الگوهای مکانی و ساختاری رمزگذاری شده در تصاویر فراهم می کنند. نمایش کارآمد و تشخیص صحنه ها از داده های تصویر ، مسئله چالش برانگیزی است. بیشتر رویکردهای قبلی برای تجزیه و تحلیل تصویر ماهواره ای با وضوح بالا [2] – [6] بر طبقه بندی پیکسل ها یا اشیا ((گروه بندی پیکسل های همگن محلی) با استخراج صفات طیفی ، بافتی و هندسی به عنوان ویژگی های طبقه بندی ، در کلاس های موضوعی آنها قرار دارد. غالباً ، هدف این است که صحنه ها را با تجمیع کلاس ها به روشی از پایین به بالا مدل کنید.

در مقابل ، ما بر روی مدل سازی مستقیم صحنه ها با بهره گیری از تغییرات در آرگومان های مکانی محلی و الگوهای ساختاری گرفته شده از ویژگی های سطح پایین تمرکز می کنیم. رویکرد ما به ما امکان می دهد یک نمایش کلی برای صحنه های هوایی ایجاد کنیم که به مراحل میانی تقسیم بندی و نمایش فضایی جداگانه اشیا احتیاج ندارد. استراتژی پیشنهادی یادگیری بدون نظارت ویژگی و رمزگذاری ، توصیفگرهای ویژگی سطح پایین را به نمایشی جدید ترسیم می کند که در توصیف صحنه های مختلف هوایی بسیار دقیق است. شکل 1 چند نمونه تصویر را نشان می دهد که صحنه های مختلف هوایی را نشان می دهد که در این مقاله به آنها پرداخته شده است.

با داده های تصویر با وضوح بالا ، صحنه های هوایی اغلب از کلاسهای موضوعی متفاوت و متمایز تشکیل شده اند. به عنوان مثال ، یک پچ تصویری مرتبط با صحنه ای که نمایانگر کلاس تجاری یا تاسیسات بزرگ است ، ممکن است کلاسهای مختلف موضوعی مانند جاده ها ، ساختمان ها ، درختان ، سطوح غیر قابل نفوذ و پارکینگ ها را در بر داشته باشد. رمزگذاری ویژگیهای ساختاری و مکانی محلی صحنه به روشی کارآمد و قوی ، کلید تولید مدلهای تبعیض آمیز برای طبقه بندی چنین صحنه های هوایی است. مدل سازی مستقیم صحنه های هوایی بر اساس آمار ویژگی های سطح پایین ایده محبوب است. Bag-of-visual-words (BOVW) [7] یک رویکرد رمزگذاری ویژگی است که برای طبقه بندی صحنه به خوبی بررسی شده است.

مطالعات اخیر [8] ، [9] نشان داده است که کدگذاری پراکنده از ویژگی ها برای طبقه بندی صحنه در مقایسه با روش های سنتی BOVW بسیار کارآمد است. روش پیشنهادی ما شامل تولید مجموعه ای از توابع پایه از ویژگی های بدون برچسب است. توصیف گرهای ویژگی های سطح پایین استخراج شده از صحنه بر اساس توابع پایه برای تولید نمایش ویژگی های پراکنده, رمزگذاری می شوند. ما نشان می دهیم که آمار ساده تولید شده از این ویژگی های پراکنده , صحنه را به خوبی تشخیص می دهد و در مقایسه با رویکردهای موجود گزارش شده در [10] ، [11] ، پیشرفت قابل توجهی در دقت طبقه بندی صحنه ایجاد می کند. . با اینکه نمایش ویژگی پراکنده پیشنهادی با مدل طبقه بندی خطی کار می کند ، اما ازعملکرد طبقه بندی روش های دیگر که از مدل های طبقه بندی غیرخطی پیچیده استفاده می کنند ، عملکرد بهتری دارد. در این مقاله ، ما همچنین عملکرد طبقه بندی معیارهای مختلف ویژگی سطح پایین مانند مقادیر روشنایی خام پیکسل ، پاسخ فیلترهای جهت دار و توصیفگرهای تبدیل ویژگی محلی مستقل از مقیاس (SIFT) را ارزیابی کردیم [12].

بخش عمده این مقاله عبارتند از:
• رویکرد یادگیری بدون نظارت ویژگی برای ایجاد نمایش ویژگی برای صحنه های مختلف هوایی با وضوح بالا.
• آزمایش های گسترده با معیارهای های مختلف ویژگی های سطح پایین مانند روشنایی خام پیکسل ، پاسخ فیلترهای جهت دار و توصیفگرهای ویژگی SIFT.
• ارزیابی متدولوژی با مجموعه داده ها متفاوت و متنوع
• سیستم تشخیص بر اساس استخراج ویژگی پیشنهادی و روش های یادگیری برای تشخیص امکانات بزرگ در تصاویر مقیاس بزرگ هوایی با وضوح بالا.

بقیه مقاله به شرح زیر است. در بخش II ، ما به طور خلاصه کارهای اخیر و مربوط به طبقه بندی تصویر ماهواره ای با وضوح بالا را بررسی می کنیم که از ویژگی های مکانی بهره می برد. در بخش III ، ما روش خود را در مورد یادگیری ویژگی های بدون نظارت به طور مفصل توصیف می کنیم. بخش IV چارچوب طبقه بندی کلی را ارائه می دهد. جزئیات آزمایشات و نتایج ما در بخش های V و VI ارائه شده است. بخش هفتم مقاله را با بحث در مورد یافته ها و ایده های گسترش کار به پایان میرسد.

We start by reviewing some of the recent works that exploit spatial context for high-resolution satellite image classification. Bruzzone and Carlin [13] proposed a spatial context driven feature extraction strategy for pixel classification in highresolution images. First, image segmentation was performed at different scales. The segments containing the pixel were used as the spatial contexts for the pixel. Simple spectral statistics associated with the segment along with the geometrical features computed from the segment were used as features. Similarly,Shackelford and Davis [5] combined both pixel- and objectbased features to generate object-level classification of the image. Initially, spectral and textural features were used to generate pixel-level fuzzy classification labels. Statistics computed over the soft classification labels, spectral measurements, and geometrical attributes associated with the segments were used as classification features. However, in both cases the success of the classification is highly dependent on the quality of segmentation. Bellens [4] exploited the morphological profiles generated by applying opening and closing morphological operations on the image. Geometrical attributes associated with the morphological profiles were combined with spectral measurement to generate the pixel features. Most of these approaches were explored for thematic classification of the image into basic classes such as buildings, roofs, roads, trees and impervious surfaces.

Earlier, in contrast to the above approaches, Unsalan and Boyer [14] showed that intermediate representation of the scene based on local line parameters was an effective way to represent different geospatial neighborhoods. The statistical measures derived from line length, contrast, and orientation distributions provided unique lower-dimensional representation for different scene categories. Similarly, Huang [15] explored a similar idea based on directional lines for generating pixel features. The gray-level similarity among pixels at certain distances and orientations were calculated to determine possible direction lines. Statistics computed from the directional line length histogram associated with each pixel was used as the feature vector.However, direction lines that pass through a pixel is detected based on thresholds that are determined heuristically. Again, these line-based approaches were limited in their ability to model diverse sets of neighborhood classes.

Lately, BoVW-based approaches have been examined closely for various aerial scene classification purposes. The basic BoVW approach can be broadly divided into two parts—feature learning and encoding. During feature learning, lowlevel image features are clustered and the cluster centers form the visual words. Later in the feature encoding step, low-level features extracted from an image are mapped to its closest visual word. The visual word histograms computed over the image form the new features. In [16] simple image statistics such as the local mean and variance of pixel intensities were clustered to form the visual words. In [17], additional low-level features such as edge orientations, oriented filter responses, line parameters, and color histograms were used to generate the visual words. In both cases, authors applied Latent Dirichlet Allocation (LDA), an unsupervised generative framework, to model the word distributions. Spatial pyramid matching kernel (SPMK) is an interesting approach introduced by Lazebnik et al. [10] to pool visual words.

The local visual word histograms computed at different scales and spatial bins defined by the spatial pyramid representation of the image were concatenated to produce better scene representations. Yang and Newsam [11] computed co-occurrence of visual words with respect to certain spatial predicates to generate a higher-order visual word distribution model. They combined the higherorder visual word distribution model with the BoVW approach to obtain a spatial extension of the latter. They reported higher classification accuracy for their extended spatial co-occurrence kernel (SPCK++) over the traditional BoVW and the SPMK [10] approaches. However, to achieve good performance, both SPMK and SPCK++ often needs to be used with nonlinear Mercer kernels such as the intersection kernel and the Chisquare kernel, where the computational complexities are high compared to linear kernels. All of the above approaches relied on K-means clustering to map the features to visual words and were limited in their feature representation for classification. Recently, in [18] a linear alternative to the SPMK approach was proposed.The key idea in their approach was to employ sparse coding to generate more succinct representations of the low-level image features. The sparse features, when combined with the SPMK framework, generated feature representations that can be used with linear kernels. However, sparse code generation turned out to be computationally expensive. Earlier, we showed in [19] that our sparse coding framework is highly efficient, producing sparse features at significantly lower computational cost than the previous approach.

ما با مرور برخی از کارهای اخیر که ازمحتوای مکانی برای طبقه بندی تصاویر ماهواره ای با وضوح بالا بهره می برند ، شروع می کنیم.

بروزون و کارلین [13] یک استراتژی استخراج ویژگی محتوا محور برای طبقه بندی پیکسل در تصاویر با وضوح بالا ارائه دادند. ابتدا تقسیم بندی تصویر در مقیاس های مختلف انجام شد. بخشهای حاوی پیکسل به عنوان محتواهای مکانی پیکسل استفاده شدند. آمار و ارقام طیفی ساده مرتبط با قطعه همراه با ویژگی های هندسی محاسبه شده از قطعه به عنوان ویژگی استفاده شد.

به طور مشابه ، Shackelford و Davis [5] هر دو ویژگی مبتنی بر پیکسل و شی را برای ایجاد طبقه بندی در سطح شی از تصویر ترکیب کردند. در ابتدا ، از ویژگی های طیفی و بافتی برای تولید برچسب های طبقه بندی فازی در سطح پیکسل استفاده شد. آمارو ارقامی که بر روی برچسب های طبقه بندی نرم ، معیارهای طیفی و ویژگی های هندسی مرتبط با قطعات تصویر محاسبه شده اند ، به عنوان ویژگی های طبقه بندی استفاده شده اند. با این حال ، در هر دو مورد موفقیت در طبقه بندی بسیار به کیفیت تقسیم بندی بستگی دارد.

بلنس [4] از نمایه های مورفولوژیکی با به کارگیری عملگرهای باز و بسته مورفولوژی بر روی تصویر تولید شده بهره برداری کرد. ویژگی های هندسی مرتبط با نمایه های مورفولوژیکی برای تولید ویژگی های پیکسل با معیارهای طیفی ترکیب شدند. بیشتر این رویکردها برای طبقه بندی موضوعی تصویر به کلاسهای اساسی مانند ساختمان ها ، سقف ها ، جاده ها ، درختان و سطوح غیر قابل نفوذ مورد بررسی قرار گرفت.

پیش از این ، برخلاف رویکردهای فوق ، Unsalan و Boyer [14] نشان دادند که نمایش میانی صحنه بر اساس پارامترهای خطی محلی یک روش موثر برای نشان دادن همسایگی های مختلف فضایی است. معیارهای آماری حاصل از توزیع طول خط، کنتراست و جهت گیری ، نمایش منحنی منحصر به فرد بعدی را برای دسته های مختلف صحنه فراهم می کند.

به همین ترتیب ، هوانگ [15] ایده مشابهی را بر اساس خطوط جهت دار برای تولید ویژگی های پیکسل بررسی کرد. شباهت سطح خاکستری بین پیکسل ها در فواصل و جهت گیری های خاص برای تعیین خطوط جهت احتمالی محاسبه شد. آماری که از هیستوگرام طول خط جهتدار مربوط به هر پیکسل محاسبه شده است به عنوان بردار ویژگی استفاده شده است. با این حال ، خطوط جهتدار با عبور از یک پیکسل بر اساس آستانه هایی که از نظر ابتکاری تعیین می شوند ، شناسایی می شود. باز هم ، این رویکردهای مبتنی بر خط در توانایی آنها برای مدل سازی مجموعه های متنوع از کلاس های همسایگی محدود بودند.

اخیراً ، رویکردهای مبتنی بر BoVW برای اهداف مختلف طبقه بندی صحنه های هوایی از نزدیک بررسی شده است. روش اساسی BoVW را می توان به طور کلی به دو قسمت تقسیم کرد: یادگیری ویژگی و رمزگذاری. در طول یادگیری ویژگی ها ، ویژگی های سطح پایین تصویر خوشه بندی می شوند و مراکز خوشه کلمات تصویری را تشکیل می دهند. بعداً در مرحله رمزگذاری ویژگی ها ، ویژگی های سطح پایین استخراج شده از یک تصویر به نزدیکترین کلمه تصویری آن ترسیم می شوند. هیستوگرام های واژه بصری که روی تصویر محاسبه می شوند ، ویژگی های جدید را تشکیل می دهند.

در [16] آمار تصویری ساده مانند میانگین محلی و واریانس روشنایی های پیکسل برای تشکیل کلمات تصویری خوشه بندی شده است.

در [17] ، از ویژگی های سطح پایین اضافی مانند جهت گیری لبه ، پاسخ فیلترهای جهت دار ، پارامترهای خط و هیستوگرام های رنگی برای تولید کلمات بصری استفاده شد. در هر دو مورد ، نویسندگان برای مدل سازی توزیع کلمات از Latent Dirichlet Alocation (LDA) ، یک چارچوب تولیدی بدون نظارت ، استفاده کردند.

هسته هرم فضایی تطبیق (SPMK) رویکرد جالبی است که توسط Lazebnik و همکاران برای جمع کردن کلمات تصویری ارائه شده است. [10] .هیستوگرام های واژه بصری محلی که در مقیاس های مختلف محاسبه شده و بین های مکانی تعریف شده توسط نمایش هرم مکانی تصویر ، برای تولید نمایش های بهتر صحنه به هم پیوند خورده اند.

یانگ و نیوزام [11] برای ایجاد یک مدل توزیع کلمه بصری مرتبه بالاتر ، هم افزایی کلمات تصویری را با توجه به برخی از پیش بینی های مکانی محاسبه کردند. آنها مدل توزیع کلمات تصویری مرتبه بالاتر را با رویکرد BoVW ترکیب کردند تا توسعه مکانی مورد دوم را بدست آورند. آنها دقت طبقه بندی بالاتر را برای هسته هم افزایی مکانی توسعه یافته (+ SPCK +) نسبت به روشهای سنتی BoVW و SPMK [10] گزارش کردند. با این حال ، برای دستیابی به عملکرد خوب ، هر دو SPMK و + SPCK معمولاً باید با هسته های Mercer غیرخطی مانند هسته تقاطع و Chisquare استفاده شوند ، جایی که پیچیدگی های محاسباتی در مقایسه با هسته های خطی زیاد است. تمام رویکردهای فوق برای ترسیم (مپ )ویژگی ها به کلمات تصویری به خوشه بندی K-means متکی بودند و در نمایش ویژگی های آنها برای طبقه بندی محدود بودند.

اخیراً ، در [18] یک جایگزین خطی برای روش SPMK پیشنهاد شده است. ایده اصلی در روش آنها استفاده از کدگذاری پراکنده برای تولید نمایش های مختصرتر ی از ویژگی های سطح پایین تصویر بود. ویژگی های پراکنده ، اگر با چارچوب SPMK ترکیب شوند ، بازنمایی ویژگی ایجاد می کنند که می توان با هسته های خطی استفاده کرد. با این حال ، تولید کد پراکنده از نظر محاسباتی گران بود.

پیش از این ، ما در [19] نشان دادیم که چارچوب کدگذاری پراکنده ما بسیار کارآمد است و ویژگی های پراکنده ای را با هزینه محاسباتی قابل توجهی پایین تر از روش قبلی تولید می کند.

III. UNSUPERVISED FEATURE LEARNING : Here, the goal is to accurately classify the given image patch into one of the predefined scene categories. Our approach consists of five broad steps—i) feature extraction, ii) feature learning, iii) feature encoding, iv) feature pooling, and v) classification. We begin by extracting low-level feature descriptors from the image patch. As part of the feature learning process, we compute a set of normalized basis functions from the extracted features in an unsupervised manner. We use a variant of sparse coding called Orthogonal Matching Pursuit (OMP-k) [20] to compute the basis function set. During feature encoding,we project the features onto the learned basis function set and apply soft threshold activation function to generate a set sparse features.We pool the sparse features to generate the final feature representation for the image patch. The final features are then fed to a linear support vector machine (SVM) classifier.Fig. 2 shows the overview of the proposed framework. Next, we describe our dense feature extraction strategies and subsequent steps in detail.

Feature Extraction
We evaluate our scene classification framework with three different feature extraction strategies. First, we simply use the raw pixel intensity values as features, next we measure the oriented filter responses at each pixel to construct the feature vector based on filter energy and finally, we experiment with dense SIFT descriptors. We perform feature extraction on the gray image generated from the RGB color channels.

Our system computes low-level feature descriptor for each overlapping pixel blocks. Pixel blocks consist of local and contiguous groups of pixels. We compute descriptors representing low-level feature measurements. At this stage, the input image is represented as set of vectors representing low-level feature measurements as shown in Fig. 3

When extracting features based on raw pixel intensity values, we simply represent the pixel block as column vector xi ∈ Rb where b is the product of the block dimensions and i represents the block index. Note that throughout this paper we denote matrices with bold capital letters, vectors with bold small letters, scalars in italicized letters, superscripted and subscripted indices to denote the column and row positions of the vector respectively, and indices enclosed in brackets denote the element position.

For oriented filter responses, we use the Leung-Malik [21] multiscale and multi-orientation filter banks. Our filter bank consists of first and second derivatives of Gaussian functions at 6 orientations and 3 scales, 8 Laplacian-of-Gaussian, and 4 Gaussian at different scales. Following [21], for each scale we set the Gaussian width correspondingly to {1,√2, 2, 2√2}. The filter bank used in our system is shown in Fig. 4. For each pixel block, we compute the average filter energy at every scale and orientation to generate feature vector xi ∈ Rb where b = 48

Finally, we compute SIFT-based descriptors for each pixel block. This is in contrast to the approaches in [10], [11] where feature descriptors are computed only at certain “interest points.” Previous work by [22] showed that dense SIFT descriptors produced higher classification accuracy than the sparse “interest points”-based descriptors. For computing SIFT descriptors for each pixel block, the pixel block is further divided into 4 × 4 non-overlapping sub-blocks. For each subblock a magnitude weighted orientation histogram is computed. The orientations are divided into 8 intervals. The magnitudes are further weighted by a Gaussian function with σ equal to one-half the width of the descriptor window. Local histograms are stacked to form the feature vector xi ∈ Rb where b = 128. We use the dense SIFT implementation provided by [23] for our feature computation.

یادگیری بدون نظارت ویژگی

در اینجا ، هدف طبقه بندی دقیق پچ تصویر داده شده در یکی از دسته های صحنه از پیش تعریف شده است. رویکرد ما شامل پنج مرحله گسترده است – I) استخراج ویژگی ، II) یادگیری ویژگی ، III) رمزگذاری ویژگی ، IV) جمع آوری ویژگی و V) طبقه بندی. ما با استخراج توصیفگرهای سطح پایین ویژگی از پچ تصویر شروع می کنیم. به عنوان بخشی از فرایند یادگیری ویژگی ها ، ما مجموعه ای از توابع پایه نرمال شده از ویژگی های استخراج شده را به روشی بدون نظارت محاسبه می کنیم. ما برای محاسبه مجموعه تابع پایه از یک نوع کدگذاری پراکنده به نام Orthogonal Matching Pursuit (OMP-k) [20] استفاده می کنیم. در حین رمزگذاری ویژگی ها ، ما ویژگی ها را بر روی مجموعه توابع پایه آموزش دیده ها پروجکت می کنیم و از تابع فعال سازی آستانه نرم برای تولید یک مجموعه ویژگی پراکنده استفاده می کنیم. ما ویژگی های پراکنده را برای تولید نمایش ویژگی نهایی برای پچ تصویر جمع می کنیم. سپس ویژگی های نهایی به طبقه بندی ماشین بردار پشتیبان خطی (SVM) خورانده می شوند. شکل 2 مروری بر چارچوب پیشنهادی را نشان می دهد. بعد ، ما استراتژی های استخراج ویژگی متراکم و مراحل بعدی را با جزئیات شرح می دهیم.

استخراج ویژگی : ما چارچوب طبقه بندی صحنه خود را با سه استراتژی مختلف استخراج ویژگی ارزیابی می کنیم. ابتدا ، ما به سادگی از مقادیر روشنایی خام پیکسل به عنوان ویژگی استفاده می کنیم ، سپس پاسخ های فیلتر جهت دار را در هر پیکسل اندازه گیری می کنیم تا بردار ویژگی را بر اساس انرژی فیلتر بسازیم و در آخر ، توصیف کننده های متراکم SIFT را آزمایش می کنیم. ما استخراج ویژگی را روی تصویر خاکستری تولید شده از کانال های رنگی RGB انجام می دهیم.

سیستم ما توصیف گر ویژگی سطح پایین برای هر بلوک پیکسلی همپوشان را محاسبه می کند. بلوک های پیکسل از گروه های پیکسل محلی و مجاور تشکیل شده اند. ما توصیف گرهای معیارهای ویژگی سطح پایین را محاسبه می کنیم. در این مرحله ، تصویر ورودی به عنوان مجموعه ای از بردارهای اندازه گیری ویژگی سطح پایین نشان داده می شود که در شکل 3 نشان داده شده است.

هنگام استخراج ویژگی ها بر اساس مقادیر روشنایی خام پیکسل ، ما به سادگی بلوک پیکسل را به عنوان بردار ستونی xi ∈ Rb نشان می دهیم که b حاصلضرب ابعاد بلوک است و i نمایانگر شاخص بلوک است. توجه داشته باشید که در سراسر این مقاله ما ماتریس ها با حروف بزرگ پررنگ ، بردارها با حروف کوچک پررنگ ، مقیاس ها با حروف کج ، شاخص های بالا (بالانویس )و پایین (زیرنویس)برای نشان دادن ستون و سطرهای بردار به ترتیب نشان می دهیم ، و شاخص های محصور در پرانتز(براکت) نشان دهنده موقعیت عنصر است.

برای پاسخ فیلترهای جهت دار ، از بانکهای فیلتر چند مقیاس و چند جهته Leung-Malik [21] استفاده می کنیم. بانک فیلتر ما از مشتقات اول و دوم توابع گاوسی در 6 جهت و 3 مقیاس ، 8 لاپلاس گوسی و 4 گوسی در مقیاس های مختلف تشکیل شده است. به دنبال [21] ، برای هر مقیاس عرض گاوسی را متناسب با {1 ، √2 ، 2 ، 2√2} تنظیم می کنیم. بانک فیلتر مورد استفاده در سیستم ما در شکل 4 نشان داده شده است. برای هر بلوک پیکسل ، ما میانگین انرژی فیلتر را در هر مقیاس و جهت محاسبه می کنیم تا بردار ویژگی xi ∈ Rb را تولید کنیم که در آن b = 48

در آخر ، ما توصیفگرهای مبتنی بر SIFT را برای هر بلوک پیکسل محاسبه می کنیم. این در تضاد با رویکردهای موجود در [10] ، [11] است که توصیف گرهای ویژگی فقط در “نقاط موردعلاقه” خاصی محاسبه می شوند. کارهای قبلی [22] نشان داد که توصیف کننده های متراکم SIFT نسبت به توصیفات مبتنی بر “نقاط مورد علاقه” ، دقت طبقه بندی بالاتری دارند. برای محاسبه توصیفگرهای SIFT برای هر بلوک پیکسل ، بلوک پیکسل بعدی به 4 × 4 زیر بلوک غیر همپوشانی تقسیم می شود. برای هر ساب بلاک یک هیستوگرام جهت وزن دار محاسبه می شود. جهت ها به 8 بازه تقسیم می شوند. اندازه ها بیشتر توسط یک تابع گاوسی با σ برابر نصف عرض پنجره توصیفگر وزندهی می شوند. هیستوگرامهای محلی روی هم انباشته می شوند تا بردار ویژگی xi ∈ Rb را در جایی که b = 128 است تشکیل دهند. ما برای محاسبه ویژگی خود از پیاده سازی متراکم SIFT ارائه شده توسط [23] استفاده می کنیم.

Feature Learning
Feature learning consists of learning a set of basis functions D from the feature vectors extracted above. Note that the basis function set is also referred as dictionary, codebook, and visual words. First, we randomly sample low-level features from the entire data set to generate matrix X = [x1, x2, . . . , xM] where M is the number of samples. We set M = 100000 for all the experiments described in the later section. The matrix is normalized by subtracting the mean and dividing by the standard deviation. Next, to whiten the data we apply a Zero Component Analysis (ZCA) transform. The main idea here is that the feature elements representing spatially adjacent pixels might exhibit high correlation, and by removing these correlations we can force the model to learn the high-order structure in the data. We compute the whitened feature matrix as presented in [24], Xwhite = TX, where T = UP−(1/2)U and Uand P are the eigenvectors and eigenvalues of the covariance matrix of X.

Next, given the whitened feature matrix Xwhite, we learn the basis functions by finding best solution for a minimization problem which is similar to the sparse coding framework. The basis function D is learned using alternate minimization of (1)

where si0 is the number of nonzero elements in column vector si. Iteration begins by randomly initializing D and s, and proceeds to minimize (1) by alternatively fixing the variables. To initialize D we randomly pick feature vectors from Xwhite and normalize each column to be unit vector (Dj2 = 1). In this paper, we set k = 1 so, given D we set si(j) = Dj xi where argmaxj Dj xi and all other elements of si to 0. Now with sparse codes si fixed we can compute D = Xwhite ∗ S where S = [s1, s2, . . . , sM].

We run a fixed number of iterations (set to 100 for all the experiments) to generate D ∈ Rb×d where b is the feature length and d is the length of the dictionary set. The main idea behind the minimization framework is to find a set of basis functions and corresponding sparse weights that can be used to reproduce the original feature matrix (Xwhite) with least reconstruction error. The set of normalized basis functions D generated at this step can be seen as a codebook based on which low-level feature descriptors are encoded during the feature encoding phase. As the size of the dictionary d increases, the number of basis vectors that will used to encode the low-level feature descriptor also increases resulting in a high-dimensional vector. In this paper,we carefully set the dictionary size d based on crossvalidation. For visualization of the basis function set, in Fig. 5 we show the set generated from feature descriptors composed of raw pixel values

یادگیری ویژگی : یادگیری ویژگی شامل یادگیری مجموعه ای از توابع پایه D از بردارهای ویژگی استخراج شده در بالا است. توجه داشته باشید که مجموعه توابع پایه نیز به عنوان فرهنگ لغت ، کتاب کد ، و کلمات تصویری (مورد مراجعه)است. ابتدا ویژگی های سطح پایین را به طور تصادفی از کل مجموعه داده ها برای تولید ماتریس X = [x1 ، x2 ،. . . ، xM] که در آن M تعداد نمونه است نمونه برداری می کنیم. ما برای تمام آزمایشاتی که در بخش بعدی شرح داده شد ، M = 100000 تنظیم کردیم. ماتریس با کم کردن میانگین و تقسیم بر انحراف معیار نرمال می شود. در مرحله بعد ، برای سفید کردن داده ها ، از یک تجزیه و تحلیل مولفه صفر (ZCA) استفاده می کنیم. ایده اصلی در اینجا این است که عناصر ویژگی نشان دهنده پیکسل های مکانی مجاور ممکن است همبستگی بالایی از خود نشان دهند و با حذف این همبستگی ها می توانیم مدل را مجبور به یادگیری ساختار مرتبه بالا در داده ها کنیم. ما ماتریس سفید ویژگی را همانطور که در [24] ، Xwhite = TX ارائه شده است ، محاسبه می کنیم ، جایی که T = UP− (1/2) U و U و P بردارهای ویژه و مقادیر ویژه ماتریس کوواریانس X هستند.

بعد ، با توجه به ماتریس ویژگی سفید Xwhite ، ما با یافتن بهترین راه حل برای یک مسئله حداقل رساندن ، که شبیه چارچوب کدگذاری پراکنده است ، توابع پایه را یاد می گیریم. تابع پایه D با استفاده از به حداقل رساندن جایگزین (1) یاد گرفته می شود

که si 0 تعداد عناصر غیر صفر در بردار ستونی si است. تکرار با مقداردهی اولیه D و s به طور تصادفی آغاز می شود و با اصلاح متغیرها به حداقل می رسد (1). برای مقداردهی اولیه D ، ما به طور تصادفی بردارهای ویژگی را از Xwhite انتخاب کرده و هر ستون را نرمال می کنیم تا بردار واحد باشد (Dj 2 = 1). در این مقاله ، k = 1 را تنظیم می کنیم ، بنابراین با توجه به D ، si (j) = Dj xi را تنظیم می کنیم که argmaxj Dj xi و تمام عناصر دیگر si را به 0 می رساند. اکنون با کدهای پراکنده ثابت si می توانیم D = Xwhite را محاسبه کنیم S جایی که S = [s1 ، s2 ،. . . ، sM].

ما تعداد تکرارهای ثابتی را اجرا می کنیم (برای همه آزمایش ها روی 100 تنظیم می شود) تا D ∈ Rb × d تولید کنیم که در آن b طول ویژگی است و d طول مجموعه فرهنگ لغت است. ایده اصلی در پشت چارچوب حداقل رساندنی ، یافتن مجموعه ای از توابع پایه و وزن های پراکنده متناظر است که بتواند برای تولید ماتریس ویژگی اصلی (Xwhite) با حداقل خطای بازسازی استفاده شود. مجموعه توابع پایه نرمال D تولید شده در این مرحله را می توان به عنوان یک کتاب کد مشاهده کرد که براساس آن توصیفگرهای سطح پایین در طول مرحله رمزگذاری ویژگی کدگذاری می شوند. با افزایش اندازه فرهنگ لغت d ، تعداد بردارهای پایه که برای رمزگذاری توصیفگر ویژگی سطح پایین استفاده می شود نیز افزایش می یابد و در نتیجه یک بردار با ابعاد بالا ایجاد می شود. در این مقاله ، ما به دقت اندازه فرهنگ لغت را بر اساس اعتبار سنجی تنظیم می کنیم. برای تصویرسازی مجموعه توابع پایه ، در شکل 5 مجموعه تولید شده از توصیفگرهای ویژگی متشکل از مقادیر خام پیکسل را نشان می دهیم

Feature Encoding
Now given the basis function set D, we proceed to encode the low-level feature descriptors in terms of the basis functions.The main objective here is to generate a robust representation that effectively and efficiently encodes the local patterns in the scene.

To highlight the importance of the feature encoding step we analyzed other simple alternatives. Simply concatenating the original feature descriptors {x1, x2, . . . , xN}, where N is the number of feature descriptors extracted from the image patch, could result in prohibitively high-dimensional feature vector which might be almost impractical to deal with considering the huge storage and computation cost. Another alternative would be to simply average the feature descriptors to form a vector representing the scene category. Our experiments show that this naive strategy results in poor characterization of the scenes.

Here, we explore a strategy in which the feature descriptors are encoded in terms of the basis function set D. Previous work by [25] shows that we can pair the basis function generation step with any suitable encoding method that yields the best performance for the problem at hand. Following this we employ a simple and efficient sparse feature generation strategy. The basis function set D represents normalized local spatial patterns that can be linearly combined to reconstruct the lowlevel feature descriptors. To represent the scene in terms of the basis functions, we project the feature descriptor xi onto the basis vectors represented in the set D to compute the linear weights.

Next we apply a soft threshold activation function to generate sparse features. The main idea is that we would like to retain information about the most important (in terms of reconstruction) basis functions associated with the lowlevel feature descriptor. In our encoding scheme positive and negative weights above and below certain thresholds defined by the threshold parameter α are retained and remaining elements are forced to zero resulting in a sparse representation of the lowlevel feature descriptor. Previously, in [26], [27] a similar soft threshold activation function was used to estimate sparse codes.Our experiments confirm that the sparse features generated by encoding the positive and negative linear weights produces state-of-the-art classification results.

Given feature descriptor xi and basis function set D, we proceed as shown below to generate sparse representation zi

where zi is the sparse feature corresponding to the low-level feature descriptor xi. In (2) the feature descriptor xi is projected onto the normalized basis vectors (Dj) by dot product operation. In (3) and (4), the corresponding weight vector si is subjected to a soft threshold function where positive and negative weights above and below certain threshold defined by α are retained setting other elements to zero resulting in sparse features (+zi,−zi). The sparse features are stacked to form the sparse feature zi.

رمزگذاری ویژگی :
اکنون با توجه به مجموعه توبع پایه D ، ما رمزگذاری توصیفگرهای سطح پایین با توابع پایه را انجام می دهیم. هدف اصلی در اینجا تولید یک نمایش قوی است که به طور موثر و کارآمد الگوهای محلی را در صحنه رمزگذاری کند.

برای برجسته کردن اهمیت مرحله رمزگذاری ویژگی ها ، گزینه های ساده دیگر را تحلیل کردیم. به سادگی پیوند توصیفگرهای ویژگی اصلی را به هم {x1، x2،. . . ، xN} ، جایی که N تعداد توصیف گرهای ویژگی استخراج شده از پچ تصویر است ، می تواند با محسابات زیاد منجر به بردار ویژگی با ابعاد بالا شود که پرداختن به آن برای ذخیره سازی زیاد و هزینه محاسبه تقریباً غیر عملی است. گزینه دیگر این است که به سادگی توصیفگرهای ویژگی را برای شکل دادن به یک بردار نمایانگر طبقه بندی صحنه ، میانگین گیری کنیم. آزمایش های ما نشان می دهد که این استراتژی ساده منجر به تشخیص ضعیف صحنه ها می شود.

در اینجا ، ما یک استراتژی را کشف می کنیم که در آن توصیفگرهای ویژگی با مجموعه تابع پایه رمزگذاری می شوند. کار قبلی [25] نشان می دهد که ما می توانیم مرحله تولید تابع پایه را با هر روش رمزگذاری مناسب که بهترین عملکرد را برای مسئله حاضر دارد ، جفت کنیم. به دنبال این ما از یک استراتژی تولید ویژگی های پراکنده ساده و کارآمد استفاده می کنیم. مجموعه توابع پایه D نشان دهنده الگوهای مکانی محلی نرمال است که می تواند به صورت خطی برای بازسازی توصیفگرهای ویژگی سطح پایین ترکیب شود. برای نمایش صحنه با توابع پایه ، توصیفگر ویژگی xi را بر روی بردارهای پایه نمایان شده در مجموعه D برای محاسبه وزنهای خطی طراحی می کنیم.

بعد ما یک تابع فعال سازی آستانه نرم را برای تولید ویژگی های پراکنده استفاده می کنیم. ایده اصلی این است که ما می خواهیم اطلاعات مربوط به مهمترین توابع پایه (از نظر بازسازی) مرتبط با توصیفگر ویژگی سطح پایین را حفظ کنیم. در طرح رمزگذاری ما ، وزن های مثبت و منفی در بالا و پایین آستانه های مشخصی که با پارامتر آستانه α تعریف شده اند ، حفظ می شوند و عناصر باقی مانده مجبور به صفر می شوند و نتیجه ,نمایشی پراکنده از توصیف کننده ویژگی سطح پایین است. پیش از این ، در [26] ، [27] از یک تابع فعال سازی آستانه نرم مشابه برای تخمین کدهای پراکنده استفاده شده بود. آزمایش های ما تأیید می کنند که ویژگی های پراکنده تولید شده با رمزگذاری وزنهای خطی مثبت و منفی ، نتایج طبقه بندی مقالات قبلی را ایجاد می کند.

با توجه به توصیفگر ویژگی xi و مجموعه تابع پایه D ، ما همانطور که در زیر نشان داده شده است ، تولید نمایشی پراکنده zi ایجاد کنیم

که در آن zi ویژگی پراکنده مربوط به توصیفگر ویژگی سطح پایین xi است. در (2) توصیفگر ویژگی xi با استفاده از عملیات نقطه حاصل بر روی بردارهای پایه نرمال (Dj) پیش بینی شده است. در (3) و (4) ، بردار وزن مربوطه si تحت یک تابع آستانه نرم قرار می گیرد که در آن وزنهای مثبت و منفی بالای و زیر آستانه مشخص شده توسط α حفظ می شوند و عناصر دیگر را به صفر می رسانند و نتیجه ویژگی های پراکنده (+ zi ، – zi) است. ویژگی های پراکنده روی هم انباشته می شوند تا ویژگی پراکنده zi را تشکیل دهند.

D. Feature Pooling
With the sparse features zi computed for an image patch, we can estimate the final feature representation based on simple statistics of the sparse features. One popular choice is to pool the sparse features using simple averaging

Previous researchers have explored various other methods to pool the sparse features. The sparse features are pooled by computing local histograms at different spatial scales and bins and histograms are concatenated to form the final feature representation [10]. In [18], instead of computing local histograms the maximum values for the sparse code at different scales and spatial bins are retained as features. In [11], the spatial co-occurrence statistics of sparse features are computed instead of direct pooling. However, most of these feature pooling strategies result in costly training and storage requirements.The advanced feature pooling strategies require nonlinear SVM kernels such as histogram of intersection (HIK) or Chi-Square kernels to be used for feature to class label mapping. This would result in SVM training costs on the order or O(n3) and storage costs on the order of O(n2) for n × n kernel matrix. In this paper, we use the simple averaging-based feature pooling given by (7) to generate final feature representation for the image patch.

D. جمع کردن ویژگی ها
با استفاده از ویژگی های پراکنده zi که برای یک پچ تصویر محاسبه شده است ، می توانیم نمایش ویژگی نهایی را بر اساس آمار ساده از ویژگی های پراکنده تخمین بزنیم. یک انتخاب محبوب این است که ویژگی های پراکنده را با استفاده از میانگین ساده بدست آورد

محققان قبلی روش های مختلف دیگری را برای جمع آوری ویژگی های پراکنده بررسی کرده اند. ویژگی های پراکنده با محاسبه هیستوگرام های محلی در مقیاس های مختلف مکانی جمع آوری می شود. بین ها و هیستوگرام های به هم متصل می شوند تا نمایش نهایی ویژگی را فرم دهند [10] . در [18] ، به جای محاسبه هیستوگرام های محلی ، حداکثر مقادیر کد پراکنده در مقیاس ها و بین های مختلف مکانی به عنوان ویژگی حفظ می شوند. در [11] ، آمار وقوع همزمان مکانی ویژگی های پراکنده به جای تجمع مستقیم محاسبه می شود. با این حال ، اکثر این استراتژی های جمع آوری ویژگی ها به آموزش و ذخیره سازی پرهزینه نیاز دارند. استراتژی های جمع آوری ویژگی پیشرفته به هسته های SVM غیرخطی مانند هیستوگرام تقاطع (HIK) یا هسته های Chi-Square برای مپ کردن ویژگی ها به برچسب کلاس استفاده می شوند. این امر منجر به هزینه های آموزش SVM با مرتبه یا O (n3) و هزینه های ذخیره سازی با مرتبه O (n2) برای ماتریس هسته n × n می شود. در این مقاله ، ما برای ایجاد نمایش ویژگی نهایی برای پچ تصویر ، از تجمیع ویژگی های ساده مبتنی بر میانگین داده شده توسط (7) استفاده می کنیم.

IV. SCENE CLASSIFICATION
Here, we describe our SVM-based scene classification framework. Our unsupervised feature learning framework works with a linear SVM (linear kernel) with training costs on the order of O(n). The objective of the classifier is to map feature vector p representing the input image to one of the predefined scene labels. For classification, we learn the below binary decision function based on the SVM formulation.

The variables w and b defining the SVM decision plane and the bias, respectively are learned from the training data.With the SVM decision function, binary class labels are assigned to the image based on the sign of the function. In the case of multi-class predictions we adopt a one-against-one strategy where multiple binary classifiers are trained on data from two classes. The binary decisions are combined through a voting strategy.We refer interested readers to [28] for additional details on multi-class predictions under SVM formulation. The overall scene classification framework is given in Algorithm 1.

طبقه بندی صحنه
در اینجا ، ما چارچوب طبقه بندی صحنه مبتنی بر SVM را توصیف می کنیم. چارچوب یادگیری بدون نظارت ویژگی ما با SVM خطی (هسته خطی) با هزینه های آموزش مرتبه O (n) کار می کند. هدف طبقه بندی ، مپ کردن بردار ویژگی p که نماینگرتصویر ورودی را به یکی از برچسب های صحنه از پیش تعریف شده نشان می دهد. برای طبقه بندی ، تابع تصمیم گیری باینری زیر را بر اساس فرمول SVM می آموزیم.

متغیرهای w و b برای تعیین سطح تصمیم گیری SVM و بایاس ، به ترتیب از داده های آموزش آموخته می شوند. با تابع تصمیم گیری SVM ، برچسب های کلاس باینری بر اساس علامت تابع به تصویر اختصاص می یابند. در مورد پیش بینی های چند کلاسه ، ما یک استراتژی یک در برابر یک را اتخاذ می کنیم که در آن چندین طبقه بندی باینری بر روی داده های دو کلاس آموزش داده می شوند. تصمیمات باینری از طریق یک استراتژی رأی گیری ترکیب می شوند. ما برای جزئیات بیشتر در مورد پیش بینی های چند طبقه تحت فرمول SVM ، خوانندگان علاقه مند را به [28] ارجاع می دهیم. چارچوب کلی طبقه بندی صحنه در الگوریتم 1 آورده شده است.

V. EXPERIMENTAL SETUP AND DATA
In this section we provide details about the experimental setup and the different data sets used in our experiments.
A. Experimental Setup
Low-level feature descriptors were extracted from overlapping blocks of pixels. We set the block dimensions to 16 × 16 and overlap parameter to 8 pixels. For basis function generation we set d = 1000 and for feature encoding we set α = 1 based on cross-validation results. For all the experiments we kept the same parameter settings. For learning SVM classification model we randomly selected a subset of images from the data set to form the training set. We tested the learned SVM classification model on the remaining images to measure the performance. This process was repeated 5 times and we report the average classification accuracy and standard deviation.With ORNL-I and UCMERCED data set we randomly select 80 samples from each class to initialize the training set. On ORNLII
data set, we randomly select 70 and 400 positive and negative samples representing the large-facility scene. The detection model generated from this data set is used for large-facility scene detection on several large-scale high-resolution satellite imagery.

B. ORNL-I Data Set
First, we apply our approach on the ORNL-I data set [29] containing approximately 1-m spatial resolution satellite images representing five different geospatial neighborhood classes namely—agricultural, large-facility, commercial, suburban, and wooded. These images were collected from various sources including the U.S. Department of Agriculture’s (USDA) National Agricultural Imagery Program (NAIP), Microsoft’s TerraServer-USA database, and orthoimagery provided by the states of California and Utah. The collection includes 170, 153, 171, 186 and 170 images for the agricultural, large-facility, commercial, suburban, and wooded classes, respectively. The images are distributed throughout the United States, captured under diverse conditions reflecting different sensor characteristics, shadow conditions, scene conditions and temporal attributes giving rise to large within-class variations. Fig. 6 shows example images from the commercial class highlighting the large within-class variations. To define the large-facility class, we mainly selected large shopping malls comprised of large buildings surrounded by huge parking lots and, for the commercial class we used samples from the city centers (downtown). The suburban class represents residential houses, the agricultural class represents fields, and the wooded class represents forested areas. The images are manually cropped to 512 × 512 pixels representing roughly 0.5 square km on the ground. Fig. 1 contains an example image from each category.

V. تنظیمات تجربی و داده ها
در این بخش ، ما جزئیات مربوط به تنظیمات آزمایشی و مجموعه داده های مختلف مورد استفاده در آزمایشات خود را ارائه می دهیم
.A. راه اندازی آزمایش
توصیفگرهای ویژگی سطح پایین از بلوکهای پیکسل دارای اشتراک استخراج شدند. ابعاد بلوک را 16 × 16 و پارامتر همپوشانی را 8 پیکسل قرار می دهیم. برای تولید تابع پایه ، d = 1000 و برای رمزگذاری ویژگی ، α = 1 را بر اساس نتایج اعتبار سنجی تنظیم می کنیم. برای همه آزمایشات ، تنظیمات پارامتر مشابه را حفظ کردیم. برای یادگیری مدل طبقه بندی SVM ما به طور تصادفی زیر مجموعه ای از تصاویر را از مجموعه داده ها انتخاب کردیم تا مجموعه آموزش را تشکیل دهیم. ما مدل طبقه بندی SVM آموخته شده را برای اندازه گیری عملکرد روی تصاویر باقیمانده آزمایش کردیم. این فرآیند 5 بار تکرار شد و ما میانگین دقت طبقه بندی و انحراف معیار را گزارش می دهیم. با مجموعه داده های ORNL-I و UCMERCED ، از هر کلاس به طور تصادفی 80 نمونه را برای شروع مجموعه آموزش انتخاب می کنیم. در ORNLIIمجموعه داده ها ، ما به طور تصادفی 70 و 400 نمونه مثبت و منفی را که نمایانگر صحنه امکانات بزرگ هستند انتخاب می کنیم. مدل تشخیصی تولید شده از این مجموعه داده برای تشخیص صحنه با امکانات بزرگ در چندین تصویر ماهواره ای با وضوح بالا استفاده می شود.

B. مجموعه داده های ORNL-I
ابتدا ، ما رویکرد خود را بر روی مجموعه داده های ORNL-I [29] حاوی تصاویر ماهواره ای با وضوح مکانی تقریب 1 متر نشان می دهیم که پنج کلاس مختلف همسایگی یعنی- کشاورزی ، تأسیسات بزرگ ، تجاری ، حومه ای و جنگلی را نشان می دهد. این تصاویر از منابع مختلف از جمله برنامه ملی تصاویر کشاورزی (NAIP) وزارت کشاورزی ایالات متحده (USDA) ، پایگاه داده Microsoft’s TerraServer-USA و تصویربرداری ارتو ارائه شده توسط ایالت های کالیفرنیا و یوتا جمع آوری شده است. این مجموعه به ترتیب شامل 170 ، 153 ، 171 ، 186 و 170 تصویر برای کلاس های کشاورزی ، تاسیسات بزرگ ، تجاری ، حومه ای و جنگلی است. تصاویر در سراسر ایالات متحده توزیع شده اند ، و تحت شرایط مختلف منعکس کننده ویژگی های مختلف سنسور ، شرایط سایه ، شرایط صحنه و ویژگی های زمانی باعث ایجاد تغییرات بزرگ درون کلاس می شود. شکل 6 تصاویر نمونه ای از کلاس تجاری را نشان می دهد که تغییرات بزرگ درون کلاس را برجسته می کند. برای تعریف کلاس تسهیلات بزرگ ، ما به طور عمده مراکز خرید بزرگ متشکل از ساختمانهای بزرگ را که توسط پارکینگهای عظیم احاطه شده اند انتخاب کردیم و برای کلاس تجاری از نمونه های مراکز شهر (مرکز شهر) استفاده کردیم. کلاس حومه خانه های مسکونی ، کلاس کشاورزی مزارع و طبقه جنگلی مناطق جنگلی را نشان می دهد. تصاویر به صورت دستی تا 512 × 512 پیکسل برش داده می شوند که تقریباً 0.5 کیلومتر مربع روی زمین را نشان می دهد. شکل 1 شامل یک تصویر نمونه از هر دسته است.

C. UCMERCED Data set
The UCMERCED data set [1] has manually extracted aerial orthoimagery downloaded from the U.S. Geological Survey (USGS) National Map. The images have a resolution of one foot per pixel and are cropped to 256 × 256 pixels. The data set contains 21 challenging scene categories with 100 samples per class. The data set represents highly overlapping classes such as the denseresidential, mediumresidential, and sparseresidential which mainly differs in the density of structures.

D. ORNL-II Data Set
The ORNL-II data set is compiled to test the scene classification approach for the large-facility scene detection problem. To compile this data set we extended the ORNL-I data set described earlier. The 153 samples belonging to the largefacility class from the ORNL-I data set are used as positive examples for the detection and the rest of the data set is assigned as negative examples. To account for the image patches that belong to background clutter, we added an additional 277 images (dimension 512 × 512 pixels) representing background
clutter to the negative examples. The extended data set has 153 samples representing large-facility scenes and 974 negative samples. Fig. 7 shows a few positive and negative examples for the large-facility scene.

C. UCMERCED مجموعه داده ها
مجموعه داده های UCMERCED [1] بصورت دستی تصویر برداری هوایی را که از نقشه ملی سازمان زمین شناسی ایالات متحده (USGS) بارگیری شده است ، استخراج کرده است. وضوح تصاویر یک فوت در هر پیکسل است و 256 × 256 پیکسل برش داده شده اند. مجموعه داده ها شامل 21 دسته صحنه چالش برانگیز با 100 نمونه در هر کلاس است. مجموعه داده ها نشان دهنده کلاس ها بسیار همپوشان مانند مسکن متراکم ، متوسط مسکونی و کم مساحت است که عمدتا در تراکم سازه ها متفاوت است.

D. مجموعه داده های ORNL-II

مجموعه داده های ORNL-II برای آزمایش رویکرد طبقه بندی صحنه برای مسئله تشخیص صحنه با امکانات بزرگ جمع آوری شده است. برای گردآوری این مجموعه داده ، مجموعه داده های ORNL-I را که قبلاً توضیح داده شد گسترش دادیم. 153 نمونه متعلق به کلاس بزرگ تاسیسات از مجموعه داده های ORNL-I به عنوان نمونه های مثبتی برای تشخیص و بقیه مجموعه داده ها به عنوان نمونه های منفی اختصاص داده می شوند. برای محاسبه پچ های تصویری که متعلق به درهمی پس زمینه هستند ، ما 277 تصویر اضافی (ابعاد 512 × 512 پیکسل) که پس زمینه را درهم نشان می دهد ,برای نمونه های منفی اضافه کردیم. مجموعه داده های گسترده دارای 153 نمونه نشان دهنده صحنه های دارای امکانات بزرگ و 974 نمونه منفی است. شکل 7 چند نمونه مثبت و منفی را برای صحنه دارای امکانات بزرگ نشان می دهد.

E. Large-Scale High-Resolution Satellite Imagery
To test scene detection performance on large-scale aerial imagery, we applied our large-facility detection model generated from the ORNL-II data set to seven large-scale high-resolution satellite images having 1-m spatial resolution and three color bands. These images represent diverse geographic neighborhoods ranging from rural, residential, urban, and commercial.These images were compiled from the U.S. Department of Agriculture’s (USDA) National Agricultural Imagery Program (NAIP) and Microsoft’s TerraServer-USA database and are produced by different sensors. We manually identified the largefacility neighborhoods by drawing a bounding box around the facility. Our objective is to scan the wide area imagery to automatically detect large-facilities by producing a bounding box around the large-facility.

E. تصاویر ماهواره ای با وضوح بالا
برای آزمایش عملکرد تشخیص صحنه بر روی تصاویر هوایی در مقیاس بزرگ ، ما مدل تشخیصی بزرگ خود را که از مجموعه داده های ORNL-II تولید شده است ، به هفت عکس ماهواره ای با وضوح بالا در مقیاس بزرگ با وضوح مکانی 1 متر و سه باند رنگ اعمال کردیم. این تصاویر از مناطق مختلف جغرافیایی اعم از روستایی ، مسکونی ، شهری و تجاری نشان می دهد. این تصاویر از برنامه ملی تصاویر کشاورزی (NAIP) وزارت کشاورزی ایالات متحده (USDA) و پایگاه داده TerraServer-USA مایکروسافت جمع آوری شده اند و توسط حسگرهای مختلف تولید می شوند. ما با کشیدن یک جعبه محدود کننده در اطراف تاسیسات ، محله های بزرگ را به صورت دستی شناسایی کردیم. هدف ما این است که تصاویر منطقه وسیع را اسکن کنیم تا با تولید یک جعبه محدود کننده در اطراف تاسیسات بزرگ ، امکانات بزرگ را به طور خودکار تشخیص دهیم.

A. Sparse Coding Parameter and Dictionary Size
The sparse coding parameter α and dictionary size d are the two free parameters in our approach. The α parameter enforces sparsity and dictionary size d determines the number of basis functions. To study the sensitivity of the sparse coding parameter α we vary its value in (3) and (4) over a wide range. For the sparse feature z, we compute sparseness [30] as sparseness(z)=(√2d −|zi|/z2i)/(√2d − 1).

The sparseness value ranges from 0 to 1 with the function evaluating to 1 if and only if feature z contains a single nonzero element and takes a value of zero if all the feature elements are equal. We evaluate the classification performance for different α values. Fig. 8 shows the classification performance at different sparseness levels. The mean sparseness for the entire image data set is plotted against the classification accuracy.We fit a second degree polynomial curve over the accuracy points to generate smooth plots. Note that to limit the computational burden sparse coding parameter analysis is performed on a subset of the original data sets. Our analysis shows that there is a range of sparseness value for which classification performance is consistent and best classification performances occurs at mean sparseness value close to 0.7. Based on this analysis, for all the experiments described earlier we set the value of α = 1 to generate sparse features with mean sparseness value around 0.7.

A. پارامتر کدگذاری پراکنده و اندازه فرهنگ لغت
پارامتر برنامه نویسی پراکنده α واندازه فرهنگ لغت d دو پارامتر آزاد در رویکرد ما هستند. پارامتر α پراکنده بودن را اعمال می کند و dاندازه فرهنگ لغت تعداد توابع پایه را تعیین می کند. برای مطالعه حساسیت پارامتر برنامه نویسی پراکنده α مقدار آن را در (3) و (4) در محدوده وسیعی تغییر می دهیم. برای ویژگی پراکنده z ، پراکندگی [30] را به صورت پراکندگی (z) = (√2d – | zi | / z2i) / (√2d – 1) محاسبه می کنیم.

مقدار پراکندگی از 0 تا 1 با تابع ارزیابی می شود به 1 اگر و فقط اگر ویژگی z شامل یک عنصر غیر صفر منفرد باشد و اگر همه عناصر ویژگی برابر باشند مقدار صفر را می گیرد. ما عملکرد طبقه بندی را برای مقادیر مختلف α ارزیابی می کنیم. شکل 8 عملکرد طبقه بندی را در سطوح مختلف پراکندگی نشان می دهد. میانگین پراکندگی برای کل مجموعه داده های تصویر در برابر دقت طبقه بندی رسم شده است. ما برای ایجاد نمودارهای نرم یک منحنی چند جمله ای درجه دو را روی نقاط دقت قرار می دهیم. توجه داشته باشید که برای محدود کردن بار محاسباتی پارامترهای تجزیه و تحلیل برنامه نویسی پراکنده در زیر مجموعه ای از مجموعه داده های اصلی انجام می شود. تجزیه و تحلیل ما نشان می دهد که طیف وسیعی از مقدار پراکندگی وجود دارد که عملکرد طبقه بندی با آن سازگار است و بهترین عملکردهای طبقه بندی با میانگین پراکندگی نزدیک به 0.7 رخ می دهد. بر اساس این تجزیه و تحلیل ، برای همه آزمایشاتی که قبلاً توضیح داده شد ، مقدار α = 1 را برای تولید ویژگی های پراکنده با میانگین مقدار پراکندگی در حدود 0.7 تنظیم می کنیم.

To evaluate classification performance under different dictionary sizes, we measured the overall classification accuracy with the UCMERCED data set for values of d ranging from 100 to 2000. Our experimental analysis shows that values of d around 1000 produced excellent accuracy across all the data sets. Also, as a tradeoff between accuracy and computational cost in handling high-dimensional feature representation (note that length of vector p is equal to 2d), we set d = 1000 for all our experiments. Fig. 9 shows the classification performance for various values of d.

برای ارزیابی عملکرد طبقه بندی تحت اندازه های مختلف فرهنگ لغت ، ما دقت کلی طبقه بندی را با مجموعه داده های UCMERCED برای مقادیر d از 100 تا 2000 اندازه گیری کردیم. تجزیه و تحلیل تجربی ما نشان می دهد که مقادیر d در حدود 1000 در تمام مجموعه داده ها دقت بسیار خوبی ایجاد کرده است. همچنین ، به عنوان یک تعادل بین دقت و هزینه محاسباتی در کار با نمایش ویژگی های ابعاد بالا (توجه داشته باشید که طول بردار p برابر 2d است) ، ما برای همه آزمایشات خود 1000 = d تعیین می کنیم. شکل 9 عملکرد طبقه بندی برای مقادیر مختلف d را نشان می دهد.

B. ORNL-I Data Set
To measure the classification performance on the ORNL-I data set, first we compare the classification accuracies for the three different feature extraction strategies—raw pixel values,oriented filter responses and SIFT descriptors. Our experiments show that both oriented filter response and SIFT-based feature vectors yield the best accuracies. Table I shows the average overall accuracies for the three feature extraction strategies. Our results illustrate that simple averaging of sparse features derived from the low-level descriptors are highly effective in distinguishing scene categories even under large within class variations.The comparison of the classification performance with and without the feature encoding step presented in Table I confirms the merits of the feature encoding step. An interesting observation is that oriented filters performed better than dense SIFT descriptors for the case where descriptors are directly pooled without the feature encoding step. One possible explanation is that the oriented filter response computation in fact involves representing the raw pixels in terms of the filters which are nothing but handcrafted basis functions. So, filter response computation can be considered as an encoding process where the pixels are encoded in terms of the filters.Our dense SIFT-based feature extraction combined with feature encoding produced the best classification accuracy. As one can expect the majority of the confusion occurs between the commercial and large-facility classes as both scenes are dominated by similar kind of structures such as large buildings, parking lots, and roads and this reflected in the accuracy results presented in Figs. 10 and 11.

B. مجموعه داده های ORNL-I
برای اندازه گیری عملکرد طبقه بندی در مجموعه داده های ORNL-I ، ابتدا دقت طبقه بندی را برای سه استراتژی مختلف استخراج ویژگی – مقادیر پیکسل خام ، پاسخ فیلترهای جهت دار و توصیف کننده های SIFT مقایسه می کنیم. آزمایش های ما نشان می دهد که هم پاسخ فیلتر جهت گرا و هم بردارهای ویژگی مبتنی بر SIFT بهترین دقت را دارند. جدول I میانگین دقت کلی برای سه استراتژی استخراج ویژگی را نشان می دهد. نتایج ما نشان می دهد که میانگین ساده از ویژگی های پراکنده مشتق شده از توصیف گرها سطح پایین در تمایز دسته های صحنه حتی در تغییرات بزرگ در کلاس بسیار موثر است.مقایسه عملکرد طبقه بندی با و بدون مرحله رمزگذاری ویژگی ارائه شده در جدول I ، محاسن مرحله رمزگذاری ویژگی را تأیید می کند. یک مشاهده جالب این است که فیلترهای جهت دار نسبت به توصیفگرهای متراکم SIFT برای مواردی که توصیفگرها مستقیماً بدون مرحله رمزگذاری ویژگی ها جمع می شوند ، عملکرد بهتری دارند. یک توضیح ممکن این است که محاسبه فیلتر جهت دار در حقیقت شامل نمایش پیکسل های خام از نظر فیلترهایی است که چیزی جز توابع پایه ساخته شده دستی نیستند. بنابراین ، محاسبه پاسخ فیلتر می تواند به عنوان یک فرآیند رمزگذاری در نظر گرفته شود که پیکسل ها از نظر فیلترها رمزگذاری می شوند.استخراج متراکم مبتنی بر SIFT همراه با کدگذاری ویژگی بهترین دقت طبقه بندی را ایجاد می کند. همانطور که می توان انتظار داشت اکثر سردرگمی ها بین کلاس های تجاری و تاسیسات بزرگ رخ می دهد زیرا هر دو صحنه تحت تأثیر ساختارهای مشابه مانند ساختمان های بزرگ ، پارکینگ ها و جاده ها قرار دارند و این در نتایج دقت ارائه شده در شکل نشان داده شده است. 10 و 11

C. UCMERCED Data Set
To compare the scene classification performance of our approach with the spatial pyramid matching (SPMK) [10] and the spatial extension of BoVW (SPCK++) reported in [11], we measure the classification performance with the challenging UCMERCED data set. Following the experimental setup in [11], we randomly select 80 samples from each class for training and set the remaining images for testing. We report the mean accuracy obtained over five runs. Out of the three feature extraction strategies we tested, dense SIFT-based features produced the best performance as shown in Table II.We compared the classification performance with and without the feature encoding step to validate that feature encoding is a required step to characterize the scene effectively. When feature encoding is not performed, we again found that oriented filter descriptors yielded the best accuracy. Table III shows that the sparse feature representation using dense SIFT features produced the best accuracy and clearly outperformed other scene classification approaches.1 The confusion matrices and overall accuracies are reported in Figs. 12 and 13.The confusion matrix generated for the SIFT features [Fig. 12(c)] shows that classification errors are mainly from scenes that share similar structures such as the buildings, denseresidential, mediumresidential, and sparseresidential. Also, the results show that local edge based features lacks the ability to capture distinguishing shape patterns which are important for discriminating classes such as the airplane, baseballdiamond, and storagetanks. We envision that low-level SIFT features when combined with improved shape oriented features might increase the overall scene classification performance.

C. مجموعه داده های UCMERCED
برای مقایسه عملکرد طبقه بندی صحنه روش ما با تطبیق هرم مکانی (SPMK) [10] و گسترش مکانی BoVW (SPCK ++) گزارش شده در [11] ، ما عملکرد طبقه بندی را با مجموعه داده های چالش برانگیز UCMERCED اندازه گیری می کنیم. پس از نصب آزمایشی در [11] ، ما به طور تصادفی 80 نمونه از هر کلاس را برای آموزش انتخاب می کنیم و تصاویر باقیمانده را برای آزمایش تنظیم می کنیم. ما میانگین دقت به دست آمده را در طول پنج اجرا گزارش می کنیم. از بین سه استراتژی استخراج ویژگی که آزمایش کردیم ، ویژگی های متراکم مبتنی بر SIFT بهترین عملکرد را همانطور که در جدول II نشان داده شده است ، ارائه می دهند.ما عملکرد طبقه بندی را با مرحله رمزگذاری ویژگی و بدون آن مقایسه کردیم تا تأیید کنیم که رمزگذاری ویژگی برای شناسایی موثر صحنه یک مرحله ضروری است. هنگامی که رمزگذاری ویژگی انجام نمی شود ، دوباره متوجه شدیم که توصیف کننده های فیلتر جهت دار بهترین دقت را دارند. جدول III نشان می دهد که نمایش ویژگی پراکنده با استفاده از ویژگی های متراکم SIFT بهترین دقت را دارد و به وضوح از دیگر روشهای طبقه بندی صحنه بهتر عمل می کند .1 ماتریس های سردرگمی و دقت کلی در شکل ها 12 و 13 گزارش شده است. ماتریس سردرگمی ایجاد شده برای ویژگی های SIFT [شکل. 12 (ج)] نشان می دهد که اشتباهات طبقه بندی عمدتا از صحنه هایی است که دارای ساختارهای مشابه مانند ساختمانها ، مسکونی متراکم ، متوسط مسکونی و کم مسکونی است. همچنین ، نتایج نشان می دهد که ویژگی های محلی مبتنی بر لبه فاقد توانایی گرفتن الگوهای متمایز شکل است که برای تمایز کلاس ها مانند هواپیما ، بیس بالدیا ، و storagetanks مهم است. ما تصور می کنیم که ویژگی های سطح پایین SIFT در صورت ترکیب با ویژگی های بهبود یافته شکل جهت دار ممکن است عملکرد کلی طبقه بندی صحنه را افزایش دهند.

D. ORNL-II Data set
To evaluate the detection performance of our proposed approach for scenes containing large facilities, we generated a large-facility scene detection model from the ORNL-II data set.In addition to the detection labels, we also output probability estimates for the detection from the SVM detector. We use the LIBSVM [31] implementation for the SVM detection. We refer interested readers to [32] for details on estimating probability from the SVM decision planes. The probabilities are explored for optimal detection thresholds. Fig. 14 shows the precision-recall curve obtained on the test data set by varying the detection threshold. Again, feature learning and encoding with SIFT features yielded excellent performance for the largefacility scene detection. We obtained a precision and recall values both 0.98 (F-measure is 0.99) for the detection with dense SIFT features.

D. ORNL-II مجموعه داده ها
برای ارزیابی عملکرد تشخیص رویکرد پیشنهادی خود برای صحنه های حاوی امکانات بزرگ ، ما یک مدل تشخیص صحنه با امکانات بزرگ از مجموعه داده های ORNL-II تولید کردیم. علاوه بر برچسب های تشخیص ، ما همچنین تخمین های احتمالی را برای تشخیص از SVM تولید می کنیم ما برای شناسایی(تشخیص) SVM از پیاده سازی LIBSVM [31] استفاده می کنیم. ما خوانندگان علاقه مند را برای جزئیات در مورد برآورد احتمال از برنامه تصمیم گیری SVM به [32] ارجاع می دهیم. احتمالات برای آستانه تشخیص بهینه بررسی شده است. شکل 14 منحنی فراخوان_ دقت به دست آمده در مجموعه داده های آزمون را با تغییر آستانه تشخیص نشان می دهد. باز هم ، یادگیری ویژگی ها و رمزگذاری با ویژگی های SIFT عملکرد بسیار خوبی برای تشخیص صحنه بزرگ دارد. ما برای تشخیص با ویژگی های متراکم SIFT ، مقادیر دقت و فراخوانی هر دو 0.98 (F-size 0.99) را بدست آوردیم.

E. Large-Scale High-Resolution Satellite Imagery
Next, we apply the large-facility scene detection model on seven large-scale high-resolution satellite images. For this we scan the imagery with a fixed size scan window. We fix the scan window size to 512 × 512 pixels and scan step size to 100 pixels. For each scan window, we extract dense SIFT feature and follow the steps listed in Algorithm 1 for scene detection.We compute detection probabilities from the SVM predictions.At this point, we have multiple overlapping detections for the same target. To group the multiple overlapping detections, we apply a standard nonmaximum suppression technique which involves finding the modes of the detection probabilities.Fig. 15 shows our detection process on an example large-scale highresolution satellite image. A simple threshold is applied on the resulting detections to identify the positive detections. Detection is reported as positive if more than half of the detection window overlaps with the manual detection. We applied our method on seven wide-area aerial scenes to process a total of 8594 detection windows. We vary the detection threshold to find the optimal value. Fig. 16 shows the precision-recall curved obtained by varying the detection thresholds. With a detection threshold of 0.8, we obtained excellent performance with 0.94 F-measure. Fig. 17 shows six large-scale high-resolution satellite imagery used in our experiment with the ground truth (red box) and the detections (yellow box) overlaid. The excellent detection performance shown by our approach holds immense promise for developing large-scale image search capabilities.

E. تصاویر ماهواره ای با وضوح بالا
بعد ، ما مدل تشخیص صحنه با امکانات بزرگ را روی هفت تصویر ماهواره ای با وضوح بالا اعمال می کنیم. برای این منظور تصاویر را با یک پنجره اسکن اندازه ثابت اسکن می کنیم. ما اندازه پنجره اسکن را به 512 × 512 پیکسل و اندازه مرحله اسکن را به 100 پیکسل فیکس می کنیم. برای هر پنجره اسکن ، ما ویژگی متراکم SIFT را استخراج می کنیم و مراحل ذکر شده در الگوریتم 1 را برای تشخیص صحنه دنبال می کنیم. ما احتمال تشخیص را از پیش بینی های SVM محاسبه می کنیم. در این مرحله ، چندین تشخیص همپوشان برای همان هدف داریم. برای گروه بندی چندین تشخیص همپوشان ، ما از یک روش توقیف غیر حداکثر استاندارد استفاده می کنیم که شامل یافتن حالت های احتمال تشخیص است.شکل 15 روند تشخیص ما را بر روی نمونه ای از تصاویر ماهواره ای با وضوح بالا در مقیاس بزرگ نشان می دهد. در شناسایی های بدست آمده یک آستانه ساده اعمال می شود تا تشخیص مثبت حاصل شود. اگر بیش از نیمی از پنجره تشخیص با تشخیص دستی همپوشانی داشته باشد ، تشخیص مثبت است. ما برای پردازش مجموع 8594 پنجره شناسایی ، روش خود را روی هفت صحنه هوایی با مساحت وسیع اعمال کردیم. ما آستانه تشخیص را تغییر می دهیم تا مقدار بهینه را پیدا کنیم. شکل 16 منحنی فرخوان_ دقت به دست آمده با تغییر آستانه های تشخیص را نشان می دهد. با آستانه تشخیص 0.8 ، ما عملکرد عالی با اندازه گیری 0.94 F را بدست آوردیم. شکل 17 شش تصویر ماهواره ای با وضوح بالا در مقیاس بزرگ را نشان می دهد که در آزمایش ما با حقییقت درست (جعبه قرمز) و آشکارسازی ها (جعبه زرد) با هم پوشانده شده است. عملکرد تشخیص عالی نشان داده شده توسط روش ما نویدبخش زیادی برای توسعه قابلیت های جستجوی تصویر در مقیاس بزرگ است.

VII. CONCLUSION
In contrast to previous works on satellite image classification where the focus was on pixel or object-level thematic classification, here we explore a method to directly model aerial scene by exploiting the local spatial and structural patterns in the scene. Our approach model scenes bypassing the complicated steps of segmentation and individual segment classification.The proposed classification framework involves dense feature extraction, learning, encoding and pooling. Rather than using the low-level feature measurements directly in the classification framework, we derive sparse feature representations by encoding these features in terms of a learned basis function set. The basis function set is generated in an unsupervised manner.We show that the pooled sparse features employed with a linear SVM kernel outperforms existing methods in terms of classification accuracy. In the case of large-facility detection, we obtain a high F-measure producing excellent detections on large-scale high-resolution satellite imagery.

As future extensions, we plan to extend this approach to encode high-level spatial information and shape based features as part of the feature encoding process. The current feature encoding process is simple, yet provides good classification accuracy for broad neighborhood classes. However, to model complex structures it would be highly beneficial to encode highlevel information. Another straightforward extension would be to follow a supervised framework for the basis function set generation. Other interesting applications can result from combining our proposed scene detection approach with scene parsing to identify the individual geospatial objects within the scene. A similar idea has been explored earlier [33] with a few simple object categories such as buildings, cars, trees, and roads.

هفتم نتیجه
بر خلاف کارهای قبلی در مورد طبقه بندی تصویر ماهواره ای که تمرکز بر روی پیکسل یا طبقه بندی موضوعی سطح شی بود ، در اینجا ما یک روش را برای مدل سازی مستقیم صحنه هوایی با بهره برداری از الگوهای مکانی و ساختاری محلی در صحنه کشف می کنیم. رویکرد ما صحنه ها را با دور زدن مراحل پیچیده تقسیم بندی و طبقه بندی جداگانه بخش مدل می کند.چارچوب طبقه بندی پیشنهادی شامل استخراج ، یادگیری ، کدگذاری و جمع آوری ویژگی های متراکم است. به جای استفاده از معیارهای ویژگی های سطح پایین به طور مستقیم در چارچوب طبقه بندی ، با رمزگذاری این ویژگی ها با مجموعه تابع های پایه آموزش دیده ، نمایش ویژگی های پراکنده را بدست می آوریم. مجموعه تابع پایه به روشی بدون نظارت تولید می شود. ما نشان می دهیم که ویژگی های پراکنده تلفیقی که با به کارگیری یک هسته SVM خطی ، از نظر دقت طبقه بندی ، از روش های موجود بهتر عمل می کنند. در مورد شناسایی تاسیسات بزرگ ، ما با اندازه F بزرگ که قابلیت شناسایی عالی در تصاویر ماهواره ای با وضوح بالا در مقیاس بزرگ را تولید می کنیم.

به عنوان برنامه های توسعه آینده ، ما قصد داریم این روش را برای رمزگذاری اطلاعات سطح سطح بالا مکانی و ویژگی های مبتنی بر شی به عنوان بخشی از فرایند رمزگذاری ویژگی,گسترش دهیم. فرآیند رمزگذاری ویژگی فعلی ساده است ، در عین حال دقت طبقه بندی مناسبی را برای کلاسهای وسیع همسایگی فراهم می کند. با این حال ، برای مدل سازی ساختارهای پیچیده ، رمزگذاری اطلاعات با سطح بالا بسیار مفید خواهد بود. توسعه ساده دیگر پیروی از یک چارچوب نظارت شده برای تولید مجموعه توابع پایه است. سایر برنامه های جالب می توانند ناشی از ترکیب رویکرد تشخیص صحنه پیشنهادی ما با تجزیه صحنه برای شناسایی اشیا جغرافیایی جداگانه در صحنه باشد. ایده مشابهی در اوایل [33] با چند دسته شی ساده مانند ساختمانها ، اتومبیل ها ، درختان و جاده ها مورد بررسی قرار گرفته است.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *