طبقه بندی تصاویر ماهواره با استفاده از شاخص های چند طیفی: رویکرد درخت تصمیم
ژانویه 30, 2021فیلم های آموزشی پردازش تصویر
مارس 10, 2021Multi-spectral SIFT for Scene Category Recognition
SIFT چند طیفی برای تشخیص گروه صحنه
ما برای گرفتن تصاویر چند صد صحنه رنگی (RGB) و نزدیک به مادون قرمز (NIR) از یک تغییر ساده در دوربین SLR معمولی استفاده می کنیم. ما نشان می دهیم که افزودن اطلاعات نزدیک به مادون قرمز منجر به بهبود قابل توجه عملکرد در کار تشخیص صحنه می شود و هنگامی که ازبازنمایی 4 بعدی رنگی مناسب استفاده می شود ، پیشرفت ها بیشتر است.به طور خاص ما MSIFT را پیشنهاد می کنیم – یک توصیفگر چند طیفی SIFT که ، اگر با یک طبقه بندی مبتنی بر هسته ترکیب شود ، از عملکرد تکنیک های فعلی تشخیص صحنه (به عنوان مثال ، GIST) و توسعه های چند طیفی آنها فراتر می رود. ما الگوریتم های خود را با استفاده از مجموعه داده جدیدی از چند صد تصویر صحنه RGB-NIR و همچنین معیار(محک) بر اساس مجموعه داده طبقه بندی صحنه Torralba ، به طور گسترده آزمایش می کنیم.
- مقدمه
دوربین های دیجیتال مبتنی بر سیلیکون به طور طبیعی به نور نزدیک مادون قرمز (NIR) حساس هستند ، اما توسط فیلتر معروف به “آینه داغ” بین لنز و CCD از ضبط آن جلوگیری می شود. گفته شده است که حذف این محدودیت و اختصاص کسری از پیکسل ها به NIR [12] می تواند در کاربردهای عکاسی محاسباتی مفید باشد (به عنوان مثال ، dhazing [22] و Dark Flash Photography [10]).کاربرد های اخیر همچنین سودمندی نزدیک مادون قرمز را در درک تصویر نشان داده اند ، به عنوان مثال ، سیستم Kinect مایکروسافت که از نور فعال NIR برای تخمین عمق صحنه استفاده می کند. در این کار ، ما استدلال می کنیم که NIR غیرفعال می تواند در بینایی ماشین نیز مفید باشد. برای نشان دادن این ، ما کاربرد تشخیص صحنه را انتخاب می کنیم و هدف ما بهره گیری از تفاوت های اساسی بین عناصر صحنه در NIR و RGB [21] برای بهبود عملکرد تشخیص است (شکل 1 را ببینید).
تشخیص صحنه یک مشکل دیرینه در بینایی رایانه است ، زیرا یک عنصر مهم در محتوای بصری است [25 ، 9]. قابلیت های تشخیص صحنه همچنین در دوربین های دیجیتال 2 ظاهر می شوند ، جایی که ماژول های “تشخیص صحنه هوشمند” می توانند به انتخاب دیافراگم مناسب ، سرعت شاتر و تعادل رنگ سفید کمک کنند.
یک رویکرد معیار برای تشخیص صحنه محاسباتی توسط Oliva و Torralba توسعه یافت [18]. توصیفگرهای GIST آنها ، خلاصه ای مختصر از فرکانس های مکانی و آرایش آنها ، از طبقه بندی سریع و پردازش درشت تا ریز که به نظر می رسد در بینایی انسان وجود دارد ، الهام گرفته شده است [23]. مدلهای Riesenhuber و Poggio’s HMAX به طور مشابه سعی در شبیه سازی پردازش در V1 دارند و تغییرات این اصطلاحاً “مدل استاندارد” نیز در مسائل تشخیص گروه موفق بوده است [16 ، 19]. روش های مبتنی بر ویژگی محلی نیز در تشخیص دسته بسیار محبوب هستند [13] ، کارهای اخیر این روش ها را گسترش داده اند تا به طور موثر از رنگ استفاده شود [26].
تشخیص صحنه مورد توجه ویژه روانشناسان بینایی و مغز و اعصاب بوده است. یک جنبه جذاب این است که می تواند در دید انسان بسیار سریع انجام شود [23]. این واقعیت منجر به بحث و بررسی زیادی در مورد فرآیندهای تصویری ممکن است رخ دهد. به عنوان مثال ، Fei-Fei و همکاران [4] استدلال کرده اند که عدم وجود رنگ باعث می شود شناخت صحنه بیشتر مورد توجه قرار گیرند ، در حالی که اولیوا و شینز و گوفا و دیگران [17 ، 8] دریافت که اگر رنگ صحنه تشخیصی حفظ شود ، زمان واکنش بهتر می شود.
درکاربردهای دید رایانه ای ، استفاده موثر از رنگ برای تشخیص ممکن است به برآورد روشنایی [6 ، 5] یا محاسبه ثابت ها [7] در شرایط پیچیده روشنایی نیاز داشته باشد. همبستگی بین باندهای رنگی زیاد است و از آنجا که مولفه درخشندگی (در مقیاس خاکستری) حدود 90٪ انرژی سیگنال است ، بسیاری از پزشکان رنگ را کاملاً نادیده می گیرند. یکی از جذابیت های نگاه به نزدیک مادون قرمز این است که وابستگی بسیار کمتری به R ، G و B نسبت به یکدیگر دارند ، که باید هر گونه سود حاصل از تکنیک های موثر چند طیفی را تقویت کند.
در ادبیات مرتبط ، محققان اطلاعات آمار تصاویر در دور از مادون قرمز (4-12 میکرومتر) [14] را مطالعه کرده اند ، و همچنین ردیابی پیشرفته عابر پیاده را با استفاده از این باند نشان داده اند [27]. این کاربردها به یک آشکارساز تخصصی نیاز دارند که مخصوص استفاده در باند مادون قرمز دور باشد. در این کار ما به جای آن به استفاده از نزدیک مادون قرمز (750-1100nm) تمرکز می کنیم ، که می تواند با استفاده از یک دوربین دیجیتال معمولی ثبت شود. اصولاً (با استفاده از دوربینی با الگوی Bayer اصلاح شده) می توان پیکسل های NIR راهمراه با RGB ضبط کرد [12].سهم
مشارکت اصلی کار ما عبارتند از:
MSIFT: توصیفگر چند طیفی SIFT که به طور موثر از اطلاعات موجود در چندین باند طیفی استفاده می کند.
مجموعه داده جدیدی از 477 جفت تصویر ثبت شده رنگی (RGB) و نزدیک به مادون قرمز (NIR) 1. ما همچنین تحقیقات بیشتری را در مورد توصیفگرهای موجود در رنگ SIFT انجام می دهیم و پیشرفت های عملی را پیشنهاد می کنیم.
تصویربرداری RGB-NIR
تراشه های CCD و CMOS موجود در دوربین های دیجیتال در محدوده تقریبی 350-1100 نانومتر حساس هستند. در حالی که حساسیت انسان به روشنایی در حدود 700 نانومتر کاهش می یابد ، سیلیکون در این منطقه حساسیت بیشتری دارد. به همین دلیل از یک فیلتر انسداد مادون قرمز خاص علاوه بر عناصر آرایه فیلتر رنگ قرمز ، سبز و آبی (CFA) برای جلوگیری از پاسخ NIR ناخواسته استفاده می شود. اگر این فیلتر برداشته شود ، عناصر RGB CFA به راحتی پاسخ های قابل اندازه گیری را در محدوده نزدیک مادون قرمز ارائه می دهند (شکل 2 را ببینید).
در این کار ، ما از چندین دوربین SLR دیجیتال استفاده می کنیم که برای از بین بردن فیلتر انسداد مادون قرمز اصلاح شده اند. اگرچه تنظیماتی که شامل جداکننده های پرتو هستند ، وجود دارد ، هنوز هیچ دوربین قابل حمل RGB-NIR در دسترس نیست. از این رو ما با استفاده از فیلترهای RGB و NIR به ترتیب از طول موج های پایین تر و بالاتر از 750 نانومتر عبور می کنیم. پاسخ های سنسور RGB برای ضبط قابل مشاهده :
1 Comment
I was reading some of your blog posts on this site and I conceive this site is rattling informative ! Keep on putting up. Lorelei Quentin Hellene