Toshkent axborot texnologiyalari universiteti “sun’iy intellekt” kafedrasi

Yüklə 46,48 Kb.

səhifə	3/4
tarix	22.03.2024
ölçüsü	46,48 Kb.
	#181738

1 2 3 4

R-CNN modellar oilasi
R-CNN usullari oilasi (Region-Based Convolutional Neural Network) Ross Girshick va boshqalar tomonidan ishlab chiqilgan "CNN xususiyatlariga ega mintaqalar" yoki "Regionga asoslangan konvolyutsion neyron tarmoq" degan maʻnoni anglatadi. Bunga ob'ektni lokalizatsiya qilish va ob'ektni tanib olish uchun moʻljallangan va namoyish etilgan R-CNN, Fast R-CNN va Faster-RCNN texnikalari kiradi.
Quyida ushbu texnikalarning har birining diqqatga sazovor joylari batafsil koʻrib chiqiladi.
R-CNN 2014-yilgi maqolada Ross Girshick va boshqalar tomonidan tasvirlangan. Berkeleyda bu "Toʻgʻri ob'ektni aniqlash va semantik segmentatsiya uchun boy xususiyatlar ierarxiyasi" deb nomlangan. Bu ob'ektni lokalizatsiya qilish, aniqlash va segmentatsiyalash muammosiga konvolyutsion neyron tarmoqlarining birinchi yirik va muvaffaqiyatli qoʻllanilishidan biri. Yondashuv VOC-2012 maʻlumotlar toʻplami va ILSVRC-2013 ob'ektni aniqlash ma’lumotlar toʻplamida eng soʻnggi natijalarga erishib, benchmark maʻlumotlar toʻplamida namoyish etilgan.
Ularning taklif etayotgan R-CNN modeli uchta moduldan iborat, ular:
1-modul: Mintaqaviy taklif. Mustaqil toifadagi hudud takliflarini yaratish va ajratib olish, masalan. nomzodni chegaralovchi ramkalar.
2-modul: Ekstraktiv xususiyatlar. Har bir nomzod mintaqadan xususiyatni ajratib olinadi, masalan, chuqur konvolyutsion neyron tarmogʻidan foydalanish.
3-modul: Klassifikator. Xususiyatlarni maʻlum sinflardan biri sifatida tasniflash, masalan, chiziqli SVM klassifikatori modeli.
Modelning arxitekturasi quyidagi rasmda jamlangan (3-rasm);

3-rasm. Ob'ektni toʻgʻri aniqlash va semantik segmentatsiya qilish uchun turli xususiyatlar ierarxiyasidan olingan R-CNN modeli arxitekturasining qisqacha mazmuni
Kompyuterning ko'rish texnikasi “tanlangan qidiruv” deb nomlangan rasmdagi nomzod hududlarni yoki potensial ob'ektlarning chegaralangan ramkalarini taklif qilish uchun ishlatiladi, bunda dizaynning moslashuvchanligi boshqa mintaqaviy taklif algoritmlaridan foydalanishga imkon beradi. Model tomonidan foydalanilgan xususiyat ekstraktori AlexNet Deep CNN ILSVRC-2012 tasvir tasnifi tanlovida gʻolib boʻlgan. CNN chiquvchi qismi 4096 elementli vektor boʻlib, u tasniflash uchun chiziqli SVMga beriladigan tasvir mazmunini tavsiflaydi, xususan, har bir ma’lum sinf uchun bitta SVM oʻqitiladi.
Bu ob'ektni lokalizatsiya qilish va tanib olish muammosiga nisbatan oddiy va tushunarli boʻlgan CNN qoʻllanilish usuli hisoblanadi. Yondashuvning salbiy tomoni shundaki, u sekin ishlaydi va mintaqa taklifi algoritmi tomonidan yaratilgan har bir nomzod mintaqasida CNNga asoslangan xususiyatlarni ajratib olishni talab qiladi. Bu muammo keltirib chiqaradi, chunki hujjat sinov vaqtida har bir tasvir uchun taxminan 2000 ta taklif qilingan hududda ishlaydigan modelni tasvirlaydi.
R-CNN ning katta muvaffaqiyatini hisobga olgan holda, oʻsha paytda Microsoft Research kompaniyasida ishlaydigan Ross Girshick 2015-yilda "Fast R-CNN" nomli maqolada R-CNN tezlik muammolarini hal qilish uchun yangi usul taklif qildi. Maqolada R-CNN cheklovlarini koʻrib chiqish uchun uni quyidagicha umumlashtirish mumkin:

usul ko'p bosqichli boʻlib, uchta alohida modelni tayyorlash va ishlatishni oʻz ichiga oladi;
usul makon va vaqt jihatidan qimmat. Har bir tasvir uchun juda koʻp mintaqaviy takliflar boʻyicha CNNni oʻrgatish tezligi juda sekin;
ob'ektni aniqlash sekin. Koʻpgina mintaqaviy takliflar boʻyicha CNN yordamida bashorat qilish tezligi juda sekin.

2014-yilda "Vizual tanib olish uchun chuqur konvolyutsion tarmoqlarda fazoviy piramidani birlashtirish" [2] maqolasida fazoviy piramidalarni birlashtiruvchi tarmoqlar yoki SPPnets deb nomlangan texnikani tezlashtirish boʻyicha bu usul taklif qilingan. Usul xususiyatlarni chiqarishni tezlashtirdi, lekin asosan oldinga oʻtishni keshlash algoritmining bir turidan foydalandi. Fast R-CNN toʻgʻridan-toʻgʻri hududlar va tasniflarni oʻrganish va chiqarish uchun liniya oʻrniga yagona model sifatida taklif etiladi. Model arxitekturasi fotosuratni chuqur konvolyutsion neyron tarmogʻi orqali oʻtadigan kirish sifatida mintaqaviy takliflar toʻplamini oladi. Xususiyatlarni olish uchun VGG-16 kabi oldindan tayyorlangan CNN ishlatiladi. Deep CNNning oxiri - bu ma’lum bir kirish nomzodi mintaqasi uchun xos xususiyatlarni ajratib oladigan "birlashtirish qatlami" yoki "RoI Pooling" deb nomlangan maxsus qatlamdir.
Keyin CNN chiqishi toʻliq bogʻlangan qatlam tomonidan talqin qilinadi, soʻngra model ikkita chiqishga boʻlinadi, biri softmax qatlami orqali sinfni bashorat qilish uchun, ikkinchisi esa chegara ramkasi uchun chiziqli chiqish bilan. Keyinchalik, ushbu jarayon ma’lum bir rasmdagi har bir belgilangan mintaqa uchun bir necha marta takrorlanadi (4-rasm).
4-rasm. Tezkor R-CNN modeli arxitekturasining qisqacha mazmuni.
Model oʻqitish va bashorat qilish uchun sezilarli darajada tezroq boʻladi, lekin hali ham har bir kiritilgan rasm bilan bir qator nomzod hududlarni taklif qilishni talab qiladi.

Yüklə 46,48 Kb.

Dostları ilə paylaş:

1 2 3 4