عنوان پایان نامه: آشکارسازی متن چاپی فارسی در تصاویر صحنه با استفاده از شبکههای عصبی
ارائهکننده: علی سلماسی استاد راهنما: دکتر احساناله کبیر استاد ناظر داخلی: دکتر مریم ایمانی آرانی استاد ناظر خارجی: دکتر هدیه ساجدی (دانشگاه تهران) تاریخ: 1402/02/24 ساعت: 9:30 مکان: اتاق 351 (دانشکده شیمی – ساختمان فنی مهندسی)
چکیده: بینایی ماشین یکی از حوزههای نوظهور، پیچیده و در حال توسعه در علوم کامپیوتر و هوش مصنوعی محسوب میشود که در یک دهه گذشته و به سبب رشد تکنولوژی، به یکی از حوزههای تحقیقاتی بالغ در این علم و زیر شاخههای مرتبط آن تبدیل شده است. از مهمترین موضوعات مطرح و چالش برانگيز در حوزه بينایي ماشين، میتوان به آشکارسازي متون چاپی در تصاویر صحنههاي طبيعي اشاره نمود. تعامل انسان تا حد زیادی بر اطلاعات متنی متکی است. بنابراین، درک متن یک جهت تحقیقاتی بسیار مهم در درک اطلاعات و تصمیمگیری است. در این پایاننامه، روش آشکارسازی متون چاپی فارسی بهوسیله شبکه های عصبی ژرف پیشنهاد شده است. در این پژوهش برای آشکارسازی متن چاپی فارسی در تصاویر صحنه ابتدا با توجه به در دسترس نبودن مجموعه داده مناسب این کار، یک مجموعه داده با تعداد 1182 تصویر، از متن در صحنه جمعآوری و برچسبگذاری شده و برای آشکارسازی از نسخه پنجم شبکه YOLO استفاده شده است. برای بهبود نتایج از روشهای مختلف افزونگی داده تصویری از جمله افزونگی های نوری شامل HUE Augmentation و هندسی شامل تغییرات انتقال، زاویه دید، اندازه و برگرداندن(آینه) استفاده شده است. بهترین نتایج بدستآمده در آزمایشهای مختلف با استفاده از مدل YOLOv5s6 در معیار mAP50 در مرحله ارزیابی برابر 62.8% و در مرحله آزمون برابر 46.4% میباشد.