بهبود عملکرد پاسخدهی به سوالات پرسیده شده از متن درون عکس - دانشکده فنی و مهندسی
بهبود عملکرد پاسخدهی به سوالات پرسیده شده از متن درون عکس
نوع: Type: پایان نامه
مقطع: Segment: کارشناسی ارشد
عنوان: Title: بهبود عملکرد پاسخدهی به سوالات پرسیده شده از متن درون عکس
ارائه دهنده: Provider: کبری فرشیدی - رشته کامپیوتر
اساتید راهنما: Supervisors: دکتر حسن ختنلو، دکتر محرم منصوریزاده
اساتید مشاور: Advisory Professors:
اساتید ممتحن یا داور: Examining professors or referees: دکتر میرحسین دزفولیان، دکتر رضا محمدی
زمان و تاریخ ارائه: Time and date of presentation: 11الی12:30 - 1401/12/01
مکان ارائه: Place of presentation: سالن آمفی تئاتر
چکیده: Abstract: یکی از حوزههای موردعلاقهی پژوهشگران در سالیان اخیر پرسش و پاسخ از درون تصویر بوده است در واقع پژوهشگران به این نتیجه رسیدند، راهحلی بیابند تا هنگامی که کاربر از اجزای درون تصویر، سوالی بصورت متنی بپرسد، با روشهای ایدهآل او را به پاسخ مطلوب برسانند. پژوهشگران مدلهایی متناسب با این حوزه ارائه دادند که به موفقیتهایی هم رسید. البته با وجود تلاش بر روی معماریهای متفاوت، هنوز هم این حوزه دارای دقت بالایی که بتوان بصورت عام از آن مدلها بهره برد، نرسیده است. پژوهشگران در سال 2019 پی بردند که بیشتر سوالات پرسیده شده از تصویر، از تحلیل در متنهای درون تصویر بوده است. پژوهشگران تلاش کردند حوزهی جدیدی به نام پرسش از متنهای درون تصویر را ارائه کنند تا به تحلیل و بررسی این حوزه بیشتر بپردازند. آنها به این نتیجه رسیدند که برای بررسی این مدلها، اول از همه میبایست متنهای درون تصویر را استخراج کنند. آنها برای این کار از موتور تشخیص کاراکتر بهره بردند ولی از آنجا که سوال پرسیده شده نیاز به ارتباط بین سوال پرسیده شده با ترکیبی از اشیای بصری و کلمههای درون تصویر است، بنابراین شروع به طراحی مدلهایی با اتصال 3 وجهی کردند این 3 وجه در واقع اشیای بصری ، توکنهای سؤال پرسیده شده و توکنهای متن درون تصویر است. آنها در طی 3 سال اخیر از جدیدترین تکنولوژیها بهره برده و مدلهای بسیار متنوعی ارائه دادند. در مدلهایی که تاکنون طراحی شده، تمرکز اصلی بر روی نحوه تعامل بین ویژگیهای بصری و متنی است و به درست بودن متن استخراج شده از تصویر تمرکز کمتری شده است در حالیکه در صورتی که متن استخراج شده از تصویر اشتباه باشد، ما را به پاسخ اشتباهی خواهد رساند و این میتواند یکی از دلایل دقت پائین این حوزه تا به امروز باشد. ما در این پژوهش مدلی ارائه دادهایم که روی این مرحله از این حوزه یعنی اطمینان از صحت متن استخراج شده، تمرکز شده است. در واقع ما هنگامی که متن از تصویر استخراج میشود، ابتدا با کمک اقدامات پیشپردازش تصویر و پیشپردازش متن همچون تصحیح غلطهای املایی و پاک کردن نویز تصاویر، این متن را بهبود میدهیم سپس وجهها را بهم متصل میکنیم. نتایج ارزیابیها نشان میدهد که مدل ارائه شدهی ما بر روی مجموعه دادهی رایج بهکار گرفته شده در بین پژوهشگران این حوزه، یعنی TextVQA توانسته معیار ارزیابی رایج این حوزه، یعنی accuracy را به اندازهی 1% بالا ببرد.
فایل: ّFile: دانلود فایل