پایان نامه کارشناسی ارشد آقای مهرداد باقری با عنوان «برچسبگذاری تصاویر بدون نمونه آموزشی با کمک شبکههای عصبی بازگشتی» - دانشکده فنی و مهندسی
دانشکده فنی و مهندسی
گروه آموزشی مهندسی کامپیوتر
اطلاعیه دفاع از پایان نامه کارشناسی ارشد در رشته مهندسی کامپیوتر گرایش هوش مصنوعی
عنوان:
برچسبگذاری تصاویر بدون نمونه آموزشی با کمک شبکههای عصبی بازگشتی
استاد راهنما:
جناب آقای دکتر محرم منصوریزاده
استاد مشاور:
جناب آقای دکتر میرحسین دزفولیان
اساتید ممتحن:
جناب آقای دکتر حسن ختنلو
جناب آقای دکتر مهدی سخائینیا
پژوهشگر:
مهرداد باقری
زمان:
چهارشنبه 24/11/1397 ساعت 11 صبح
مکان:
سمینار 2 دپارتمان برق (سالن مهندس مرحوم خانمحمدی)
Bu-Ali Sina University
Faculty of Engineering
Department of Computer Engineering
Thesis submitted for Master of Science in computer Engineering-Artificial Intelligence
Title:
Zero Shot Image Tagging by Recurrent Neural Networks
Supervisor:
Dr. Muharram Mansoorizadeh
Adviser:
Dr. Mir Hossein Dezfoulian
Judges:
Dr. Hassan Khotanlou
Dr. Mahdi Sakhaeinia
Author:
Mehrdad Bagheri
February 13, 2019
چکیده:
روشهای متداول برای برچسبزنی تصاویر از مجموعهدادگانی استفاده میکنند که به ازای هر تصویر یک یا چند برچسب محیا شده است. این در حالی است که امروزه برچسبهای مختلفی از سوی کاربران فضاهای مجازی (Flickr، Instagram و ...) به تصاویر نسبت داده میشود. حال آنکه جمعآوری این برچسبها و بهروزرسانی مجموعهدادهها، کاری بسیار چالشبرانگیز و پرهزینه است. از این رو در سالهای اخیر، مسئله انتساب برچسبهای نوین به تصاویر و یا برچسبزنی تصاویر بدون نمونه آموزشی، توجه محققین را به خود جلب کرده است.
در این پایاننامه، در دو مرحله به تولید برچسبهای نوین برای تصاویر مجموعهداده Cifar100 پرداختهایم. در مرحله اول از شبکههای عصبی بازگشتی و همچنین ساختار سلسله مراتبی برچسبها، برای تخمین محتملترین برچسب به ازای تصاویر، استفاده کردهایم. شبکههای عصبی بازگشتی به دلیل حفظ اطلاعات مراحل پیشین برای کار با دادگان متوالی و یادگیری الگوی موجود در آنها بسیار مناسب میباشند. همچنین این شبکهها مولد/زایشی بوده و میتوان از آنها برای تولید برچسبهای نوین هم در حوزه دامنهبسته و هم در حوزه دامنهباز، استفاده کرد. در این راستا، ابتدا توسط شبکه عصبی ResNet، بردار ویژگی تصاویر استخراج شده و سپس توالی بردار ویژگی و برچسبهای تصاویر (با الگوی کلی به جزئی) به عنوان دادگان متوالی برای یادگیری شبکه بازگشتی در نظر گرفته شدهاند. به این ترتیب، با استفاده از شبکه عصبی بازگشتی و همچنین با کمک الگوی موجود در توالی برچسبها، محتملترین برچسب جزئی، به ازای هر تصویر، تخمین زده میشود. در مرحله دوم، به ازای برچسبهای تخمین زده شده توسط شبکه عصبی بازگشتی و با استفاده از فضای معنایی کلمات (یادگیری شده توسط مدل تبدیل کلمه به بردار)، به تولید برچسبهای نوین به ازای تصاویر مجموعهداده Cifar100 پرداختهایم. برای آموزش مدل تبدیل بردار به کلمه، از دو مجموعهداده Flickr و GoogleNews به عنوان دادگانمبدأ استفاده شده است. برای ارزیابی برچسبهای نوین تولید شده، از والدین برچسبهای فاز آموزش در ساختار درختی WordNet استفاده کردهایم. یعنی برچسبهای نوین تولید شده با والدین به دست آمده توسط ساختار درختی WordNet مقایسه میشوند. دلیل انتخاب والدین این است که برای مثال اگر برای یک تصویر "سیب" برچسب جدید "میوه" را تولید کنیم؛ از لحاظ معنایی برچسب تولید شده صحیح است. اما عکس این قضیه صادق نیست. در مجموع، نتایج حاصل از پیادهسازی، نشان میدهد که روش پیشنهادی برای برچسبزنی تصاویر بدون نمونه آموزشی و تولید برچسبهای نوین از دقت قابل قبولی برخوردار است.
واژههای کلیدی: برچسبزنی تصاویر، شبکه عصبی بازگشتی، رزنت، وردنت، نادیده
Abstract:
Common methods for image tagging use datasets that contain one or more labels for each image. Meanwhile, nowadays different labels are attributed to images by social media users like instagram and flicker, etc. however collecting these labels and updating datasets is a very challenging and costly task.Hence in the recent years, the task of assigning new labels to images or zero shot image tagging, has attracted the attention of a lot of researchers to itself.
In this thesis, we have focused on generating new labels for the Cifar100 dataset. The proposed method contains two steps. In the first step, we used recurrent neural networks as well as the hierarchical structure of labels to estimate the most probable label for the images. Recurrent neural networks are suitable for sequential data and learning their underlying patterns due to their ability to preserve information from the previous stages. These networks are also generative/productive and can be used to generate new labels in open domains as well as closed domains. In this regard, first using the ResNet neural network, the feature vector of images are extracted and then the sequence of feature vectors and image labels (coarse to fine) is used as sequential data to train the recurrent neural network. Therefore, using the recurrent neural network and also with the help of underlying patterns in the label's sequence the most probable partial label is estimated for each image. In the second step, for the labels estimated by the recurrent neural network and using the word semantic space (learnt by the word2vec model), new labels for the images of Cifar100 dataset are generated. In order to train the word2vec model, two Flickr and GoogleNews datasets have been used as source data. To evaluate new generated labels, The parents of train phase labels in the WordNet tree structure, were used. In other words, the new generated labels are compared to the parents acquired by the WordNet tree structure. The reason for choosing the parents is that if for example for an image of an "apple" we generated the new label "fruit", this new label is semantically right. But it would not be right for the other way. In general, the experimental results show that the proposed method for zero shot image tagging and generating new labels, has an acceptable performance.
Key Words: Image Tagging, Recurrent Neural Network, ResNet, WordNet, Zero Shot
نام و نام خانوادگی : مهرداد باقری
رشتهی تحصیلی : هوش مصنوعی و رباتیک
مقطع تحصیلی : کارشناسی ارشد
اطلاعات تحصیلی :
1- کارشناسی ارشد :
کارشناسی ارشد مهندسی کامپیوتر گرایش هوش مصنوعی ، دانشگاه بوعلی سینا همدان (در حال تحصیل ورودی 1395)
معدل : 16.52
2- کارشناسی :
کارشناسی مهندسی کامپیوتر گرایش نرم افزار ، از دانشگاه صنعتی شاهرود (1394-1390)
معدل : 15.85
عنوان پروژه : طراحی سایت فروشگاه دیجیتالی با استفاده از وردپرس
3- دیپلم :
دیپلم ریاضی ، از دبیرستان تیزهوشان علامه حلی تهران-اندیشه (1389-1385)
سابقهی پژوهشی:
مقاله با عنوان "مقایسه و ارزیابی شبکههای عصبی بازگشتی RBM و LSTM برای برچسبزنی تصاویر" در کنفرانس CFIS2019
مهارتها :
برنامه نویسی C و C++ و java و python
مسلط به نرمافزار متلب