رساله دکتری خانم مهندس مهلقا افراسیابی با عنوان «تشخیص تعامل انسان در ویدیو با استفاده از شبکه¬های عصبی عمیق» - دانشکده فنی و مهندسی
دانشکده فنی و مهندسی
گروه آموزشی مهندسی کامپیوتر
جلسه دفاعیه پایان نامه برای دریافت درجه دکتری در رشته مهندسی کامپیوتر گرایش هوش مصنوعی
عنوان:
تشخیص تعامل انسان در ویدیو با استفاده از شبکههای عصبی عمیق
استاد راهنما:
دکتر حسن ختنلو
استاد مشاور:
دکتر محرم منصوری زاده
اساتید داور:
دکتر میرحسین دزفولیان
دکتر نصرالله مقدم چرکری
دکتر اعظم خلیلی
پژوهشگر:
مه لقا افراسیابی
یکشنبه 30/04/1398 ساعت 16:30
آمفی تئاتر دانشکده مهندسی
Bu-Ali Sina University
Faculty of engineering
Department of Computer Engineering
PhD Thesis Defense
Title
Human interaction recognition using deep learning
Supervisor:
Dr. Hassan Khotanlou
Advisor:
Dr. Muharram Mansoorizadeh
Reviewers:
Dr. Mir Hossein Dezfulian
Dr. Nasrollah Moghadam Charkari
Dr. Azam Khalili
By:
Mahlagha Afrasiabi
July, 21, 2019
4:30 PM
بسیاری از ویدیوهایی که انسانها را به تصویر میکشد، دارای فعالیتهایی است که بین انسانها وجود دارد و نشاندهنده فرهنگ و رابطه بین آنهاست. با پیشرفت تشخیص کنشهای انسان در ویدیو، محققان به شناخت تعامل انسان- انسان به طور خودکار پرداختهاند. که تشخیص زودهنگام آن اهمیت بیشتری در تعامل انسان و کامپیوتر و امنیت و نظارت دارد. اما این موضوع هنوز یک مسئله چالشبرانگیز است، که این چالش میتواند ناشی ازتغییرات تصویر، نحوه اجرای متفاوت افراد در انجام یک تعامل و .. باشد. روشهای موجود این حوزه بر اساس ویژگی به ویژگیهای دستی و ویژگیهای یادگرفته شده تقسیم میشوند. ویژگیهای دستی روی اطلاعات محلی یا سراسری مکانی یا زمان-مکانی تمرکز میکند، در حالیکه ویژگیهای یادگرفته شده از همه پتانسیل موجود در تصویر و ویدیو استفاده میکند و تا حدودی چالشهای تنظیمات ضبط، ظاهر فرد، اندازه تصویر و نقطه دید را کاهش دادهاند. انتظار ما این است که استفاده از استخراج ویژگی یادگرفته شده در مدلهای پیشنهادی میتواند چالشها را تا حد امکان کاهش دهد. به منظور استخراج این ویژگیها از شبکههای عمیق که توانایی بالایی در استخراج ویژگی دارند، استفاده شده است. در اولین مدل پیشنهادی به نام Dual-Actor CNN از دو شبکه همسان برای استخراج ویژگیهای دو فرد در حال تعامل استفاده شده است. که این مدل بهعلت استفاده از شبکههای همسان و به اشتراکگذاری وزنها باعث میشود چالش جهت و نقطه دید انجام کنش حل شود. در روش پیشنهادی دیگر، مسئله در قالب سری زمانی به نام DTW-CNN مدل میشود، فرض بر این است که استفاده از روش پیچوتاب زمانی پویا بتواند بر چالش نرخ زمان اجرای تعامل غلبه کند. از آنجاییکه انجام هر کنش یا تعامل ماهیتی فازی دارد و نمیتوان حرکت مشخصی برای تعریف آن در نظر گرفت، استفاده از روش فازی میتواند باعث افزایش دقت تشخیص تعامل شود، در مدل پیشنهادی Fuzzy-Relation CNN از حرکات افراد در ویدیو دو تصویر فازی ساخته میشود که شامل حرکات افراد در حال تعامل است. این تصاویر ایجاد شده اطلاعات پیشزمینه و نا مرتبط به تعامل را حذف میکند و تغییرات مهم حرکت افراد را با توجه به زمان آن را نگه میدارد. سپس از تصویر ایجاد شده ویژگی استخراج میشود. در این رساله منظور از پیشبینی تعامل توانایی تشخیص مدلها در تمام نرخهای مشاهده از ویدئو است. سه مدل بر روی مجموعه دادههای TV human interaction، BIT و UT ارزیابی شدهاند. نتایج نشان میدهد که دقت این مدلها برای پیشبینی تعامل نسبت به روشهای پیشین بالاتر بوده و در بین این سه مدل روش Dual-Actor دقت بالاتری داشته است.
Understanding video is an important application of computer vision, which is related to the automatic interpretation of videos. One of its main goals is to detect human activity. Human activity is divided into four levels: Gesture is an elementary movement of the human body part and action is a set of body motions of a single performer. Interaction is a more complex phenomenon that involves co-related actions of two or more subjects (e.g. handshaking), or a subject and an object (e.g. closing a window). Group activities are performed by two or more groups of objects.
The goal of prediction or early detection of an interaction is to deduce it in the early stages of interaction. This recognition can prevent dangerous events in the surveillance environments, and also, detect human-robot interactions. Unlike interaction recognition, interaction prediction needs to be derived from the action before it happens.
Human interaction prediction is inherently a challenging problem; first of all, subjects have different appearances and move continuously. A large variety of poses, including continuous behavior over time, are difficult to model. Further challenges arise with realistic scenarios, such as cluttered backgrounds, lighting variations, partially or even fully occluded target objects, and the varying speed of performing actions.
Recently, deep neural networks have shown great power in learning and representation of images and videos. Among these networks, convolutional neural network (CNN) is used to capture both spatial and temporal information. A set of consecutive optical flow images are fed to a CNN to extract temporal features.
In thesis three models based on CNN are presented. In the first model, a dual-actor CNN is proposed, which consists of two branches sharing exactly the same architecture and the same weights.
In the second model, DTW-CNN is presented that uses flow coded images as low-level temporal information and extracts deep temporal features using CNNs. The sequence of deep features is then modeled as a time series, by which the problem of action prediction is reduced to classic time series prediction. The prediction algorithm is a DTW based associative lookup that treats the training set as the lookup context and matches a partially observed sequence with the training instances. Then, the sequence is assigned the label of its closest match.
In the third model, Fuzzy Relation CNN is presented. In this method, a fuzzy image is created to display motion information. This image contains important information for moving participants of the interaction.
The proposed methods are evaluated on three widely used interaction datasets, namely the BIT-Interaction dataset, the UT Interaction dataset and TV human interaction dataset. The results showed that the proposed methods are able to explicitly model an interaction.
1- مشخصات فردی
نام: مه لقا نام خانوادگی : افراسیابی
پست الکترونیکی: m.afrasiabi@basu.ac.ir
2- سوابق تحصیلات دانشگاهی
مقطع تحصیلی و رتبه علمی | رشته تحصیلی | محل تحصیل | سال اخذ مدرک |
کارشناسی | مهندسی کامپیوتر | دانشگاه بوعلی سینا همدان | 1387
|
کارشناسی ارشد | مهندسی کامپیوتر | دانشگاه بوعلی سینا همدان | 1389
|
دکترای تخصصی | مهندسی کامپیوتر | دانشگاه بوعلی سینا همدان |
|
عنوان پایان نامه دوره کارشناسی ارشد: استخراج ضایعه MS در تصاویر MRI با استفاده از روش فازی | |||
عنوان پایان نامه دوره دکتری: تشخیص تعامل دو انسان در ویدیو با استفاده از روش های یادگیری عمیق
|
· رتبه علمی کسب شده در دوران تحصیل
ü رتبه دوم کارشناسی
ü رتبه اول کارشناسی ارشد
3- سوابق آموزشی
· همکاری آموزشی با دانشگاهها :
ü بوعلی سینا همدان
ü صنعتی همدان
ü پیام نور همدان
ü موسسه توسعه آبادانی و روستاها
4- سوابق پژوهشی
· فرصت مطالعاتی:
§ دانشگاه آمستردام هلند 8 ماه
· مقاله علمی
· Mahlagha Afrasiabi , Hassan Khotanlou and Muharram Mansoorizadeh, DTW-CNN: time series-based human interaction prediction in videos using CNN-extracted features, The visual computer, 2019.
· Mahlagha Afrasiabi and Hassan Khotanlou, Human-Human interaction recognition using Adaptive neuro-fuzzy inference system, National and First International Conference on Soft Computing, University of Guilan, 2016
· Rostami, Zahra, Mahlagha Afrasiabi, and Hassan Khotanlou. "Skeleton-based action recognition using spatio-temporal features with convolutional neural networks." Knowledge-Based Engineering and Innovation (KBEI), 2017 IEEE 4th International Conference on. IEEE, 2017.
· Ahmadipour, Zohreh, Mahlagha Afrasiabi, and Hassan Khotanlou. "Multiple human detection in images based on differential evolution and HOG-LBP." Information and Knowledge Technology (IKT), 2016 Eighth International Conference on. IEEE, 2016.
· Abbase, S., Khotanlou, H., Afrasiabi, M., & Asgari, A."Automatic identification of chromosomal abnormalities in metaphase karyotype using paired images in human chromosomes." Knowledge-Based Engineering and Innovation (KBEI), 2015 2nd International Conference on. IEEE, 2015.
· Khotanlou, Hassan, and Mahlagha Afrasiabi. "Feature selection in order to extract multiple sclerosis lesions automatically in 3D brain MR images using combination of Support Vector Machine and Genetic algorithm." Journal of Medical Signals and Sensors 2.4 (2012).
· Khotanlou, Hassan, and Mahlagha Afrasiabi. "Segmentation of multiple sclerosis lesions in brain MR images using spatially constrained possibilistic fuzzy C-means classification." Journal of medical signals and sensors 1.3 (2011).
فارسی
افراسیابی, مه لقا، حسن ختن لو و محرم منصوری زاده، شبکه عصبی عمیق برای پیشبینی تعامل انسان در ویدئو با استفاده از روابط فازی و شار نوری، مجله برق تبریز، 1398.
رستمی, زهرا؛ مه لقا افراسیابی و حسن ختن لو، ۱۳۹۶، تشخیص کنش انسان در تصاویر RGBD مبتنی بر داده های اسکلتی بدن با استفاده از شبکه های کانولوشن، دومین کنفرانس ملی محاسبات نرم، گیلان -رودسر، دانشگاه گیلان.
افراسیابی, مه لقا؛ فروغ جعفرپور و حسن ختن لو، ۱۳۹۲، تشخیص هویت براساس متون دستنویس فارسی با استفاده ازK- نزدیکترین همسایه، پنجمین کنفرانس ملی مهندسی برق و الکترونیک ایران، گناباد، دانشگاه آزاد اسلامی واحد گناباد
افراسیابی, مه لقا و حسن ختن لو، ۱۳۹۰، استخراج اتوماتیک ضایعات multiple sclerosis)MS در تصاویر سه بعدی MR مغزی با استفاده از یک سیستم استنتاج فازی، یازدهمین کنفرانس سیستم های فازی ایران، زاهدان، دانشگاه سیستان و بلوچستان
افراسیابی, مه لقا؛ زینب فرهمندپور و حسن ختن لو، ۱۳۹۰، تشخیص اعداد دستنویس عربی با استفاده از ترکیب الگوریتم ژنتیک و شبکه عصبی، سومین کنفرانس مهندسی برق و الکترونیک ایران، گناباد، دانشگاه آزاد اسلامی واحد گناباد
افراسیابی, مه لقا و حسن ختن لو، ۱۳۸۹، استخراج اتوماتیک ضایعات multiple sclerosis(MS در تصاویر MR مغزی بوسیله الگوریتم MPFCM، ششمین کنفرانس ماشین بینایی و پردازش تصویر، اصفهان، دانشگاه اصفهان
افراسیابی, مه لقا و حسن ختن لو، ۱۳۸۹، ارائه یک روش جدید بازیابی تصاویر براساس رنگ، بافت و شکل، اولین کنفرانس دانشجویی فناوری اطلاعات ایران، سنندج، دانشگاه کردستان
افراسیابی, مه لقا و محرم منصوری زاده، ۱۳۸۹، تشخیص امضا با استفاده از شبکه عصبی و مقایسه ی امضای ایرانی و خارجی، اولین کنفرانس دانشجویی فناوری اطلاعات ایران، سنندج، دانشگاه کردستان
5- مهارتهای نرم افزاری/ دورههای آموزشی گذرانده شده
· برنامه نویسی پایتون، C++، PHP
· آشنایی با نرم افزار MATLAB
· آشنایی با کتابخانه Caffe