پروفایل استاد - دانشگاه بوعلی سینا همدان

استاد

تاریخ به‌روزرسانی: 1404/01/07

حسن ختن لو

مهندسی / مهندسی کامپیوتر

رساله های دکتری

Multi-modal Fake News Recognition using Attention-based Ensemble of Deep Learners
1402
Social networks have drastically changed how people obtain information. News in social net-works is accompanied by images and videos and thus receives more attention from readers as opposed to traditional ones. Unfortunately, fake news publishers often misuse these advantages to spread false information rapidly. Therefore, the early detection of fake news is crucial. The best way to address this issue is to design an automatic detector based on fake news content. So far, many fake news recognition systems including both traditional machine learning and deep learning models are proposed. Given that manual feature extraction methods are very time-consuming, deep learning methods are the preferred tools. This research aims to enhance the performance of existing approaches by utilizing an ensemble of deep learners based on attention mechanisms. To a great extent, the success of an ensemble model depends on the variety of its learners. To this end, we propose a novel loss function that enforces each learner to attend to different parts of news content on the one hand and obtain a good classification accuracy on the other hand. Also, the learners are built on a common deep feature extractor and only differ in their attention modules. As a result, the number of parameters is reduced efficiently, and the overfitting problem is addressed. Additionally, most research in automatic fake news detection is devoted to fully supervised setting. Given that the generation rate of news in social media is drastic and the labeling of a huge amount of data required by fully supervised models is expensive and time consuming, these models are not beneficial in real applications. To address this limitation, we extend our method for semi-supervised setting using effective augmentations, and a novel distribution-aware pseudo-labeling technique. The proposed augmentations enhance the robustness of learners and prevent overfitting effectively. Diverse learners are utilized to annotate the unlab
بررسی اثر خستگی ناشی از رکاب زدن بر الگوی سینرژی و وزن نسبی منتخبی از عضلات اندام تحتانی طی دویدن در سه گانه کاران مبتدی: مقایسه چهار روش مختلف استخراج سینرژی عضلانی
1401
مقدمه: مطالعه سینرژی عضلانی روشی نوین جهت بررسی عملکرد سیستم کنترلی بدن انسان است. روشهای ریاضیاتی مختلفی جهت استخراج سینرژی عضلانی از دادههای الکترومایوگرافی بکار م یرود و این عامل میتواند باعث خروجیهای متفاوت در سینرژیهای عضلانی شود. همچنین خستگی عضلانی به عنوان متغیری تاثیر گذار بر ویژگیهای عصبی-عضلانی میتواند سینرژیها را تحت تاثیر قرار دهد. بنابر این هدف از این مطالعه بررسی سینرژیهای عضلانی قبل و بعد از خستگی عضلانی با استفاده از چهار روش مختلف استخراج سینرژی حین دویدن بود. روش: در این مطالعه نیمه تجربی، 12 دونده مرد شرکت کردند. فعالیت الکترومایوگرافی عضلات دوقلو، نعلی، درشت نی قدامی، راست رانی، پهن خارجی، پهن داخلی، نیم وتری و دوسر رانی طی دویدن ثبت شد. از پروتکل خستگی دوازده مرحلهای با استفاده از دوچرخه ثابت جهت ایجاد خستگی عضلانی استفاده شد. جهت استخراج سینرژی عضلانی از روشهای الگوریتم تجزیه ماتری س نامنفی ، آنالیز قدر مطلق مولفه اصلی ، آنالیز مولف ههای مستقل و آنالیز عاملی استفاده شد. از روش آماری همبستگی پیرسون جهت میزان شباهت الگوهای استخراج شده و .)P<0/ از آنالیز واریانس با اندازه گیری تکراری برای مقایسه وزن نسبی عضلات استفاده شد ) 05 یافته ها: الگوهای سینرژی عضلانی با استفاده از روشهای مختلف استخراج قبل و بعد از خستگی عضلانی، شباهت کم تا بالا را نشان دادند. زمان فعال سازی سینرژی عضلانی و نقاط پیک سینرژیها در قبل و بعد از پروتکل خستگی متفاوت بود. وزن نسبی عضلات پهن داخلی، پهن خارجی و دوقلو قبل از خستگی و عضلات راست رانی، پهن داخلی و پهن خارجی بعد از خستگی با استفاده از روش های مختلف استخراج از داده های الکترومایوگرافی بدست آمد. VAF سینرژی عضلانی به شکل معنی داری متفاوت بود. تعداد چهار سینرژی عضلانی توسط روش نتیجه گیری: با توجه به نتایج این پژوهش، مشاهده شد روشهای مختلف در استخراج سینرژ ی عضلانی م یتواند در تعداد سینرژی استخراج شده، الگوی سینرژیها و وزن نسبی عضلات، زمان فعال شدن سینرژیها و پیک سینرژی قبل و بعد از خستگی عضلانی تاثی ر زیادی داشته باشد و در نتیجه باعث ایجاد تفسیر متفاوت در مطالعات شود.
شناسایی خودکار احساس با استفاده از روشهای یادگیری ماشین
1399
چکیده: امروزه منابع نوشتاری با سرعت بالایی در حال انتشار هستند و مقدار وسیعی از این منابع در ارتباط با نظرات و احساس های کاربران است به همین دلیل بررسی و تحلیل این گونه از نوشتار توجه بسیاری از محققان را به خود جلب کرده است. طراحی سامانه ای بر اساس ویژگی های زبان شناسی شناختی و ماشین های یادگیری از اهداف تعیین شده برای این رساله بوده است. بدین ترتیب در ابتدا پیکره ای احساسی تهیه شد که برگرفته شده از پیکره بی جن خان با تنوع متون نوشتاری است. پیکره تهیه شده با مقدار 23000 سند با طول 24 کلمه، پنج احساس غم، شادی، خشم، حیرت و ترس را شامل می شد. سپس ویژگی های شناختی از قبیل کلمات کلیدی، مفاهیم استعاری و کنایی احساسی، مقولات نحوی مرتبط با احساس معرفی گردید. در ادامه فهرستی نزدیک به 350 کلمه با بار معنایی احساسی به عنوان فهرستی از کلمات کلیدی مرتبط با احساس های گوناگون مشخص گردید. همچنین بر اساس کتاب اصطلاحات فرهنگ عامیانه (نجفی 1387) کتاب نجفی و استعاره های احساسی مطالعه شده در زبان فارسی، فهرستی نیز از استعاره ها و مفاهیم کنایی مرتبط با احساس تهیه گردید. به منظور تهیه فهرستی از مقولات نحوی مرتبط با احساس از برچسب زن نحوی خودکاری استفاده گردید و با استفاده از حد آستانه، مقولات نحوی مرتبط با احساس نیز تهیه گردید. در ادامه پس از مشخص شدن ویژگی های شناختی و توجه به حضور آن ها در جملات به روابط معنایی بین کلمات پرداخته شد. بدین ترتیب با استفاده از شبکه های عصبی مبتنی بر دروازهروابط معنایی کلمات استخراج شده و با ویژگی های شناختی ترکیب گردید. در بخش های بعدی با استفاده از الگوریتم های دسته بندی کننده نایوبیز، درخت تصمیم، ماشین بردار پشتیبانبه دسته بندی دادگان پرداخته شد. معیارهای ارزیابی دقت، بازخوانی، صحت و نرخ اشتباه برای ارزیابی عملکرد سامانه موردبررسی قرار گرفت. درنهایت نتایج به دست آمده نشان داد که ترکیب ویژگی های شناختی به همراه ویژگی های کسب شده از شبکه های عصبی یادگیری عمیق در بهبود عملکرد سامانه تاثیرگذار بوده است و نتایج به دست آمده میزان دقت بالاتری را نشان می دهد به نسبت هنگامی که این ویژگی ها به طور مجزا در دسته بندی احساس بکار می روند.
توسعه معماری چندمنظوره متن کاوی با استفاده از ساختارهای مبتنی بر آنتولوژی، پایگاه دانش و روش های یادگیری هوشمند
1398
متن کاوی به مجموعه ای از مهم ترین تکنیک هایی گفته می شود که وظیفه تحلیل و پردازش داده های غیر ساخت یافته و نیمه ساخت یافته را بر عهده دارند. داده های غیر ساخت یافته و نیمه ساخت یافته هم اکنون چیزی حدود 80 درصد از داده های موجود در سطح جهان را تشکیل می دهند. امروزه درصد بسیار زیادی از شرکت های تجاری، صنایع و موسسات تحقیقاتی، حجم عظیمی از داده های متنی را جمع آوری و ذخیره سازی می کنند. با افزایش روزافزون حجم اطلاعات جمع آوری و ذخیره سازی شده، نیاز به پیاده سازی تکنیک هایی که بتوانند داده ها را تحلیل، دانش موجود در آن ها را استخراج و منابع متنی را جهت به کارگیری در حوزه های مختلف مدل سازی کنند، به شدت احساس می شود. متن کاوی، ابزارها و روش های لازم را برای پردازش، تحلیل، شناسایی و مدل سازی ساختارهای دانش و منابع متنی در اختیار شرکت های تجاری و محققان حوزه پردازش اطلاعات قرار می دهد. در رساله پیشنهادی یک معماری متن کاوی چندمنظوره ارائه شده است. قابلیت های تعبیه شده برای معماری متن کاوی پیشنهادی از طریق یکپارچه سازی دانش ساخت یافته آنتولوژی، پایگاه های دانش ساخت یافته و روش های یادگیری ماشین در مدل پیشنهادی حاصل می شود. اولین قدم در پیاده سازی یک معماری متن کاوی، استخراج ویژگی ها و ساختارهای اطلاعاتی موجود در داده های متنی است. برای چنین کاری یک واحد پیش پردازش معنایی داده های متنی پیاده سازی شده است. وظیفه این واحد استخراج محتوای اطلاعاتی داده های متنی و الگوهای ساخت یافته موجود در آن ها است. یکی از معضلاتی که برخی از سیستم های متن کاوی با آن ها دست وپنجه نرم می کنند، کمبود محتوای اطلاعاتی در اسناد متنی است. در چنین حالتی، روش های مبتنی بر دانش و یادگیری ماشین نیاز است تا محتوای اطلاعاتی مرتبط با منابع متنی شناسایی شوند. در این رساله از یک واحد بدیع جهت غنی سازی محتوای متنی استفاده شده است. در این واحد، دانش ساخت یافته آنتولوژی و پایگاه دانش و ساختارهای اطلاعاتی حاصل از مدل های یادگیری ماشین به طور کامل یکپارچه سازی شده است. در این رساله، دو روش وزن دهی ترکیبی به نام امتیاز برجستگی و امتیاز مشارکت جهت کاهش ابعاد فضای مسئله و شناسایی مفاهیم و ساختارهای اطلاعاتی که مهم ترین نقش را در انتقال زمینه محتوایی اسناد متنی دارند پیاده سازی شده است. قابلیت های تعبیه شده در این روش
سنجش کارکرد آموزش مبتنی بر واقعیت افزوده در درس تاسیسات مکانیکی مقطع کارشناسی رشته معماری
1398
درس تاسیسات مکانیکی
تشخیص تعامل انسان در ویدیو با استفاده از شبکه های عصبی عمیق
1398
چکیده: بسیاری از ویدیوهایی که انسان ها را به تصویر می کشد، دارای فعالیت هایی است که بین انسان ها وجود دارد و نشان گر فرهنگ و رابطه بین آن هاست. با پیشرفت تشخیص کنش های انسان در ویدیو، محققان به شناخت و پیش بینی تعامل انسان- انسان به طور خودکار پرداخته اند. هدف از پیش بینی تعامل تشخیص زود هنگام تعامل قبل از انجام کامل آن است. که در بازیابی ویدیو بر اساس محتوا، تعامل انسان و کامپیوتر و امنیت و نظارت کاربرد دارد. اما این موضوع هنوز یک مسئله چالش برانگیز است، که این چالش می تواند ناشی ازتغییرات تصویر، نحوه اجرای متفاوت افراد در انجام یک تعامل و .. باشد. روش های موجود در این حوزه بر اساس ویژگی به ویژگی های دستی و ویژگی های یادگرفته شده تقسیم می شوند. ویژگی های یاد گرفته شده تا حدودی چالش های تنظیمات ضبط، ظاهر فرد، اندازه تصویر و نقطه دید را کاهش داده اند. انتظار ما این است که استفاده از استخراج ویژگی یادگرفته شده در مدل های پیشنهادی می تواند چالش ها را تا حد امکان کاهش دهد. در اولین مدل پیشنهادی به نام Dual-Actor CNN از دو شبکه همسان برای استخراج ویژگی های دو فرد در حال تعامل استفاده شده است. که این مدل به علت استفاده از شبکه های همسان و به اشتراک گذاری وزن ها باعث می شود چالش جهت و نقطه دید انجام کنش حل شود. در روش پیشنهادی دیگر مسئله در قالب سری زمانی به نام DTW-CNN مدل می شود، فرض بر این است که استفاده از روش روش پیچ وتاب زمانی پویا بتواند بر چالش نرخ زمان اجرای تعامل غلبه کند. از آنجایی که انجام هر کنش یا تعامل ماهیتی فازی دارد و نمی-توان حرکت مشخصی برای تعریف آن در نظر گرفت، استفاده از روش فازی می تواند باعث افزایش دقت تشخیص تعامل شود، در مدل پیشنهادی Fuzzy-Relation CNN از حرکات افراد در ویدیو دو تصویر فازی ساخته می شود که شامل حرکات افراد در حال تعامل است. این تصاویر ایجاد شده اطلاعات پیش-زمینه و نا مرتبط به تعامل را حذف می کند و تغییرات مهم حرکت افراد را با توجه به زمان آن را نگه میدارد. سپس از تصویر ایجاد شده ویژگی استخراج می شود. سه مدل بر روی مجموعه داده های TV human interaction، BIT و UT ارزیابی شده اند. نتایج نشان می دهد که دقت این مدل ها برای پیش-بینی تعامل نسبت به روش های پیشین بالاتر بوده و در بین این سه مدل روش Dual-Actor دقت بالاتری داشته است.
تدوین و ارائه روش تجربی جهت برآورد ریسک مواجهه با صدا در محیطهای صنعتی بسته با به کارگیری تکنیک های هوش مصنوعی و آماری
1397
تمامی مطالعات ذکر شده بر ریسک های مختلف مواجهه با صدا صحه گذاشته اند، اما الگوی ارتباطی فراگیری که روند تاثیر عوامل(استرسور) را با استرس ها و استرین های ایجاد شده شامل اثرات شنیداری و غیر شنیداری فیزیولوژیک و سایکو-فیزیولوژیک با ارائه یک مدل قابل تعمیم نشان دهد، در دست نیست. لذا، تدوین و ارائه یک روش تجربی بهینه که بتواند ریسک مواجهه شاغلین با صدا را با در نظر گرفتن پتانسیل های خطر در محیطهای صنعتی تخمین زده و در مقایسه با روشهای سنجش کمی، ارزیابی دقیقتری ارائه نماید، لازم و ضروری به نظر می رسید. این پژوهش با هدف تدوین و ارائه روش تجربی جهت برآورد ریسک مواجهه با صدا در محیطهای صنعتی بسته با بهکارگیری تکنیک های هوش مصنوعی و آماری انجام گردید.
تعامل مکانی انسان-ربات و برنامهریزی اجتماعی مسی
1396
یکی از پژوهشهای مهم در زمینه رباتیک توسعه روشهای پیشرفتهای است که رباتها را قادر میسازد تا در محیطهای کارآمدی و رفتار ، حفظ ایمنی ، مشترک با انسان کار کنند. یک الزام اساسی برای رفتار رباتها در محیطهای انسانی پیمایش محیط با توجه به الزامات گفتهشده است. پیمایش اجتماعی ، اجتماعی قابلقبول است. از مهمترین وظایف اولیه محیط نیازمند دید کلی نسبت به محیط اطراف است که با استفاده از آن افراد در محیط اطراف تشخیص داده شده و رهگیری شوند. از اطلاعات بهدستآمده از مرحله تشخیص و رهگیری که شامل موقعیت و مسیر افراد است، برای پیشبینی حرکت افراد در محیط استفاده میشود. سپس تعامل بین افراد در محیط بر اساس موقعیت، مسیر و پیشبینی حرکت افراد تشخیص از اطلاعات استخراجشده افراد و تعاملهای آنها برای مدلسازی اجتماعی محیط اطراف و ، داده میشوند. درنهایت برنامهریزی مسیر مبتنی بر این مدل بهره گرفته میشود. مجموعه این وظایف ربات را قادر میسازد تا به صورت ایمن و سازگار با قوانین اجتماعی در محیطهای انسانی پیمایش کند. تعامل مکانی ربات و انسان مبتنی بر اطلاعات کسبشده از محیط انجام میشود. امروزه کمابیش تمامی رباتها مجهز به سنسورهای فاصلهیاب هستند و استفاده از آن نیاز به اعمال تغییری در ربات نخواهد داشت. مهمترین نوع سنسور فاصله یاب، سنسورهای لیزر هستند که قادرند اطلاعات فاصلهای دقیق و سریع از محیط اطراف فراهم کنند. از این رو، در این تمرکز شده ، پایاننامه بر پیمایش اجتماعی محیط با استفاده از دادههای بهدستآمده از لیزر که ابرنقطه نامیده میشوند مرحله انطباق ابرهای نقطه، تشخیص و رهگیری افراد 4 است. چارچوب پیمایش اجتماعی محیط مبتنی بر دادههای لیزر به پیشبینی حرکت افراد، مدلسازی و برنامهریزی اجتماعی محیط تقسیم میشوند. در این پژوهش هر یک ، در محیط اطراف از مراحل چارچوب معرفیشده برای پیمایش اجتماعی محیط به صورت مجزا مورد بررسی قرار گرفته است و سعی شده تا عملکرد هر مولفه با ارائه یا توسعه رویکردهای مرتبط بهبود داده شود. در مرحله انطباق ابرهای نقطه یک بررسی کامل و جامع بر روی روش انطباق تکرار نزدیکترین نقطه و توسعههای آن جهت انتخاب بهترین معماری صورت گرفته است .در همین راستا، یک روش پیشنهادی مبتنی بر ویژگی حفظ صلبیت تغییرات ابرهای نقطه، برای ارتقا عملکرد کلی الگوریتم تکرار نزدیکترین نقطه ارائه شده است. روش پیشنهادی با د
پردازش تصویر در دامنه ی دیفرانسیل برداری دل
1396
موضوع این پایان نامه، استفاده از عملگر دل (Del operator) برای انتقال یک تصویر از میدان عددی به برداری است. در پردازش تصویر، روشی که بتواند یک تصویر را از میدان عددی به برداری برده و به میدان عددی بازگرداند وجود ندارد. به عبارتی دیگر، یکی از چالش هایی که در پردازش تصویر وجود دارد این است که هرچند روش های مبتنی بر گرادیان به نظر تصویر را به فرم برداری درمی آوردند، اما این تنها در کاربردهایی از آن صادق است که نیاز به بازسازی تصویر نباشد. در مواردی که نیاز به بازسازی تصویر باشد، در عمل این روش ها از تصویر لاپلاس می گیرند تا بتوانند به کمک حل معادله ی پواسن به فضای تصویر برگردند. اما عمل لاپلاس گیری فضای تصویر را از میدان عددی به برداری نمی برد، بلکه در همان میدان عددی مانده و فقط دامنه ی آن تغییر می کند. بنابراین این روش ها تنها در حالتی که نیاز به بازگشت به میدان عددی نباشد می توانند از مزایای میدان برداری بهره ببرند و در حالتی که تصویر نیاز به بازسازی دارد، از هیچ یک از اطلاعات، دست کاری ها، و تبدیل هایی که فقط در میدان برداری معنی دارند نمی توانند استفاده کنند. راهکار ارائه شده در این پایان نامه برای تغییر میدان از عددی به برداری، کمک گرفتن از دیفرانسیل ریاضی است. بر اساس دیفرانسیل، یک تصویر دیجیتال (که با آن مانند یک ماتریس عددی رفتار می شود)، در دو راستای افقی و عمودی تحت تاثیر عملگر دل قرار می گیرد و تبدیل به یک ماتریس برداری می شود. درنتیجه، تصویر تبدیل یافته دارای هندسه، اندازه و اطلاعات کاملاً متفاوتی نسبت به تصویر اصلی است، زیرا عملگر دل تصویر را از میدان عددی به برداری تبدیل می نماید. برای بررسی صحت و کارایی این تبدیل، تعدادی از کاربردهای پردازش تصویر نیز در این پایان نامه ارائه شده و مورد ارزیابی قرارگرفته اند. ازجمله ی این کاربردها می توان به قطعه بندی تصویر، آمیختگی تصویر، معیار ارزیابی عینی تصویر، تکمیل سازی تصویر و ویرایش تصویر اشاره نمود. روش های تبدیل تصویر که تاکنون ارائه شده اند مبتنی بر تبدیل دامنه اند و به موجب آن ها تصویر همچنان در میدان عددی باقی می ماند؛ اما هدف این پایان نامه تبدیل تصویر از میدان عددی به میدان برداری است. نتیجه گیری آن که، تبدیل تصویر از میدان عددی به برداری منجر به دسترسی گسترده ای از اطلاعات، تبدیل های خطی و غیرخطی و تغییراتی
پیش بینی فاکتورهای حسی حرکتی موثر بر میزان ناپایداری مزمن مچ پا در زنان ورزشکار نخبه و ارائه مدل با رویکرد شبکه عصبی
1395
مقدمه و هدف: بی ثباتی مزمن مچ پا، شایع ترین عارضه بعد از پیچ خوردگی حاد اولیه است که حدود 60-15 درصد افراد آن را تجربه می کنند. هدف پژوهش حاضر پیش بینی فاکتورهای حسی حرکتی موثر بر میزان ناپایداری مزمن مچ پا در زنان ورزشکار نخبه و ارائه مدل با رویکرد شبکه عصبی بود. روش شناسی تحقیق: روش این مطالعه همبستگی و از نوع Case Control بوده، 25 ورزشکار آسیب دیده و 25 ورزشکار سالم با استفاده از مقیاس های FADI و فرم ورزشی FADI و نیز مقیاس سنجش میزان ناپایداری سایمون انتخاب و در مطالعه وارد شدند. فاکتورهای حسی-حرکتی پیش بین آسیب ناپایداری مزمن مچ پا شامل دامنه حرکتر دورسی فلکشن در تحمل وزن، ثبات ناحیه مرکزی، تعادل ایستا و پویا، فعالیت فیدبکی و فید فورواردی عضلات (دوقلو خارجی، تیبیالیس قدامی، نازک نئی بلند، نعلی، سرینی میانی و سرینی بزرگ) در مهارت فرود روی دستگاه سوپیناتور و پیچش ناگهانی مچ پا، هم انقباضی عضلات اطراف مفصل مچ پا در حین پیچش مچ پا پس از فرود روی دستگاه سوپیناتورمورد سنجش قرار گرفتند. جهت ارزیابی دامنه حرکتی دورسی فلکشن در تحمل وزن از اینکلاینومتر، جهت ارزیابی تعادل پویا از تست ستاره اصلاح شده، جهت ارزیابی تعادل ایستا از بایودکس و نهایتاً جهت ارزیابی فعالیت الکترومیوگرافی عضلات از دستگاه الکترومیوگرافی سطحی استفاده شد. جهت پیش بینی اثرگذاری فاکتورهای حسی-حرکتی بر وقوع اسپرین مزمن از آمار رگرسیون لجستیک استفاده گردید که سطح معناداری آزمون ها 05/0 در نظر گرفته شد. همچنین از شبکه عصبی جهت تعیین مدل پیش بینی اسپرین مزمن استفاده گردید. نتایج: نتایج این پژوهش نشان داد که مدل رگرسیونی 5/89% موردها را به طور صحیح طبقه بندی کرد که در این بین تنها متغیرِهای " فعالیت فیدفورواردی عضله تیبالیس قدامی، تعادل پویا و فعالیت فیدبکی پرونئوس لانگوس" سهم یگانه معنادار آماری در مدل داشتند. تعادل پویا دارای ضریب احتمال 86/0، ضریب احتمال برای شاخص فعالیت فیدفورواردی عضله تیبالیس قدامی 75/0 و ضریب احتمال برای شاخص فعالیت فیدبکی عضله پرونئوس لانگوس 95/0 بود. نتایج شبکه عصبی مصنوعی نیز نشان داد؛ ضرایب رگرسیون برای داده های آموزش، اعتبارسنجی و تست در شبکه ای با یک لایه پنهان و پنج نرون در این لایه به ترتیب 1، 503/0، 863/0 می باشد که نشان دهنده کارایی شبکه در پیش بینی ناپایداری مچ پا بوده و 6/93

پایان‌نامه‌های کارشناسی‌ارشد

شبکه عصبی عمیق با معماری معنایی-احساسی برای تشخیص احساس در متن با استفاده از جاسازی واژه های از پیش آموزش دیده
1402
تشخیص احساسات از متن به سبب نیاز سازمان ها و مراجع به اطلاعات موجود در داده های مکتوب از اهمیت بالایی برخوردار است. پژوهش ها نشان داده است که به علت وجود کلمات و عبارات عامیانه و یا خارج از دایره واژگانی و نیز بُعد پیچیده و متنوع بیان مکتوب احساسات در افراد مختلف، شبکه های عصبی عمیق در ثبت الگوها و بازنمایی های پیچیده عملکرد بهتری نسبت به دیگر روش های موجود از خود نشان داده اند. در این پژوهش، یک شبکه عصبی عمیق به نام معماری معنایی-احساسی با استفاده از برچسب گذاری اجزای کلام برای تشخیص احساسات در متن، با استفاده از جاسازی واژه های از پیش آموزش دیده پیشنهاد شده است. این مدل اطلاعات معنایی و اطلاعات احساسی موجود در متن را با توجه به نقش گرامری کلمات در جمله، باهم ادغام می کند تا معنا و احساس در متن را به خوبی به تصویر بکشد. از جاسازی های کلمات از پیش آموزش دیده، برای نمایش برداری کلمات استفاده شده است. این بردارها اطلاعات معنایی غنی را رمزگذاری می کنند و مدل را قادر می سازند تا زمینه و معنای کلمات را به طور موثرتر دریافت کند. معماری پیشنهادی از سه زیرلایه تشکیل شده است. اولین زیرشبکه از شبکه BiLSTM برای گرفتن اطلاعات متنی و تمرکز بر روابط معنایی استفاده می کند. دومین زیرشبکه از شبکه CNN برای استخراج ویژگی های احساسی استفاده می کند. این زیرشبکه روابط عاطفی بین کلمات را نیز درنظر می گیرد. سومین زیرشبکه از شبکه CNN و یک بلوک POS tagging برای استخراج ویژگی های بیشتر با توجه به نقش کلمات جمله، استفاده می کند. روش پیشنهادی بر روی مجموعه داده ISEAR اعمال و آزموده شده است. نتایج بدست آمده از آزمایش روش پیشنهادی بر روی مجموعه داده و مقایسه آن با روش های پیشین نشان می دهد که مدل عملکرد مطلوبی داشته و به نتایج قابل قبولی دست یافته است.
انتخاب ویژگی برای طبقه بندی با استفاده از محاسبات تکاملی
1402
در بسیاری از مسائل یادگیری ماشین تعداد زیادی ویژگی وجود دارد که همه این ویژگی ها ضروری نیستند؛ زیرا بسیاری از آنها اضافی یا حتی نامربوط هستند که ممکن است عملکرد یک الگوریتم طبقه بندی را کاهش دهند. هدف از انتخاب ویژگی، حل این مشکل با انتخاب تنها زیرمجموعه کوچکی از ویژگی های مرتبط از مجموعه ویژگی بزرگ اصلی است. با حذف ویژگی های نامربوط و زائد، انتخاب ویژگی می تواند ابعاد داده ها را کاهش دهد، روند یادگیری را تسریع کند، مدل آموخته شده را ساده سازی کند و یا کارایی را افزایش دهد. انتخاب ویژگی به دلیل دارا بودن فضای جستجوی بزرگ، کار دشواری است. از بین روش های مختلف موجود برای انتخاب ویژگی، روش های محاسبات تکاملی به دلیل توانایی یا پتانسیل جستجوی سراسری خود برای حل مسئله انتخاب ویژگی در سال های اخیر توجه زیادی را به خود جلب کرده اند. هدف این پژوهش، بهبود دقت طبقه بندی در مسائل مساله انتخاب ویژگی با استفاده از الگوریتم های تکاملی است. مهم ترین چالش های مسئله انتخاب ویژگی، مقیاس پذیری، هزینه محاسباتی، روش های جستجو، معیار ارزیابی و تعداد نمونه ها است. در این پژوهش برای کاهش هزینه محاسباتی به ویژه در مقیاس بزرگ از روشی برای ترکیب انتخاب ویژگی و انتخاب نمونه استفاده شده است و این روش به عنوان روش پایه در همه آزمایش ها استفاده شده است. برای بهبود دقت طبقه بندی از ترکیب روش پایه با الگوریتم های تکاملی مختلف به عنوان روش جستجو استفاده شده است و از 13 مجموعه داده برای ارزیابی روش پیشنهادی استفاده شده است. پس از اجرای آزمایش های مختلف دقت طبقه بندی نسبت به روش پایه در همه 13 بهبود داده شده است.
طبقه بندی تصاویر سی تی اسکن کبد به کمک روشهای یادگیری نیمه نظارتی عمیق
1402
کبد یک عضو مهم و حیاتی در بدن مهره داران است و سلامت کبد برای حفظ سلامتی کل بدن ضروری است. تشخیص و طبقه بندی ضایعات کانونی کبد از تصاویر سی تی اسکن، به دلیل اهمیت کبد در بدن انسان، چالشی بسیار مهم برای پزشکان است. این پژوهش با هدف بهبود دقت طبقه بندی کبد سالم و ضایعات کانونی کبد از جمله کیست ، هیپرپلازی ندولار کانونی ، کارسینوم سلولی کبد و همانژیوم ایجاد شده است و از شبکه های عصبی عمیق و یادگیری انتقالی استفاده کرده ایم. در این پژوهش، از سه شبکه عصبی عمیق ResNet، AlexNet و EfficientNet برای طبقه بندی تصاویر سی تی اسکن کبد با کنتراست بهبودیافته از سه مدالیته مختلف NC، ART و PV استفاده شده است. به دلیل تعداد محدود تصاویر سی تی اسکن کبد، از یادگیری انتقالی برای بهبود عملکرد مدل ها استفاده کرده ایم.در این پژوهش از دو نوع تابع اتلاف میانگین مربعات خطا و تابع اتلاف متقاطع آنتروپی استفاده کرده ایم. نتایج ارزیابی نشان می دهد که مدل ResNet با یادگیری انتقالی و تابع اتلاف متقاطع آنتروپی، بهترین عملکرد را در مقایسه با سایر مدل ها و روش های پیشرفته دیگر دارد و مقایسه ی آن با پژوهش های مشابه نشان دهنده نتایج مطلوب و قابل قبولی در حوزه قطعه بندی ضایعات کانونی کبد است. این پژوهش نشان می دهد که استفاده از شبکه های عصبی عمیق و یادگیری انتقالی می تواند دقت طبقه بندی ضایعات کانونی کبد را از تصاویر سی تی اسکن به طور قابل توجهی افزایش دهد.
جمعیت شماری ویدئویی با استفاده از شبکه های عصبی عمیق توسعه یافته
1402
اخیراً، شمارش تعداد افراد برای صحنه های ویدئویی پر ازدحام به دلیل کاربردهای گسترده آن (مانند نظارت تصویری، امنیت عمومی و تحلیل محتوای چندرسانه ای) با استفاده از روش های مبتنی بر یادگیری عمیق مورد توجه قرارگرفته است. عمده روش ها روی تصاویر ثابت تمرکز داشته اند و تعداد بسیار کمتری بر روی شمارش جمعیت مبتنی بر ویدئو تمرکز می کنند. با این وجود این مدل ها به دلیل عدم توجه به همبستگی زمانی، داده های محدود، محیط متغیر، انسداد و سایر موارد قابلیت تعمیم و کارایی مناسب برای صحنه های طبیعی را ندارند ضمن اینکه ممکن است به دلیل کمبود و عدم تنوع داده دچار بیش برازش هم باشند. این پژوهش، نشان می دهد تخمین جریان افراد در مکان های تصویر بین تصاویر متوالی و استنتاج تراکم افراد از این جریان ها بدون نیاز به معماری پیچیده تر، عملکرد را به طور قابل توجهی افزایش می دهد. علاوه بر این، افزودن یک شبکه عصبی توجه مکانی-زمانی برای تخمین تعداد عابران پیاده نیز بررسی شده است.
یادگیری با نمونه های محدود به کمک روش های مبتنی بر پیام واره
1402
امروزه، در پردازش زبان طبیعی، داده های برچسب گذاری شده مهم است، بااینحال، یافتن تعداد کافی از داده ها یک مرحله چالشبرانگیز است. بسیاری از وظایف وجود دارد که بهسختی می میتوان دادههای آموزشی موردنیاز را به دست آورد. برای مثال در ترجمه ماشینی باید دادههای زیادی را به زبان مقصد آماده کنیم تا عملکرد نهایی قابلقبول باشد؛ بااینحال، ممکن است نتوانیم دادههای مفید را در زبان مقصد جمعآوری کنیم. ازاینرو، نیاز است از یادگیری با نمونه های محدود استفاده کنیم. اخیراً روشی به نام پیام واره نویسی معرفی شده است که در آن ورودی های متن با استفاده از فرمت خاصی که یک یا چند جای خالی دارد، به متنی با ساختار جدید تبدیل می شود. با توجه به متن جدید دارای جای خالی، یک مدل زبانی پیش آموزشدیده بهترین کلمه را جایگزین جای خالی می کند. پیام واره می تواند در زمینه یادگیری با نمونه ها های محدود به ما کمک کند. حتی در مواردی که دادهای وجود ندارد که به یادگیری بدون نمونه معروف است. در کارهای اخیر از مدل های زبانی بزرگ مانند GPT-2 و GPT-3 استفاده و با روش پیام واره نویسی، کارهایی مانند ترجمه ماشینی انجام می شود. در این تلاشها از هیچ داده آموزشی برچسب داری استفاده نمی کنند؛ بااین حال این نوع مدلها با تعداد زیادی پارامتر به سختافزار قدرتمندی نیاز دارند. در این پژوهش، روشی مبتنی بر پیام واره نویسی برای یادگیری با نمونه ها های محدود معرفی شده است. روش ارائه شده بر پایه ساختار PET ایجاد شده است. PET با استفاده از مدل ها های زبانی کوچک مثل RoBERTa یادگیری با نمونه ها های محدود را با عملکرد قابلقبولی انجام می دهد. بر اساس نتایج به دست آمده، روش ارائه شده با استفاده از PET و مهندسی پیام واره و مهندسی پاسخ و همچنین انجام پردازشهای مختلف در دادههای متنی به نتایج قابلقبولی دستیافته است.
قطعه بندی اسبک مغزی در تصاویر تشدید مغناطیسی با استفاده از شبکه های عصبی عمیق
1402
اسبک مغز یک ساختار مغزی کوچک، میانی و زیر قشری است که به حافظه بلند مدت و کوتاه مدت مربوط می شود. شکل و شمایل اسبک مغزی تحت تاثیر مواردی همچون زوال عصبی یا آلزایمر می تواند تغییر پیدا کند. قطعه بندی اسبک مغزی از تصویر تشدید مغناطیسی برای تحقیقات اختلالات عصبی- روانپزشکی از اهمیت بالایی برخوردار است و همچنین می تواند در بررسی بیماری هایی مانند آلزایمر، صرع و اسکیزوفرنی استفاده شود. یکی از ضرورت های بررسی و تحلیل تصویر اسبک مغزی، همانطور که گفته شد، پیش بینی احتمال ابتلا به آلزایمر می باشد، در صورتی که این بیماری سریع تشخیص داده شود و روند درمان آن در مراحل ابتدایی صورت بگیرد احتمال بهبود آن بیشتر است و احتمال کارآمد بودن روش های درمانی نیز بیشتر خواهد بود. هزینه های زیاد مربوط به قطعه بندی دستی اسبک مغزی باعث شده است که پژوهش هایی در حوزه قطعه بندی خودکار اسبک مغزی از تصاویر پزشکی انجام شود. یکی از مهم ترین چالشهای سر راه برای جداسازی اسبک مغزی در تصاویر پزشکی کوچک بودن محدوده ی آن می باشد بطوری که تشخیص ناحیه قرارگیری اسبک مغز در تصاویر پزشکی با چشم غیر مسلح دشوار است. هدف این پژوهش ارائه ی مدلی برای قطعه بندی و تعیین مرز دقیق قرارگیری اسبک مغز در تصاویر تشدید مغناطیسی است. امروزه یادگیری عمیق در بینایی رایانه دارای نقشی کلیدی بوده و برای اهداف گوناگونی چون بازشناسی تصویر، تشخیص چهره، قطعه بندی و تقسیم بندی تصاویر پزشکی و... به کار می رود. در این پژوهش مدلی جمعی از یادگیری عمیق با بهره گیری از ماسک فازی از پیش آموزش دیده برای قطعه بندی اسبک مغز ارائه شده است. برای افزایش دقت مدل در این پژوهش یک ماسک فازی با استفاده از مدل شبکه عصبی کانولوشنی ایجاد می شود. استفاده از ماسک فازی از پیش آموزش دیده با حذف قسمت های اضافه تصویر تشدید مغناطیسی می تواندپیچیدگی مدل جمعی نهایی را کاهش دهد و موجب افزایش دقت در قطعه بندی اسبک مغز شود. بعد از ماسک کردن تصاویر از یک مدل جمعی متشکل از شبکه های عصبی کانولوشنی برای قطعه بندی اسبک مغز استفاده می شود. مدل نهایی ارائه شده قادر است با دریافت یک تصویر تشدید مغناطیسی از مغز در صورت مشخص بودن اسبک مغز آن را با دقت قابل توجهی شناسایی کند. در ادامه بعد از ایجاد مدل با بخشی از داده های موجود در دیتاست، اقدام به ارزیابی مدل شد. نتیجه ارزیابی ان
استفاده از روش برهمنگاری تصاویر دیجیتالی برای اندازهگیری تنش پسماند در روش سوراخ کاری مرکزی
1401
روش برهمنگاری تصاویر دیجیتال در دهه اخیر مورد توجه بسیاری قرارگرفته است. بسیاری از محققان در زمینههای مختلف مهندسی، بهطور مثال در مهندسی مکانیک و در زمینه اندازهگیری میدانهای جابجایی و کرنش و در نتیجه اندازهگیری تنش نیز، پژوهشهای گستردهایی انجام داداهاند. این روش دارای ویژگیهاییست که برتری آن را بر روشهای دیگر اندازهگیری میدان جابجایی بهخوبی نشان داده است. ویژگیهایی مانند عدم نیاز به اپراتور حرفهایی، عدم نیاز به پیشنیازهای پیچیده و هزینهبر برای شروع آزمایش، عدم تاثیر پذیری زیاد از شرایط محیطی مانند دما و ... از جمله مزایای این روش میباشد. همچنین سهولت دسترسی و ازرانی تجهیزات تصویربرداری و محاسباتی و نیز پیشرفته شدن این دو ملزوم اساسی برای روش برهمنگاری تصاویر دیجیتال هم بر افزایش قدرت این روش و در نتیجه اشتیاق محققین برای استفاده از آن افزوده است. اما این روش عاری از نقص نمیباشد. یکی از محدودیتهای مهم در روش برهمنگاری تصویر دیجیتال، الزام به عمود بودن محور نوری آینه بر سطح قطعه است، بطوری که این محدودیت بهعنوان یکی از سه اصل اساسی روش برهمنگاری تصاویر دیجیتال بیان شده است. چندی از محققین با صراحت نتایج به دست آمده از این روش، در صورتی عدم عمود بودن محور نوری دوربین بر سطح قطعه را بی اعتبار توصیف کردهاند. حال آنکه این محدودیت باعث ناکارآمدی روش برهمنگاری تصاویر دیجیتال در موارد آزمایشگاهی و حتی صنعتی شده است. برای اندازهگیری تنشهای پسماند با روشهای سوراخکاری، ایجاد خطا در سوراخکاری در صورت برداشتن مته و سایر تجهیزات بهمنظور ثبت تصویر، باعث ناکارآمدی روش برهمنگاری تصویر دیجیتال میشود. در مقالاتی دیگر برای اندازهگیری میدان جابجایی در مواردی که امکان عمود بودن دوربین بر سطح قطعه را ندارند، روش برهمنگاری تصاویر دیجیتال 3 بعدی را توصیه کردهاند که خارج از حوصله بحث پژوهش حاضر است. مقالاتی دیگر نیز استفاده از ادوات اپتیک مانند آینه یا منشور را پیشنهاد دادهاند که باید گفت استفاده از آینه برای ثبت تصویر عمود همیشه عملی نیست. در پژوهش حاضر اقدام به رفع الزام عمود بودن محور نوری دوربین در روش برهمنگاری تصویر دیجیتال و همچنین ایجاد چینش و دستورالعملی برای اندازهگیری تنشهای پسماند به روش سوراخکاری مرکزی گامبهگام با این شیوه، بهصورت دوبعدی (تنها با یک دوربین) است. در این پژوهش مبا
تحلیل احساس چهره با استفاده از شبکه های عصبی عمیق
1401
احساس چهره نقش مهمی در انتقال مفهوم در ارتباطات انسانی دارد به طوری که پژوهش ها نشان داده است که تا 55% مفاهیم از طریق احساس چهره منتقل می شود و فقط 7% آن با جملات و بیان فرد انتقال پیدا می کند. این موضوع بسیاری از پژوهشگران را به حوزه تحلیل و تشخیص احساس چهره علاقه مند کرد زیرا این حوزه می تواند در بسیاری زمینه های بینایی ماشین ازجمله تعامل انسان و کامپیوتر و محاسبات احساسی به کاربرده شود. در سال های اخیر با توجه به پیشرفت های روزافزون شبکه های عصبی، پژوهش های بسیاری در حوزه تحلیل و تشخیص احساس چهره انجام گرفته است. در این پژوهش روشی مبتنی بر طبقه بندی جمعی با استفاده از شبکه های عصبی کانولوشنی جهت تحلیل و تشخیص احساس چهره ارائه شده است. در شبکه عصبی اول، از الحاق ویژگی های فضایی تصویر به ویژگی های کلی آن جهت ایجاد نقشه ویژگی ها به عنوان ورودی مرحله کلاس بندی استفاده شده است. در شبکه دوم با همان ساختار شبکه اول، از الگوی دودویی محلی تصاویر به عنوان ورودی شبکه استفاده شده است. از آنجا که الگوی دودویی محلی می تواند بافت تصاویر را به خوبی استخراج کند، درنتیجه در تشخیص برجستگی ها و بیان صورت در احساسات مختلف چهره می تواند موثر باشد. پس از آموزش دو شبکه پیشنهادی مذکور، جهت طبقه بندی احساس، احتمال بیشینه بین دو شبکه به عنوان خروجی نهایی در نظر گرفته می شود. روش پیشنهادی بر روی مجموعه داده FER2013 اعمال و آزموده شده است. نتایج به دست آمده از آزمایش روش پیشنهادی بر روی مجموعه داده نشان می دهد که سازوکار عملکرد مطلوبی داشته و در مقایسه با روش های پیشین به نتایج قابل قبولی دست یافته است.
شناسایی وطبقه بندی انواع ساختار پا مبتنی بر فعالیت الکترومایوگرافی منتخبی از عضلات اندام تحتانی هنگام دویدن
1401
تجویز مداخلات درمانی و عملکردی و پیش بینی اثر این مداخلات ، همواره بخش مهمی از دانش بیومکانیک بوده است. تلاش های فراوان صورت گرفته در این زمینه همیشه با چالش اساسی تفاوت های فردی و گستره ی وسیع پاسخ افراد به مداخلات روبرو بوده است. شاید بتوان عامل اصلی این تفاوت ها را پیچیدگی های مکانیکی موجود در بدن انسان تلقی نمود . به نظرمی رسد که نظریه ی گروه های عملکردی با دسته بندی افراد در گروه های معدود تحت عنوان گروه های عملکردی ، دشواری ها و پیچیدگی های بر شمرده شده ناشی از تفاوت های فردی را به نحو چشمگیری کاهش خواهد داد. جهت تعیین گروه های عملکردی ، به کار گیری روش های نوین داده کاوی یکی از نیازهای اساسی است. پژوهش حاضر بر آن است تا با به کارگیری داده های الکترومایوگرافی وبا روش کلاسبندی SVM )ماشین بردار پشتیبان ( و PCA )آنالیز مولفه اصلی ( برای انواع ساختارپا ،گروه های عملکردی را تعیین نماید. در پژوهش حاضرداده های الکترومایوگرافی عضلات درشت نی قدامی، نعلی، دوقلوی داخلی، دوقلوی خارجی ، دوسررانی،پهن خارجی ونازک نی بلند، 27 نفر از دوندگان مرد مبتدی در مرحله ،جذب،پروپالژن و پیش فعالیت ثبت گردید. برای انجام کلاسبندی داده ها و پیش بینی گروه های عملکردی از روش دسته بندی با نظارت ماشین بردار پشتیبان استفاده شد. کلاسبندی SVM با هفت 67 % صحت پیش بینی به دست آمد همچنین با / 22 % و در فاز پروپالژن با 2 / متغیردر فاز جذب با 80 % و در فاز پیش فعالیت با 0 کلاسبندی SVM 69 % به دست آمدکه بهترین درصد پیش بینی بود. گروه های عملکردی با صحت / با 70 متغیر،صحت پیش بینی 0 %90 شناسایی شدند .با توجه به نتایج پژوهش حاضر با استفاده از متغیرهای الکترومایوگرافی در حین دویدن و روش های نوین داده 69 %درصد کلاس بندی شد . نتایج مطالعه / کاوی ، ساختار آناتومیکی پا در حالت دینامیک در سه گروه صاف ، گود و نرمال با صحت 0 حاضر نشان می دهد که دسته بندی بر اساس داده های استاتیک نمی تواند پیش بینی دقیقی از رفتار دینامیک افراد داشته باشد . به نظر می رسد که طبقه بندی بر اساس پارامترهای دینامیک برای دسته بندی پا در حالت مکانیکی مناسب تر باشد.
تشخیص بیماری آلزایمر در تصاویر تشدید مغناطیسی (MRI) با استفاده از یادگیری عمیق و نقشه برجستگی
1401
بیماری آلزایمر یکی از بیماری های زوال مغزی است که در آن حجم مغز کاهش یافته و نورون های مغزی و اتصالات بین آن ها از بین می رود. این بیماری منجر به اختلال در رفتار، حافظه و تعقل بیماران می شود. تاکنون، هیچ درمان قطعی برای بیماری آلزایمر وجود ندارد اما اگر این بیماری در مراحل اولیه شناسایی شود و درمان بیمار از مراحل اولیه بیماری آغاز گردد، کارایی روش های درمانی بیشتر شده و تاثیر بیشتری بر روند درمانی بیمار خواهد گذاشت. روش های تصویربرداری مغزی، یکی از ابزارهای موثر در تشخیص آلزایمر است. تاکنون روش های تشخیص به کمک کامپیوتر زیادی در زمینه تشخیص آلزایمر پیشنهاد شده است که می توانند با دریافت تصاویر پزشکی از مغز بیمار و انجام پردازش های تصویر، به تشخیص آلزایمر بپردازند. دراین مطالعه، رویکردی مبتنی بر یادگیری عمیق برای تشخیص خودکار آلزایمر از روی تصاویر MRI مغزی ارائه شده است. رویکرد پیشنهادی شامل مراحل پیش پردازش برای تبدیل فرمت و رفع نویز، مرحله نقشه برجستگی برای استخراج ویژگی، مرحله نقشه رنگی برای تبدیل تصاویر از حالت دوبعدی به سه بعدی و در نهایت شبکه عصبی کانولوشنی است. در این مطالعه از سه نوع نقشه برجستگی مختلف و چهار نوع معماری متفاوت برای بخش شبکه عصبی کانولوشنی بهره گرفته شده که منجر به توسعه دوازده مدل مختلف برای تشخیص آلزایمر شده است. ارزیابی روش های پیشنهادی بر روی صد تصویر MRI از مجموعه داده Oasis با در نظر گرفتن 20٪ از داده های برای آزمون، 10٪ برای اعتبارسنجی80 ٪ برای آموزش، منجر به نتایج متفاوتی بر روی دوازده مدل توسعه یافته شد. معیارهای دقت، صحت، حساسیت و AUC محاسبه شده برای تمام مدل ها اعدادی بین 63٪ تا 76٪ را کسب کردند و بهترین مدل، با استفاده از نقشه برجستگی CovSal و معماری کانولوشنی ZFNet موفق به کسب 73٪ دقت، 73٪ صحت، 73٪ حساسیت و AUC 76٪ شد. هم چنین مقایسه روش های پیشنهادی با مقاله پایه نشان داد که روش پیشنهادی بهتر از مقاله پایه عمل می کند و نتایج قابل اعتمادتری تولید می کند.
دسته بندی ابرنقاط سه بعدی با استفاده از یک معماری توسعه یافته عمیق
1401
با توجه به گسترس روز افزون حوزه بینایی ماشین و افزایش توانایی بشر در دریافت داده های در ابعاد بالا، پردازش تصاویر سه بعدی به حوزه ای مهم و کاربردی تبدیل شده است. از طرفی ظهور ابرنقاط و نیز حسگرهایی که قدرت دریافت این نوع داده را دارا می باشند گرایش پژوهشگران را به این زمینه ی پژوهشی بسیار افزایش داده است. شایان ذکر است کاربرد فراوان در بینایی اتوموبیل های خودران، ربات ها، پهبادها ، واقعیت مجازی و بسیاری از حوزه های نوین، توجه بسیاری از صنعتگران را به این زمینه جلب کرده است. البته حجم زیاد داده ها و محدود بودن ویژگی های قابل پردازش، دشواری های بسیاری برای حل مسائل گوناگون ابرنقاط ایجاد کرده است. به صورت پیش فرض ما تنها قادر به استفاده از سه مختصه ی x، y و z هستیم و می باید مدلی طراحی کنیم که با تکیه بر این سه مختصه ، قابلیت بالایی در تصمیم گیری داشته باشد. پیش از این و در کوشش های انجام شده توسط پژوهشگران حوزه ی ابرنقاط، توانایی استخراج ویژگی های سراسری محقق شده است . در روش پیشنهادی تلاش شده تا در کنار لحاظ شدن ویژگی های سراسری، به دیگر ویژگی های قابل استخراج توجه گردد. به همین منظور ماژولی ارائه شده است که قادر است نسبت هر نقطه را با نقاط دور دست نیز به دست آورد و به شکلی سلسله مراتبی ویژگی های نسبی نقاط را استخراج نماید وبه شبکه بیافزاید. این عملیات به سه شکل و در سه مدل پیشنهاد شده است و مطابق با نتایج به دست آمده ، توانسته است به لحاظ کارآیی از بسیاری ازروش های پیشنهادی مطرح حوزه ابرنقاط پیشی بگیرد.
دسته بندی اراضی در تصاویر ماهواره ای با استفاده از روش های یادگیری عمیق
1400
تهیه تصویر از زمین و جمع آوری اطلاعات مبتنی بر مکان، از گذشته های دور تا به امروز یکی از دغدغه های بشر بوده است. امروزه با گسترش تجهیزات ماهواره ای و امکان تصویربرداری پیشرفته از سطح و جو زمین، پژوهش ها به سمت پردازش این داده های ارزشمند سوق داده می شوند. با توجه به کاربردهای نظامی، محیط زیستی، شهرسازی و کشاورزی، شناسایی و دسته بندی اراضی در تصاویر سنجش از دور از پژوهش های بنیادی به شمار می رود. از طرفی الگوریتم های یادگیری ماشین به خصوص روش های یادگیری عمیق در حل مسائل هوش مصنوعی، سهم بسزایی داشته و تا به حال نقش مهمی را ایفا کرده اند. در این پژوهش دو رویکرد مبنی بر یادگیری عمیق برای دسته بندی تصاویر ماهواره ای ارائه شد که بر پایه انتقال یادگیری شبکه های کانولوشنی VGG-19 و Efficient-Net هستند. در کنار این شبکه ها از ساختار شبکه رمزگذار-رمزگشای خودکار جهت استخراج نقشه ویژگی از تصاویر استفاده شد. شبکه های نهایی پیشنهادی حاصل هم نشینی یک شبکه از پیش یادگیری شده با شبکه رمزگذار خودکار هستند، که جهت دسته بندی تصاویر ماهواره ای طراحی شده اند.. این دو شبکه پس از پردازش تصاویر ماهواره ای به منظور بالابردن تعداد نمونه های آموزشی ، اصلاح کیفیت و حذف تاری از تصاویر برروی نمونه های تصاویر ماهواره ای اعمال شده و به دسته بندی به روش پیش بینی برچسب کلاس مربوط به تصویر می پردازند. از مزایای روش ارائه شده می توان به استخراج و یادگیری ویژگی به صورت خودکار در مقایسه با مهندسی ویژگی و استخراج ویژگی از نمونه ها به روش کلاسیک اشاره کرد. تفاوت شبکه ها در عملکرد دسته بندی تصاویر ماهواره ای و نحوه استخراج ویژگی از آن ها، باعث ایجاد دو رویکرد متفاوت از هم شده است. هردو رویکرد با استفاده از مجموعه داده های معروف تصاویر ماهواره ای با نام های NWPU-RESISC45 , AID-2017 ,UCMerced ارزیابی شده و نتایج حاصل ار ارزیابی مورد بررسی قرار گرفته است. دقت رویکرد اول برپایه شبکه VGG برروی مجموعه داده های نامبرده به ترتیب96.30 ، 97.52 و 97.82 درصد و دقت رویکرد دوم برپایه شبکه Efficient-Net به ترتیب 97.48 ، 98.94 و 99.01 است که عملکرد مطلوب مدل را نمایش می دهد. رویکرد دوم به نسبت رویکرد اول، سرعت بیشتر و دقت بهتری دارد.
توصیف تصویر با استفاده از یک معماری توسعه یافته شبکه های عصبی عمیق
1400
چکیده: توصیف تصویر، یک زمینه تحقیق بین رشته ای بینایی ماشین و پردازش زبان طبیعی است که توجه بسیاری را به خود جلب کرده است. توصیف تصویر به عنوان یکی از کاربردهای مورد علاقه در سالیان اخیر در زمینه های بسیاری از جمله تشخیص پزشکی، نمایه سازی تصاویر، پیوند تصویر و متن استفاده می شود. برای تولید توصیف تصویر نیاز به تشخیص اشیا مهم و ویژگی آن ها و ارتباط آن ها در یک تصویر است و همچنین باید جملاتی تولید شوند که از لحاظ معنایی و نحوی صحیح باشند. بر اساس نتایج مطالعات و دقت‎ های گزارش شده، برای ماشین کار دشواری است تا مانند انسان توانایی درک تصویر را داشته باشد. با این حال هوش مصنوعی زمینه این نوع ابتکارها را فراهم کرده است. روش های پیشنهادی در زمینه توصیف تصویر معمولا از چارچوب رمزگذار-رمزگشا پیروی می کنند. در این روش هرکلمه بر اساس ویژگی های تصویر و کلمات تولید شده قبلی ایجاد می شود. با توجه به نتایج به دست آمده در توصیف تصویر، هنوز زمینه پیشرفت بسیاری برای بهبود نتایج معیارهای ارزیابی و تولید توصیف خوب وجود دارد. همچنین دیگر چالشی که وجود دارد این است که اکثر روش های موجود روی قسمت بازگشتی شبکه، تولید جمله، کار کرده اند و تاثیر ویژگی های استخراج شده را نادیده گرفته اند. در این پژوهش به منظور تولید توصیف تصویر از چارچوب رمزگذار-رمزگشا استفاده شده است. بخش رمزگذار مدل از ResNet برای استخراج ویژگی های کلی استفاده می کند. و بخش رمزگشا از سه بخش مهم: Attention-LSTM، Attention-Layer، Language-LSTM تشکیل شده است. سازوکار توجه از شواهد محلی برای نشان دادن بهتر ویژگی ها و استدلال در تولید توصیف تصویر استفاده می کند. روش ارائه شده توانسته است معیارهای رایج ارزیابی ROUGEو METEOR را به خوبی بهبود دهد.
تشخیص بیماری از روی تصاویر شبکیه چشم با استفاده از تکنیک های یادگیری عمیق
1400
در بسیاری از بیماری ها در مراحل اولیه علائم آن در شبکیه چشم ظاهر می شود. افزایش حجم تصاویر و پیچیدگی تشخیص آن ها به حدی سریع است که تخصص انسانی برای تفسیر آن ها کافی نیست. هوش مصنوعی نویدبخش آینده روشنی برای تشخیص برخی بیماری های شایع وابسته به دیتاست هایی است که شامل میلیون ها تصویر می باشد. بنابراین بررسی شبکیه چشم به وسیله روش های اتوماتیک نقش مهمی در تشخیص زودهنگام بیماری دارند. بعضی از این روش ها مبتنی بر استخراج ویژگی به صورت دستی از تصاویر شبکیه می باشند. به صورت کلی اگر از الگوریتم های یادگیری ماشین برای طبقه بندی استفاده شود ابتدا نیاز به مهندسی دستی ویژگی های مهم تصویر می باشد. از طرف دیگر اخیراً روشی جدید برای تشخیص و طبقه-بندی تصاویر بدون نیاز به استخراج ویژگی ها به صورت دستی بانام شبکه های عصبی کانولوشن ارائه شده است و همچنین می تواند حجم زیادی وردی را برای طبقه بندی دریافت کنند..برای این منظور در این پایان نامه ابتدا تلاش شده تا با استفاده از شبکه های عمیق یک مدل مطلوب برای تشخیص بیماری از روی شبکیه چشم ارائه می شود. سپس با استفاده از دیتاست های موردنظر مورد ارزیابی قرار داده می شود.
تشخیص نویسنده براساس آنالیز دست خط با استفاده از یادگیری عمیق
1400
چکیده: در دنیای امروز حجم زیادی از اسناد کاغذی موجود توسط دوربین ها و اسکنرها به اسناد دیجیتال تبدیل می شوند. ذخیره سازی، بازسازی و مدیریت کارآمد این آرشیوهای تصویری، در بسیاری از برنامه ها نظیر اتوماسیون اداری و کتابخانه های دیجیتالی دارای اهمیت ویژه ای هستند. در نتیجه دستیابی به الگوریتم های موثر به منظور آنالیز تصاویر دیجیتال اسناد یک نیاز مبرم و اساسی می باشد. شناسایی نویسنده توسط آنالیز کردن اسناد به یکی از چالش های جالب در مسائل پردازش تصویر و شناسایی الگو تبدیل شده است. وابستگی به نوع دست خط، تفاوت ساختاری و گونه های متفاوت نوشتاری در افراد متفاوت از یک سو و کیفیت تصاویر حاصل شده نیز از سوی دیگر مسئله شناسایی نویسنده را با مشکل مواجه کرده است. تاکنون روش های زیادی برای حل مسئله شناسایی نویسنده ارائه شده است که در میان این روش ها یادگیری عمیق یکی از موفق ترین روش ها برای کمک به حل این مسئله بوده است. ما نیز در این پژوهش یک الگوریتم یادگیری عمیق با کمک شبکه های عصبی کانولوشنی ارائه داده ایم. در این پژوهش از یک شبکه عصبی کانولوشنی عمیق استفاده نموده ایم که این شبکه به دلیل دارا بودن لایه های کانولوشنی تا حدی که سبب وقوع سرریز در شبکه نشود به استخراج ویژگی های بهینه تر از تصاویر ورودی ما کمک شایانی می کند. ساختار و رویکرد ما شامل سه مرحله پیش پردازش، استخراج ویژگی و طبقه بندی می باشد. در مرحله پیش پردازش به استخراج تکه هایی با سایز یکسان از نقاط مختلف تصویر با هدف یکسان نمودن سایز ورودی های شبکه و افزایش داده ها می پردازیم، سپس به منظور بهبود کیفیت تصویر، تصاویر را نرمال سازی نموده و از یک فیلتر گاوسی برای حذف نویز و آستانه اتسو برای جداسازی متن از پس زمینه استفاده کرده و در نهایت تصاویر حاصل شده به منظور استخراج ویژگی خودکار به یک شبکه عصبی کانولوشنی عمیق داده شده است. معماری شبکه کانولوشنی استفاده شده ترکیبی از چندین لایه کانولوشنی است که با سه سایز مختلف و به صورت عمیق مورد استفاده قرار گرفته است. در آخرین مرحله ویژگی های استخراج شده توسط لایه اتصال کامل طبقه بندی می‎شوند. همچنین در این پژوهش چندین روش دیگر برای طبقه بندی بر روی دیتاست CVL اعمال گردیده است و نتایج حاصل شده از آن ها مورد بررسی و ارزیابی قرار گرفته است. مدل نهایی توسط معیارهای مختلف طبقه بندی ار
کنترل هوشمند چراغ راهنما با استفاده از شبکه عصبی عمیق
1400
افرایش جمعیت شهری در سالهای اخیر رشد چشمگیری داشته است بهطوریکه حملونقل ترافیک شهری و برونشهری به یک چالش در زندگی تبدیلشده است و ازاینرو کنترل و مدیریت ترافیک اهمیت بسیار بالایی یافته است. یکی از مهمترین علتهای ایجاد ترافیکهای شهری و بعضا برونشهری عدم مدیریت مناسب تقاطعها میباشد. لذا در این پایاننامه به کمک به شیوه مدیریت مناسب توالی فازهای چراغهای راهنمایی و رانندگی در یک تقاطع چهار (ITS) سیستمهای حملونقل هوشمند مسیره به کمک عامل هوشمند و با شیوه یادگیری تقویتی (یادگیری کیو به کمک شبکه عصبی عمیق) سعی شده است تا ترافیک عبوری از تقاطع به شیوهای مدیریت گردد که باعث کاهش زمان معطلی وسایل نقلیه و درنتیجه بهبود ترافیک گردد. بهمنظور آموزش و ارزیابی عملکرد عامل هوشمند که برای کنترل چراغهای راهنمایی و رانندگی مورداستفاده قرارگرفته است، از محیط SUMO شبیهسازی و بهمنظور شناسایی ترافیک منتهی به تقاطع از هر مسیر از روش پردازش تصاویر ویدیویی به کمک شبکههای عصبی عمیق (الگوریتم یولو نسخه 4) استفادهشده است. برای آموزش الگوریتم یولو از تصاویر دیتاست آزاد گوگل در 6 کلاس تصاویر (خودرو سواری، اتوبوس، موتورسیکلت و ...) استفاده گردیده است.در این پایاننامه حالتها در محیط بهصورت گسسته سازی شده از سطح جاده تعریفشدهاند تا عامل بتواند در زمانهای خاص مانند ساعتهای پیک ترافیک با محاسبه سریع تابع پاداش که بر اساس زمان انتظار وسایل نقلیه تعریفشده است یک درک سریع و درعینحال کامل از محیط پیدا کند یعنی به عبارتی اطلاعات دریافت شده توسط عامل از محیط شامل اطلاعات مهم و کاربردی میباشد که حجم این اطلاعات نسبت به سایر کارهای انجامشده در این حوزه کاهش پیداکرده است و این امر باعث کاهش زمان محاسباتی شبکه عصبی میشود و این امر به پیادهسازی روانتر سیستم کمک کرده است و درعینحال نتایج بهدستآمده قابلاجرا در محیط واقعی بوده و نتایج بهدستآمده از دو قسمت ذکرشده، کارایی روش بهکاررفته در این پایاننامه را در مقابل روشهای سنتی نشان میدهد.همچنین استفاده از شبکههای عصبی عمیق برای دو قسمت شناسایی ترافیک و کنترل سیگنال ترافیک روش جدیدی است که در این پایاننامه ارائهشده است که این توانایی را به سیستم میدهد تا بهصورت کاربردی و در محیط واقعی پیادهسازی شود .
تقلید بهینه حرکات انسان توسط ربات با استفاده از روشهای هوشمند
1400
ربات ها در تعامل با انسان ها نیاز به آموزش و برنامه ریزی برای ارتباط آسان دارند. ربات ها بر اساس ظاهرشان انواع مختلفی دارند که یکی از انواع مدل های ربات، ربات انسان نما است. ربات های انسان نما می توانند با توجه به مدل یادگیری از رفتارهای انسان تقلید کنند. این تقلید می تواند در تعامل بهتر انسان و ربات موثر باشد و در انجام بسیاری از کارهای متنوع و سخت به انسان کمک کند. تا به امروز روش های متعددی در تقلید ربات پیاده سازی شده است که به دو دسته پیوسته و گسسته تقسیم می شوند. روش پیوسته بدون یادگیری قبلی صورت می گیرد که بیشتر بر روی تعادل مفاصل ربات و افزایش سرعت آن انجام می شود. در روش گسسته تقلید با آموزش شبکه به منظور یادگیری ربات از قبل صورت گرفته و تمرکز بیشتر بر روی پیش بینی حرکات توسط ربات برای کاهش زمان پیش بینی و افزایش سرعت تقلید است. با وجود نتایج خوب به دست آمده در تقلید، اما هنوز چالش هایی برای پیشرفت آن همچون افزایش دقت و سرعت ربات در تقلید، افزایش تعادل ربات در حین راه رفتن و کاهش زمان تشخیص حرکت انسان در تقلید وجود دارند. در این پژوهش به منظور تقلید ربات از حرکات انسان ابتدا ربات را با شبکه عصبی پیشنهادی، شبکه های عصبی CNN-LSTM آموزش داده می شود. برای آموزش شبکه عصبی از تصاویر ویدیویی مجموعه داده KARD استفاده شده است که در پیش پردازش به منظور بهبود در تشخیص حرکت انسان از تکنیک جریان نوری و همچنین برای جلوگیری از مشکل بیش برازش از تکنیک افزایش داده استفاده شده است. در این پژوهش از ربات نائو به منظور اجرای روش پیشنهادی استفاده شده است. حرکات جدید از حرکات مجموعه داده با استفاده از محیط رابط کاربری ربات نائو به حرکات تعریف شده بر روی ربات اضافه می شود. تقلید حرکت توسط ربات نائو پس از پیش بینی حرکت با استفاده از یادگیری شبکه، به صورت گسسته انجام می شود. ربات آموزش داده شده حرکات انجام شده توسط انسان را تقلید می کند که به این صورت ربات را به صورت گسسته برای تقلید آموزش داده شده است. نتایج پیاده سازی روش ارائه شده، دقت بالا و زمان پیش بینی کمتر و افزایش سرعت تقلید ربات را در برداشته است.
شناسایی هدف در تصاویر سنجش از دور ابرطیفی با استفاده از تکنیک های یادگیری ماشین
1398
چکیده: تصاویر که از فواصل مختلف تصویربرداری می شوند، به تصاویر سنجش از دور معروف هستند. شناسایی هدف از مهمترین موضوعات در زمینه هایی از جمله نظامی و کشاورزی و زمین شناسی است. تشخیص هدفی مانند هواپیما و یا پیدا کردن مین در مناطق جنگی، پیدا کردن منابع آب های زیر زمینی همگی از جمله کاربردهای شناسایی هدف می باشد. چون که هر ماده ای که جهت شناسایی در تصاویر ابرطیفی، یک طیف منحصر بفرد دارد. تشخیص به موقع و درست هدف بسیار حائز اهمیت می باشد و از آنجایی که ممکن است انسان در تشخیص بعضی از اهداف دچار خطا بشود، به همین دلیل دنبال طراحی سیستمی هوشمندیم که بتواند بطور موثر اشیا را تشخیص بدهد. از مدل سازی های اخیر در حوزه هوش مصنوعی در پردازش تصاویر ابرطیفی، می توان به مدل های مبنی بر شبکه های عمیق عصبی و شبکه های عصبی کانولوشنی اشاره کرد. در این پژوهش روشی بر مبنای شبکه عصبی کانولوشنی عمیق برای مسئله تشخیص، طبقه بندی و شناسایی هدف در تصاویر ابرطیفی سنجش از دور ارائه شده است، که بطور کلی از دو قسمت پیش پردازش و شناسایی تشکیل شده است. قسمت پیش پردازش شامل یک شبکه جهت پیش آموزش داده ها است و قسمت شناسایی شامل بخش اول که با استفاده از مدل جفت پیکسلی اختلاف هر پیکسل با همسایه هایش بدست می آید و بخش دوم که شامل دو طبقه بند برمبنای لایه کاملاً متصل در شبکه های عصبی کانولوشنی عمیق و ماشین بردار پشتیبان است که هرکدام از طبقه بندها عملکرد مطلوبی داشته و شناسایی و طبقه بندی تصاویر را با دقت بالایی انجام می دهند. مدل جفت پیکسلی بدین صورت است که اگر پیکسل مرکزی با پیکسل همسایه عضو یک کلاس باشند، در کلاس مشابه و اگر عضو یک کلاس نباشند، عضو کلاس متفاوت قرار می گیرند. شبکه ای که جهت پیش آموزش داده ها انتخاب شده، شبکه بولترمن محدود است. وجود این شبکه بعنوان پیش آموزش باعث تفاوت در استخراج و یادگیری ویژگی می شود. طبقه بندی تصاویر ابرطیفی در این پژوهش، با توجه به کلاس های موجود در تصویر جهت شناسایی هدف به دو کلاس "هدف و غیر هدف" صورت پذیرفته است. البته با توجه به کاربرد شبکه بولتزمن محدود در رابطه با کاهش بعد، یک مقایسه بین عمکلرد این شبکه با روش تحلیل مولفه اساسی صورت پذیرفته است. در نهایت روش پیشنهادی بر روی مجموعه داده های Salinas و Indian Pines اعمال و آزموده شده است. نتیجه یادگیری و آزمایش روش
قطعه بندی تومورهای مغزی در تصاویر MRI با استفاده از تکنیک های یادگیری عمیق
1398
چکیده: قطعه بندی تومور مغزی یک کار مهم در پردازش تصاویر پژشکی است. تومورها شکل، اندازه و کنتراست مختلفی دارند و می توانند در هر ناحیه از مغز ظاهر شوند، از طرف دیگر بخاطر پیش بینی سخت و هزینه های درمان و پیگیری زیاد، فشار اقتصادی و اجتماعی قابل توجهی به همراه دارند. بنابراین تشخیص و شناسایی تومورها به عنوان یک گام اولیه برای برنامه ریزی درمان و بهبود کیفیت و امید به زندگی در بیماران توموری، از اهمیت حیاتی برخوردار است. امروزه مدل های مختلفی با استفاده از الگوریتم های کامپیوتری و هوش مصنوعی برای مساله قطعه بندی تومور مغزی در تصاویر MRI ارائه شده است که از بین آنها تکنیک های یادگیری عمیق نتایج بهتری در مقایسه با تکنیک-های غیریادگیری عمیق ارائه داده اند. در این پژوهش یک الگوریتم کاملا خودکار بر مبنای شبکه های عصبی کانولوشنال با رویکرد یادگیری عمیق برای مساله قطعه بندی تومور مغزی ارائه شده است که یک روش مبتنی بر تکه و شامل مراحل پیش پردازش و پس پردازش است. معماری شبکه عصبی مدل پیشنهادی ترکیبی از چند زیرشبکه عصبی کانولوشنی است که از ویژگی های محلی و سراسری بافت مغز بطور همزمان استفاده می کند. تصاویر ورودی پس از پیش پردازش به تکه هایی با اندازه یکسان تقسیم می شوند و به عنوان ورودی به شبکه ارسال می شوند. شبکه در نهایت به پیکسل مرکزی هر تکه یک برچسب نسبت می دهد. در مدل پیشنهادی بجای لایه کاملا متصل از یک پیاده سازی کانولوشنی لایه اتصال کامل استفاده شده است که باعث کاهش تعداد پارامترهای شبکه و در نتیجه افزایش سرعت مدل تا چندین برابر می شود. مدل پیشنهادی با استفاده از تصاویر دو مدالیته T1 و FLAIR از دو مجموعه داده BRATS2017 و BRATS2013 مورد ارزیابی و آزمایش قرار گرفت و دقت نتایج با استفاده از معیارهای ضریب تاس، حساسیت و تشخیص پذیری برای سه کلاس تومور شامل کل تومور، هسته تومور و تومور پیشرفته سنجیده شد.. نتایج کمی و کیفی حاصل از پیاده سازی مدل ارائه شده برای دو مجموعه داده عملکرد قابل قبول روش پیشنهادی را در مقایسه با حالات state of the art مساله قطعه بندی نشان می دهد.
سیستم پیشنهاد دهنده ی هوشمند مبتنی بر تکنیک های یادگیری ماشین
1398
سیستم های توصیه کننده ابزار های موثر جهت پالایش اطلاعات هستند که به دلیل افزایش سطح دسترسی به اینترنت، تمایل به شخصی سازی و تغییر عادات و علایق کاربران به مرور زمان، استفاده از آن به امری رایج تبدیل شده است. هرچند که سیستم های موجود پیشنهادات مورد قبول و مناسب ارائه می دهند اما همچنان دارای مشکلاتی نظیر دقت، مقیاس پذیری، و شروع سرد هستند. یادگیری ضرایب پنهان نقش مهمی را در سیستم های پیشنهاد دهنده ی مشارکت محور ایفا می کند. فضای پنهان ترجیح کاربران به استفاده از محصولات را در قالب ضرایب پنهان مدل می-کند. سیستم های سنتی ضرایب پنهان را با استفاده از عامل بندی ماتریس آرای کاربران، بر روی محصولات یادگیری می کنند. برای جبران کمبود این روش در پژوهش های جدید از توابع مختلفی برای انتقال داده ها به فضای پنهان از جمله فاصله ی اقلیدسی به جای ضرب نقطه ای استفاده شده است. استفاده از فاصله ی ماهالونوبیس یک روش مطرح برای جبران خطای فاصله ی اقلیدسی در فضا هایی با ویژگی های وابسته است اما آزمایشات انجام شده نشان می دهد که مدل های مورد استفاده برای تحلیل عامل های پنهان بسیار حساس به مقادیر پارامتر ها هستند در نتیجه با توجه به پیچیده تر شدن رابطه ی بین متغییر ها، استفاده ی مستقیم از فاصله ی ماهالانوبیس به بهبود فرایند تحلیل عامل های پنهان کمک نمی کند. در این پژوهش با جایگزینی معکوس تابع انتقال در روش مبتنی بر فاصله ی اقلیدسی با فاصله ی ماهالانوبیس برای بهبود فرایند انتقال و تفکیک فرایند آموزش پارامتر های تابع انتقال و معکوس تابع انتقال برای حل مشکل حساسیت به مقادیر پارامتر ها، همچنین ارائه ی یک شبکه ی عصبی مبتنی بر فاصله ی اقلیدسی برای انتقال داده ها به فضای معنی، دو روش جهت بهبود فرایند تحلیل عامل های پنهان ارائه می دهیم.
ارائه ی روشی برای تشخیص توده ی سرطان سینه از تصاویر ماموگرافی مبتنی بر روش های هوشمند فازی
1398
سرطان پستان شایع ترین سرطان در زنان تشخیص داده شده است که اگر در مراحل ابتدایی بیماری تشخیص داده شود، احتمال بهبود کامل از بیماری بسیار بالاست و باعث کاهش تلفات جانی این بیماری می شود. ماموگرافی یک نوع عکس رادیوگرافی از بافت سینه است. پزشک متخصص برای تشخیص توده های غیر قابل لمس و بسیار کوچک پستان، تصاویر ماموگرافی را بررسی می کنند. مشاهده بصری این تصاویر و بررسی آن ، تنها ابزار پزشک برای تشخیص توده است، که در پی آن تاثیر خطای انسانی روی تشخیص توده ها را خواهد داشت. از این رو راه اندازی یک سیستم CAD برای قطعه بندی توده، به عنوان دومین عقیده در شناسایی توده ها و کمک به متخصصین پزشکی، گامی مهم و ضروری در این زمینه به شمار می رود. در این پژوهش، سیستمی خودکار برای قطعه بندی و تشخیص محل دقیق و اندازه و مرز توده های سینه با استفاده از پردازش تصویر، یادگیری ماشین و روش های فازی، طراحی و پیاده سازی شده است. در سیستم پیشنهادی، ابتدا عملیات پیش پردازش به منظور افزایش کنتراست تصویر و سپس حذف نویزهای موجود در تصاویر انجام شده است. پس از آن در فاز اول قطعه بندی، به منظور رسیدن به دقت بالا در قطعه بندی، از الگوریتم قطعه بندی Grow Cut استفاده شد. برای خودکار کردن انتخاب نقاط Seed الگوریتم Grow Cut، از مراکز خوشه های خوشه بند FCM به عنوان نقاط Seed اولیه، بهره گرفته شد. در فاز دوم پژوهش، استخراج ویژگی با استفاده از روش های فلیتر گابور، هیستوگرام گرادیان های جهت دار، الگوی دودویی محلی و ماتریس هم رخداد سطح خاکستری انجام گرفت. دلیل استفاده از این ویژگی ها، ایجاد مجموعه ای از انواع ویژگی های بافت، ویژگی های هندسی و ویژگی Intensity است که نتیجه ی آن بررسی همه جانبه تفاوت های توده و بافت سالم سینه خواهد بود. در ادامه دسته بندی پیکسلی برای قطعه بندی تصویر، با دو دسته بند ماشین بردار پشتیان با کرنل polynomial و K نزدیکترین همسایه، صورت گرفت. در گام نهایی، ترکیب الگوریتم Grow Cut با دو دسته بند SVM و KNN ، طراحی سیستم پیشنهادی را تکمیل می کند. نتایج بدست آمده از سه روش، به روش رآی اکثریت برای دسته بندی داده ها و در نهایت قطعه بندی نهایی توده، با هم ترکیب شدند. در پایان با استفاده از فیلتر اکثریت گام پس پردازش انجام شد. ارزیابی این پژوهش روی پایگاه داده mini-MIAS انجام شد که نتایج آزمایشات و
تعیین گروه های عملکردی هنگام راه رفتن براساس ویژگی های فشار کف پایی
1398
تجویز مداخلات درمانی و عملکردی و پیش بینی اثر این مداخلات ، همواره هدف اصلی و نهایی دانش بیومکانیک بوده و هست. تلاش های فراوان صورت گرفته در این زمینه همیشه با چالش اساسی تفاوت های فردی و گستره ی وسیع پاسخ افراد به مداخلات روبرو بوده است.شاید بتوان عامل اصلی این تفاوت ها را پیچیدگی های مکانیکی موجود در بدن انسان تلقی نمود. نظریه ی گروه های عملکردی با دسته بندی افراد در گروه های معدود تحت عنوان گروه های عملکردی ، دشواری ها و پیچیدگی های بر شمرده شده ناشی از تفاوت های فردی را به نحو چشمگیری کاهش خواهد داد.جهت تعیین گروه های عملکردی، نیاز به کار گیری روش های نوین داده کاوی است. که در این پژوهش داده های فشار کف پایی 280 نفر از دانشجویان پسر دانشگاه بوعلی سینا در مرحله استقرار راه رفتن با استفاده از فوت اسکن محاسبه شد.مولفه های فشار کف پایی به عنوان درون داد طرح خود سازمان ده (SOM) استفاده شد .سپس آزمودنی ها با استفاده از روش خوشه بندی K-means به سه گروه دسته بندی شدند. این داده های گروه بندی برای تمرین هسته مرکزی دستگاه بردار پشتیبان (SVM) به کار گرفته شد و در مرحله بعد با استفاده از همین SVM تمرین داده شده آزمودنی ها در دو حالت کف پای نرمال و غیر نرمال دسته بندی شدند و صحت گروه بندی با روش اعتبار سنجی متقابل تعیین شد .گروه های عملکردی با صحت 95% شناسایی شدند .با توجه به نتایج پژوهش حاضر با استفاده از مولفه های فشار کف پایی در حین راه رفتن و روش های نوین داده کاوی ، ساختار آناتومیکی پا در حالت دینامیک در سه گروه صاف ، گود و نرمال با صحت 97% درصد کلاس بندی شد .شناسایی این گروه ها و تعیین ویژگی های آن ها برای پیش بینی اثر مداخلات و تجویز مداخله مناسب بسیار حائز اهمیت است
برچسب گذاری تصاویر با استفاده از شبکه مولد رقابتی
1398
امروزه با رواج رسانه های اجتماعی و دوربین های دیجیتال، تصاویر دیجیتال برای عموم مردم بیشتر قابل دسترس است. بیشتر کاربران رسانه های برخط مانند Flicker و instagram مایلند تصاویر خود را با آشنایان و دوستان خود به اشتراک بگذارند. معمولا زمانی که کاربران تصاویر خود را به اشتراک می گذارند از کلماتی کوتاه برای توصیف آن تصویر استفاده می کنند، این فرآیند «برچسب زدن تصاویر» یا «تگ زدن تصاویر» می باشد. یک سیستم خودکار تگ زننده باید بتواند برای تصویر تگ های مناسب آن را به دست بیاورد. «برچسب زدن تصاویر» به صورت خودکار یکی از مسائل مهم و کاربردی در حوزه پردازش تصویر است. برچسب زدن تصاویر دارای کاربرد هایی است که از آنها در زمینه توسعه کارهای کامپیوتری استفاده می شود. از جمله این کاربردها می توان به جستجوی سریع تصاویر به کمک برچسب ها، افزایش کیفیت جستجو در موتورهای جستجو، افزایش تعداد بازدیدکنندگان سایت و افزایش کیفیت در اشتراک گذاری تصاویر اشاره کرد. عمل تگ زدن تصویر به طور کلی به سه صورت می تواند انجام شود: 1) به صورت دستی که کاربر خود برای تصویر تگ می زند؛ 2) به صورت نیمه خودکار که یک نرم افزار به کاربر برای تگ زدن کمک می کند؛ 3) به صورت خودکار که نرم افزار تگ تصویر را می زند. برای تگ زدن تصویر نیاز است تا محتوای تصویر به خوبی شناسایی شود. برای درک محتوای تصویر باید ویژگی های مناسب از تصویر شناسایی شود. برای شناسایی ویژگی ها می توان از تکنیک های مختلف یادگیری ماشین مانند شبکه های عصبی عمیق و ... استفاده کرد. موضوع قابل اشاره در اینجا استفاده از شبکه RBM و شبکه عصبی مولد رقابتی است برای ایجاد تگ برای تصاویر است. به طور ضمنی در شبکه مولد رقابتی دو مدل مولد و جداکننده به صورت رقابتی آموزش داده می شوند. این دو شبکه در کنار یکدیگر در یک روند رقابتی آموزش دیده و سعی در تولید داده ها با کارایی بالا دارند. این کار بر روی مجموعه داده های Cifar100 و Corel10k مورد آزمایش قرار می گیرد و نتایج به دست آمده نشان می دهد که مدل طراحی شده در بین مدل های مولد نتایج بهتری به همراه داشته است. همچنین از تصاویر تولید شده توسط شبکه مولد برای بحث افزایش داده استفاده شده و برچسب گذاری انجام می شود که موجل افزایش دقت به دست آمده می شود.
دسته بندی تومورهای مغزی در تصاویر MRI با استفاده از تکنیک های یادگیری عیمق
1398
چکیده: با پیشرفت روزانه علم هوش مصنوعی در زمینه های مختلف به خصوص زمینه های پردازش تصاویر پزشکی، مسئله آنالیز تصاویر تومور مغزی برخلاف اهمیت ویژه ای که در سلامتی و حیات انسان ها دارد، کماکان به صورت یک مسئله دردست بررسی در مجامع علمی است. تشخیص و بررسی زودهنگام تومور مغزی در صدر مسائل بررسی تومور قرار داشته و امروزه مدل هایی مبنی بر الگوریتم های پیشرفته کامپیوتری جهت حل این مسئله حیاتی ارائه شده اند. از مدل سازی های اخیر در حوزه هوش مصنوعی در پردازش تصاویر پزشکی، می توان به مدل های مبنی بر شبکه های عمیق عصبی و شبکه های عصبی کانولوشنی اشاره کرد. دراین پژوهش روشی بر مبنای شبکه عصبی کانولوشنی عمیق برای مسئله تشخیص، دسته بندی و درجه بندی تومور مغزی در تصاویر مغزی ام آرآی ارائه شده است، که به طورکلی از دو قسمت پیش پردازش و دسته بند تشکیل شده است. قسمت دسته بندی شامل دو دسته بند برمبنای شبکه های عصبی کانولوشنی عمیق است که هرکدام از دسته بندها عملکرد مطلوبی داشته و دسته بندی تصاویر را با دقت بالایی انجام می دهند. این دو دسته بند از نظر ساختار لایه ای و معماری شبکه شبیه به هم بوده اما از نظر نحوه آموزش قسمت های شبکه بایکدیگر متفاوتند که این امر باعث تفاوت در استخراج و یادگیری ویژگی می شود. هر دسته بند از دو زیرشبکه تشکیل شده که زیرشبکه های دسته بند اول، زیرشبکه اتوانکدر و زیرشبکه عصبی کانولوشنی هستند و زیرشبکه های دسته بند دوم، شامل زیرشبکه دکانولوشنی و زیرشبکه عصبی کانولوشنی هستند که تفاوت در نحوه آموزش این زیرشبکه هاست که، تفاوت در عملکرد کلی دسته بند را شامل می شود. دسته بندی تصاویر مغزی در این پژوهش، با توجه به کلاس های تصاویر مورد دسته بندی به چند شکل صورت پذیرفته است. امام مهم ترین و کلی ترین شکل دسته بندی در این پژوهش، تشخیص، دسته بندی و درجه بندی تصاویر تومور با استفاده از یک دسته بند یکپارچه است که تصاویر مغزی ام آرآی را به کلاس های "مغز نرمال و بدون تومور، مغز دارای تومور منینژیوما، مغز دارای تومور پیتوتاری، مغز دارای تومور آستروسیتوما، مغز دارای تومور گلیوما پیشرفته و مغز دارای تومور گلیوما ساده" تقسیم بندی کند. درنهایت روش پیشنهادی برروی مجموعه داده های cheng، Brats 2017، IXI، و Hazrat-Rasool Hospital، اعمال و آزموده شد. نتیجه یادگیری و آزمایش روش پیشنهادی بر ای
تعیین گروه های عملکردی با استفاده از ویژگی های فشار کف پایی حین دویدن
1397
قابلیت و برخورداری از قدرت پیش بینی در مباحث علوم ورزشی، این امکان را فراهم می کند که علاوه بر تاثیر در کیفیت زندگی، ریسک ابتلا به صدمات عضلانی و اسکلتی را کاهش یابد. برای مثال، دانش بیومکانیک از طریق پیش بینی پاسخ های احتمالی به مداخلات و متغیرهای مکانیکی در پی ارتقاء سطح زندگی بطور کلی و پیشگیری از آسیب های ورزشی و حرکات انسان است. با وجود این، تغییرپذیری بسیار زیاد در داده های بیومکانیکی و تفاوت های فردی همواره به عنوان چالشی جدی، پیشروی محققین و دانشمندان این حوزه بوده است. بنابراین، دقت در اندازه گیری های بیومکانیکی داده ها از یک سو و به-کارگیری روش های نوین تحلیل داده ها از سوی دیگر، قادر است تا حدی تغییر پذیری و تفاوت های فردی را از طریق معرفی وشناسایی گروه های عملکردی کاهش دهد. یافتن گروه های عملکردی در عمل می تواند پاسخ های متفاوت بیومکانیکی تعداد کثیری از افراد را در قالب چند دسته معدود خلاصه نماید. این مزیت سبب نزدیکی به هدف غایی بیومکانیک یعنی پیش بینی اثر و تجویز مداخلات برای عملکرد مناسب حرکات انسان و به تبع آن کاهش اختلالات و آسیب ها می شود. پژوهش حاضر بر آن است تا با بکارگیری داده های کینتیک (ایمپالس، بیشترین فشارونیرو ) و با روش کلاس بندی SVM ) ماشین بردار پشتیبان) برای انواع پا گروه های عملکردی تعریف نماید. در پژوهش حاضر 90 آزمودنی زن شرکت کردند. برای ثبت آزمون از دستگاه RsScan که در طول مسیر 16 متری محل انجام آزمون نصب شده بود استفاده شد. برای انجام کلاس بندی داده ها و پیش بینی گروه های عملکردی ازروش دسته بندی بانظارت ماشین بردار پشتیبان استفاده شد. کلاس بندی SVM در حالت خطی با متغیر فشار و ایمپالس59٪ و با متغیر نیرو 57٪ دقت پیش بینی بدست آمد، همچنین در svm غیرخطی چند جمله ای درجه یک با متغیر فشار64٪ ،نیرو و ایمپالس 62٪ دقت گزارش شد و در svm چندجمله ای درجه دوبا متغیر فشار 58٪ ، با متغیر ایمپالس 53٪ و در نهایت با متغیر نیرو 73٪ دقت پیش بینی محاسبه شد.و با هر سه متغیر در SVM چندجمله ای درجه دو به 78٪ دقت در پیش بینی رسیدیم، که بهترین درصد پیش بینی بود. نتایج مطالعه حاضر نشان می دهد که دسته بندی براساس داده-های استاتیک نمی تواند پیش بینی دقیقی از رفتاردینامیک افراد داشته باشد. برای بررسی دینامیک پا به نظرمی رسد که طبقه بندی براساس پارامترهای دینامیک
طبقه بندی تصاویر ابرطیفی مبتنی بر روش های محاسبات نرم با استفاده از داده های برچسب خورده محدود
1397
تصاویر ابرطیفی از جمله تصاویر هوایی به شمار میروند که تجزیه و تحلیل آنها یکی از زمینههای پرکاربرد در حوزه سنجش از دور به حساب میآید. برخی کاربردهای این تصاویر در گروه مسائل دستهبندی قرار میگیرند. دو چالش اصلی در رابطه با دستهبندی این تصاویر مطرح است: اول، برای دستهبندی این تصاویر نمونههای آموزشی کمی در دسترس است که این موضوع در کنار ابعاد بسیار زیاد دادههای ابرطیفی مشکلاتی در دستهبندی ایجاد میکند. دوم، عواملی نظیر نویزهای سنسور و مواد تشکیل دهنده اتمسفر باعث بروز مشکل تغییرات طیفی میشوند که موجب چالش برانگیز شدن شناسایی کلاسها و تخصیص نمونهها به آنها میشود. با پیشرفتهای اخیر در زمینه یادگیری ماشین، شبکههای عصبی به عنوان روشی کارآمد برای حل مسائل مختلف شناخته میشوند. در این پژوهش یک روش دستهبندی طیفی-مکانی تصاویر ابرطیفی مبتنی بر شبکه عصبی کانولوشنی و مدل تصادفی مارکف ارائه شدهاست. در این روش از تکنیکهای افزایش داده نظیر، استفاده از دوران و انعکاس، افزودن نویز گوسی، و افزایش داده مبتنی بر برچسب برای مقابله با مشکل تعداد نمونههای آموزشی کم، استفاده شدهاست. جهت جلوگیری از بیشبرازش، شبکه عصبی مورد استفاده فاقد لایههای تماما متصل بوده و در آن از نرخ حذف تصادفی بالا استفاده شدهاست. در مرحله آزمون، پس از به دست آمدن احتمال تعلق نمونههای مختلف به کلاسها توسط شبکه عصبی، برچسبهای نهایی با استفاده از الگوریتم min مبتنی بر α-Expansion - بهبود داده میشوند. cut که از دو سنسور Pavia University و Salinas ،Indian Pinesروش پیشنهادی بر روی سه مجموعه داده معیار به دست آمدهاند آزمایش شد. نتایج آزمایشها نشان داد که روش پیشنهادی در شرایط وجود مجموعه دادههای ROSIS و AVIRIS آموزشی محدود، در دستهبندی این سه مجموعه داده نسبت به روشهای دیگر عملکرد قابل قبولی دارد
دسته بندی چند برچسبه تصاویر ماهواره ای با استفاده از روش های یادگیری عمیق
1397
چکیده: با گسترش روز افزون رسانه های تصویربرداری هوایی و در نتیجه داده های ماهواره ای، نیاز به الگوریتم هایی کارا برای بررسی این تصاویر بیشتر احساس می شود. تصاویر ماهواره ای در زمینه های مختلفی مورد استفاده قرار می گیرند. یک نمونه از این حوزه ها، نظارت و حراست از محیط زیست است. دسته بندی تک برچسبه به فرآیند اختصاص یک برچسب از میان دسته های موجود به یک نمونه گفته می شود. دسته بندی تک برچسبه از دیرباز مورد توجه محققان بوده است و نتایج مطلوبی در این حوزه حاصل شده است. دسته بندی چند برچسبه از سوی دیگر، به فرآیند اختصاص چند برچسب (Y) به یک نمونه موجود گفته می شود. فضای ممکن برای تمام حالات دسته ها در دسته بندی چندبرچسبه از ترکیب تمام دسته ها (2^Y) حاصل می شود. این فضا بسیار بزرگ است و پیچیدگی مسئله را بسیار زیاد می کند. از طرفی روش های مبتنی بر یادگیری عمیق در حوزه های مختلف، عملکرد مطلوبی را ازخود به نمایش گذاشته اند. در این پژوهش، روشی کارآمد مبتنی بر یادگیری عمیق برای طبقه بندی چند برچسبه تصاویر ماهواره ای ارائه شده است. روش پیشنهادی از چند بخش تشکیل شده است. بخش اول شامل پیش پردازش تصاویر است. در بخش دوم شبکه ای ترکیبی با استفاده از اجزاء شبکه های عصبی پیچشی ارائه شده است. شبکه پیشنهادی، از دوشبکه معروف در حوزه دسته بندی تک برچسبه تصاویر به نام های VGG19 و Densenet استفاده می کند. به جهت پردازش ویژگی های خام استخراج شده، شبکه ای با استفاده از ساختار شبکه در شبکه طراحی شده است. در انتها از یک روش پس پردازش برای تعیین آستانه برچسب زنی استفاده شده است. همچنین روش پیشنهادی، بر روی دو مجموعه داده با دو حوزه مجزا آزموده شد. مجموعه داده اول، مجموعه داده آمازون تحت عنوان: Planet: Understanding the Amazon from Space با محتوای تصاویر ماهواره ای است. مجموعه داده دوم، مجموعه داده PASCAL Visual Object Classes (VOC) با محتوای اشیاء واقعی است. ارزیابی های کمی و کیفی صورت گرفته بر روی این مجموعه داده ها، عملکرد مطلوب روش پیشنهادی را برای دسته بندی چندبرچسبه تصاویر را نشان می دهد.
آنالیز صحنه مبتنی بر ابر نقاط 3 بعدی با استفاده از تکنیک های یادگیری عمیق
1397
ابر نقطه به عنوان یک نمایش مناسب برای داده های سه بعدی پذیرفته شده است؛ که بیشتر حسگرها و سنسورهای 3-بعدی قابلیت تولید این نوع داده را دارند. با پیشرفت های اخیر در تولید این نوع سنسور ها، آنالیز ابر نقطه تبدیل به یک زمینه تحقیقاتی مهم در حوزه بینایی ماشین شده است که طیف وسیعی از کاربردها به خصوص در حوزه رباتیک (مانند ماشین های خودران) را شامل می شود. به دلیل ماهیت نامنظم ابر نقاط، آنالیز این نوع داده با استفاده از الگوریتم های یادگیری عمیق دارای چالش های زیادی است. جهت حل این چالش ها، بیشتر روش های پیشین ابر نقاط را به داده های منظم سه بعدی (مانند وکسل) و یا دو بعدی (مانند تصویر) تبدیل می کنند؛ که این تبدیلات منجر به پردازش های اضافی در این روش ها خواهد شد. از این رو، معماری PointNet با استفاده از شبکه عصبی عمیق، برای آنالیز مستقیم ابر نقطه خام معرفی شده است. این معماری از مزیت های همسایگی برای استخراج ارتباط مکانی محلی نقاط به خوبی استفاده نکرده است. در این پایان نامه روشی برای بهبود PointNet، با الهام از عملیات ضرب پیچشی توسط مفهوم فاصله نقطه از صفحه در فضا برای استخراج این ارتباط فضایی محلی، بر روی داده های ابر نقطه ارائه شده است. روش پیشنهادی، جهت ارزیابی وظایف طبقه بندی، قطعه بندی اجزا و قطعه بندی معنایی صحنه بر روی چهار مجموعه داده ModelNet-40، MNIST، ShapeNet-Part و S3DIS اعمال شده است. نتایج نشان می دهد که روش پیشنهادی به کارایی قابل قبولی در مقایسه با روش های پیشین در تمامی وظایف دست یافته است.
ارائه ی روشی جدید برای آنالیز ابر نقاط مبتنی بر تکنیک های یادگیری عمیق
1397
چکیده: در سال های اخیر استفاده ی داده های سه بعدی در انواع کاربردها از جمله رباتیک، مکانیک و خودروهای بدون سرنشین افزایش یافته است. در این بین، ابر نقطه به علت منعطف بودن و دسترس پذیری آن یکی از مهم ترین انواع داده ی سه بعدی محسوب می شود. در نتیجه نیاز به روش هایی که این نوع داده را به طور خودکار آنالیز کنند رو به افزایش است. البته ابر نقطه دارای ذات نامرتبی است و هیچ گونه ساختار شبکه ای در آن وجود ندارد، همین مسئله آنالیز آن را چالش برانگیز کرده است. در بین روش های موجود برای کاربردهای بینایی ماشین، شبکه های کانوولوشنی از محبوب ترین و موفق ترین روش ها هستند. گرچه، این شبکه ها نیازمند داده ی ورودی با ساختار منظم هستند و آنالیز ابر نقطه ی نامنظم به طور مستقیم توسط این شبکه ها ممکن نیست. به همین علت اکثر محققان ابتدا داده ی ابر نقطه را به نوعی نمایش منظم تبدیل می کنند و سپس آنالیز آن را انجام می دهند. ولی این تبدیل نوع نمایش اغلب با پیش پردازش های سنگین و از دست رفتن اطلاعات مکانی همراه است. اخیرا تعدادی از تحقیقات جدید به آنالیز ابر نقطه بدون تغییر نوع نمایش آن پرداخته اند ولی هنوز چالش های بسیاری پیش روی آن هاست. در این پایان نامه به بررسی مسئله ی آنالیز ابر نقطه بدون تغییر نوع نمایش آن و با استفاده از شبکه های عصبی عمیق پرداخته شده است. یکی از چالش های روبروی آنالیز ابر نقطه ی خام، استخراج کارآمد اطلاعات ساختارهای هندسی محلی موجود در ابر نقطه است. روش پیشنهادی یک شبکه ی عصبی پشت سرهم است که شامل یک مرحله استخراج ویژگی های محلی و یک مرحله ی استخراج ویژگی نقاط مستقل است. مرحله استخراج ویژگی محلی از شبکه های کانوولوشنی الهام گرفته شده است و می تواند اطلاعات محلی موجود در ابر نقطه را به طور خودکار استخراج کند. این مرحله مشابه یک لایه ی کانوولوشنی دارای فیلترهایی است که می توانند در طی فرآیند آموزش شبکه آزادانه تنظیم شوند با این تفاوت که این فیلترها از نوع ابر نقطه هستند. علاوه بر آن، به جای عمل کانوولوشن (ضرب پیچشی)، فاصله ی هاسدورف برای استخراج ویژگی معرفی شده است که با محاسبه ی شباهت بین فیلترها و ساختارهای محلی ابر نقطه، ویژگی های این ساختارها را استخراج می کند. استخراج ویژگی نقاط مستقل با استفاده از پرسپترون چندلایه با اشتراک گذاری وزن ها انجام می شود. در نهایت یک
تحلیل سینماتیک مستقیم ربات موازی با استفاده از شبکه های عصبی بهینه سازی شده توسط الگوریتم های تکاملی
1397
در این پایان نامه به بررسی مسئله سینماتیک مستقیم ربات موازی با استفاده از شبکه های عصبی پرداخته شده است. یک مکانیزم موازی از یک صفحه متحرک و یک پایه ثابت تشکیل شده است که حداقل با دو زنجیره ی سینماتیکی سری به طور موازی به یکدیگر اتصال دارند. از مزایای این ربات ها می توان به صلبیت و نسبت تحمل نیرو به وزن بالا اشاره کرد. همچنین معایب آن شامل کنترل پیچیده مجری نهایی و تعدد نقاط تکین در داخل فضای کاری می باشد. حل مسئله سینماتیک مستقیم در ربات های موازی یکی از چالش های اساسی در این ربات ها است، زیرا برای کنترل حلقه بسته ربات موازی حل سینماتیک مستقیم ضروری است. مسئله سینماتیک مستقیم یک ربات موازی شامل پیدا کردن تمامی حالت های ممکن عملگر نهایی، به ازای ورودی های معلوم برای مفاصل است. به دلیل نبود یک فرم بسته راه حل ریاضی و نیز به دست آوردن راه حل های سریع و کارآمد برای سینماتیک مستقیم ربات های موازی، استراتژی ها و روش های گوناگونی تا کنون معرفی شده است. در این بین استفاده از شبکه عصبی با توجه به پردازش موازی و قابلیت تصحیح یکی از روش های اصلی حل این مسئله است. با این حال، به دلیل عدم توانایی محاسبات قدرتمند، به دست آوردن حل بلادرنگ ربات دشوار است. لذا در این پایان نامه به ارائه روشی موثر برای حل مسئله سینماتیک مستقیم ربات موازی پرداخته شده است. در این پایان نامه ابتدا ساختار و متغیرهای حرکت ربات مورد توجه قرار گرفته است و به منظور افزایش دقت و سرعت، روشی ترکیبی از شبکه عصبی و تکنیک های مبتنی بر یادگیری ماشین پیشنهاد شده است. ابتدا سینماتیک معکوس ربات برای دست یابی به مقادیر مفاصل فعال بدست می آید. سپس نقاطی که در فضای کاری ربات صدق می کنند، به عنوان ورودی و هدف الگوریتم مورد استفاده قرار می گیرد. به منظور افزایش دقت، فضای کاری ربات به تعدادی زیر فضا تقسیم شده که توسط کلاسبند مبتنی بر ECOC زیر فضای قرار گرفته تخمین زده می شود و سپس برای هر زیر فضا با استفاده از شبکه عصبی تکاملی تخمین دقیقی از موقعیت به دست آمده است. روش پیشنهادی بر روی دو ربات سه درجه آزادی صفحه ای و چهار درجه آزادی فضایی پیاده سازی شده است. در نهایت برای بررسی کارایی روش پیشنهادی، شبیه سازی مسیر حرکت صورت گرفته و عملکرد روش با روش های مرسوم دیگر مقایسه شده است. نتایج حاصل از پیاده سازی نشان می دهد که روش
طبقه بندی و استخراج روابط پشتیبان اجزا در تصاویر RGB-D از صحنه های داخلی
1397
یک ربات در تعامل با محیط علاوه بر درک بصری، به درک فیزیکی از محیط نیز نیازمند است. با گسترش کاربردهای رباتیکی نیاز به درک صحنه بهتر افزایش یافته است. رابطه پشتیبانی یک تعامل فیزیکی بین اجسام است که آگاهی از آن در جابه جایی ها ضروری است. در این پژوهش یک روش برای طبقه بندی اجزا بر اساس چارچوبی پشته ای از طبقه بندها و ویژگی-های ساختار پیشنهاد شد. سپس روابط پشتیبان بین اجزا برای قطعه بندی بهبود یافته براساس نتایج این طبقه بند استخراج شد. در این روش به منظور کاهش هزینه های محاسباتی از تجمیع پیکسل ها در سوپرپیکسل ها و انجام محاسبات بر روی این واحد ها به جای محاسبات پیکسلی استفاده شد. روش پیشنهادی برای محیط های داخلی که اغلب شامل صحنه های شلوغ و پرچالش هستند، طراحی شده است. مدل پیشنهادی با استفاده از مجموعه داده NYU-v2 آموزش و ارزیابی شد. ارزیابی نتایج نشان داد که روش پیشنهادی با وجود سادگی و کاهش هزینه های محاسباتی در طبقه بندی اشیا صحنه عملکرد بسیار خوبی داشته و نتایج استنتاج روابط پشتیبان را به طور قابل ملاحظه ای بهبود داده است. این بهبود همچنین ناشی از بهبود و یکپارچه سازی زمین و ساختار است. در این پژوهش نشان داده شد که با ارائه روشی مبتنی بر ویژگی های ساختار می توان ساختار ساختمانی صحنه های داخلی را با موفقیت از سایر اجزا صحنه، حتی در صحنه های شلوغ تفکیک کرد و در نتیجه آن استنتاج روابط پشتیبان را به طور چشمگیری بهبود داد.
ارائه یک روش ترکیبی و نیمه نظارتی مبتنی بر گراف برای برچسب زنی خودکار تصاویر
1396
با رشد سریع تعداد تصاویر تولیدشده در صفحات وب و شبکه های اجتماعی سازمان دهی و بازیابی تصاویر به روشی موثر و کارا به وسیله موتورهای جستجو یکی از حوزه های پژوهشی فعال می باشد. موتورهای جستجو در بازیابی داده های متنی دقت و سرعت مناسبی دارند و این امر باعث شده است تا پژوهشگران جهت بازیابی تصاویر، ابتدا مجموعه دادگان حاوی تصاویر را با اطلاعات متنی برچسب زنی کنند و سپس بازیابی را در حوزه متن انجام دهند. برچسب زنی تصاویر می تواند به صورت دستی یا خودکار انجام گیرد. درروش دستی، برچسب زنی تصاویر توسط افراد خبره انجام می پذیرد. به دلیل رشد سریع تعداد تصاویر تولیدشده در صفحات وب و شبکه های اجتماعی، استفاده از این روش بسیار وقت گیر، خسته کننده و پرهزینه و عملاً غیرقابل استفاده می باشد، ازاین رو روش های برچسب زنی خودکار تصاویر معرفی شدند. در سامانه های بازیابی تصویر، برچسب زنی خودکار تصویر به عنوان یک مرحله اولیه و پیش پردازشی در سیستم در نظر گرفته می شود. یادگیری نیمه نظارتی نوعی از روش های یادگیری ماشین است که از داده های برچسب دار و بدون برچسب استفاده می کند. روش های یادگیری معمول به دودسته یادگیری با نظارت و بدون نظارت تقسیم می شود. در روش های یادگیری بدون نظارت همه داده های آموزشی بدون برچسب بوده اند و در یادگیری با نظارت همه داده های آموزشی دارای برچسب هستند. هدف از یادگیری نیمه نظارتی این است که به این پرسش پاسخ داده شود که چگونه می توان با ترکیب داده های برچسب دار و بدون برچسب رفتار یادگیری را تغییر داد و الگوریتم هایی را طراحی کرد که از فواید این ترکیب ها استفاده کنند. یادگیری نیمه نظارتی در یادگیری ماشین و داده کاوی بسیار موردعلاقه است زیرا به آسانی می توان با داده های بدون برچسب در دسترس کارایی یادگیری بانظارت را با توجه به عدم دسترسی و گران بودن داده های با برچسب بالا برد. توجه به روشهای یادگیری نیمه نظارتی مبتنی بر گراف در سالهای اخیر رشد چشمگیری یافته است. دلیل این امر را می توان ارائه ساختار شباهت و تفاوت برای تصاویر بر اساس گراف دانست که در آن خواصی نظیر همسایگی راس ها، فاصله و مسیرهای بین راس ها و همچنین توازن و تراکم راس ها در نواحی گراف با مفاهیم طبیعی قابل درک برای انسان قرابت زیادی دارد.پژوهش حاضر در مورد برچسب زنی تصاویر با استفاده از روش های یادگیری نیمه نظ
شناسایی کنش و تعامل انسان-انسان در تصاویر RGB-D با بکارگیری تکنیک های یادگیری ماشین
1396
شناسایی کنش انسان یکی از موضوعات پر کاربرد و جدید در حوزه یادگیری و بینایی ماشین است که با چالش های فراوانی مواجه است. روش های زیادی برای شناسایی کنش انسان وجود که در بین آن ها روش های مبتنی بر یادگیری عمیق کارآیی مناسب تری دارند. در بین انواع داده ای مختلف، دنباله اسکلتی که از روی داده عمق استخراج می شود و شامل مجموعه کوچکی از موقعیت مفاصل بدن انسان است به نحو موثری می تواند نشان دهنده نوع کنش باشد و در عین حال نسبت به پس زمینه، تغییرات روشنایی محیط و تغییرات زاویه دید مستقل خواهد بود. به دلیل ماهیت سری زمانی دنباله اسکلتی، شناسایی کنش مبتنی بر دنباله اسکلتی اغلب بر مبنای شبکه های عصبی بازگشتی و شبکه های LSTM خواهد بود. شبکه های عصبی کانولوشن برای شناسایی کنش مبتنی بر داده های ویدئویی با مسئله ضعف مدل کردن وابستگی های زمانی بلند مدت موجود در کل دنباله ویدئویی مواجه هستند. با در نظر گرفتن نوع نمایشی که به جای استخراج مستقیم اطلاعات زمانی بلند مدت در دنباله اسکلتی، دنباله را به شکل تصاویر رنگی کد کند، استفاده از شبکه های کانولوشن برای شناسایی کنش امکان پذیر خواهد بود. روش پیشنهادی دو نوع ویژگی مکانی را بر مبنای فاصله اقلیدسی و فاصله برداری موقعیت مفاصل همچنین motion بین موقعیت دو مفصل در دو فریم با اختلاف 8 گام زمانی محاسبه کرده و در یک تصویر رنگی کد می کند. این نوع کد کردن، استفاده از شبکه های عصبی کانولوشن را برای شناسایی کنش امکان پذیر می کند. در این روش ابتدا ویژگی هایی از دنباله اسکلتی نظیر کنش استخراج شده، سپس هر دسته ویژگی به عنوان ورودی به یک شبکه عصبی کانولوشن ارسال می شود. شبکه با استفاده از ورودی های جدید وزن های موجود در مدل از پیش آموزش دیده را تنظیم دقیق می کند و در نهایت در زمان تست خروجی شبکه های مختلف با یکدیگر ترکیب می شوند. روش پیشنهادی بر روی پایگاه داده NTU RGB+D آزمایش شده است و صحت 84.9% برای پروتکل ارزیابی cross-view و صحت 78.9% برای ارزیابی cross-subject به دست آمده است.
تشخیص و تخمین موقعیت مفاصل از دست رفته در داده های اسکلتی سنسور کینکت و بررسی ناهنجاری های اسکلتی عضﻼنی
1396
امروزه مﺤیﻂهای هوشمند و سیستمهای کنترلی ﺑا توجه ﺑه پتانسیل خود در ﺑهبود کیفیت زندﮔی انسان یکی از مﺤبوبترین حوزههای درنتیجه ، تﺤﻘیﻘاتی ﺑشمار میآیند. ﺑرنامههای کارﺑردی مانند تﺤلیل رفتار انسانی و نظارت ارﮔونومی در مﺤیﻂ کار ﺑهصورت خودکار درآمدهاند ﺑهبود رفاه افراد ﺑا حداقل هزینه در حال اجرا میﺑاشد .مسئلهی اصلی مﺤیﻂهای هوشمند درک فعالیتی است که کارﺑر انجام میدهد تا ﺑتوانند پشتیبانی مناسبی را ارائه دهند. یکی از اﺑزارهایی که در این زمینه از تﺤﻘیﻘات ﺑسیار موردتوجه قرارﮔرفته است حسگر کینکت میﺑاشد .عﻼقهمندی ﺑه حسگر کینکت ﺑه دلیل قیمت پایین و طیف ﮔستردهای از کارﺑردهایی که ﺑه همراه دارند در حال افزایش میﺑاشد. این اﺑزارها ﺑا ﺑهرهﮔیری از دادﮔان اسکلتی و ﺑدون استفاده از نشانگرها وضعیت قرارﮔیری ﺑدن انسان را ﺑرآورد میکنند. مطالعات اخیر نشان داده است که مسدود شدن نواحی مختلف ﺑدن انسان ﺑا دیگر اشیا و یا حرکت سریع مﻘاﺑل کینکت منجر ﺑه ﺑرآورد ناصﺤیﺤی از موقعیت مفاصل میشود که نتیجهی آن آنالیز غیردقیق و هشدارهای نادرست در سیستمهای نظارتی ﺑهره ﮔیرنده از اطﻼعات کینکت میﺑاشد. در این پژوهش دو ﮔام اساسی ﺑرای حل چالش موجود در نظر ﮔرفتهشده است. در ﮔام اول راهکاری ﺑر مبنای مدلهای اندازهﮔیری جهت تعیین درجهی اعتبار مفاصل استخراجشده از کینکت ارائه شده است که ﺑهعنوان ویژﮔی اثرﮔذار ﺑه همراه موقعیت مفاصل در کﻼس ﺑند ﺑیشینه-حاشیه در نظر ﮔرفته میشود. در ﮔام دوم ﺑر اساس میزان اعتبار هریک از مفاصل تصمیمﮔیری میشود و مفاصل ازدسترفته) ﺑا اعتبار کم ( تشخیص داده میشوند سپﺲ ﺑا استفاده از الگوریتمهای اعتبارﺑخشی مفاصل صورت میﮔیرد. نتایج حاصل از ﺑررسیهای انجامشده نشان میدهند ، ﺑخشﺑندی ﺑدن انسان مبتنی ﺑر شبکه یادﮔیری عمیق انتخاب ویژﮔیهای مناسب در ﮔام اول جهت مﻘایسه فریمهای متوالی نسبت ﺑه روش موجود ﺑهبود قاﺑلتوجهی در دقت کﻼس ﺑند دارد، همچنین ﮔام دوم نیز ﺑا اعمال اعتبارﺑخشی ﺑه دادﮔان تاثیر ﺑسزایی ﺑر دقت متدهایی دارد که از دادﮔان اسکلتی حسگر کینکت ﺑهعنوان ویژﮔیهای ورودی ﺑه سیستم ﺑهره میﺑرند.
تشخیص حالات و ریز حالات چهره با استفاده از تصاویر و ویدیوهای RGB-D
1396
چهره انسان بیان کننده احساسات درونی، تفکرات و تا حدودی کسالت های جسمی او است. این احساسات از طریق عضلات صورت به صورت بصری نمود پیدا می کند. تحقیقات نشان داده است که حالات صورت بهترین وسیله برای انتقال احساسات می باشند. حالات و ریز حالات چهره ی افراد می تواند در تصاویر و فریم های ویدیویی دیجیتال موردبررسی قرار گیرند. مدت زمان تخمینی رخ دادن یک حالت در چهره بین 0.5 تا 4 ثانیه و یک ریز حالت بین 0.1 تا 0.5 ثانیه است. همچنین در بعضی مراجع این مقدار 3/1، 15/1 و 25/1 ثانیه هم بیان شده است. بدیهی است برای ثبت ریز حالت ها، دریافت فریم های ویدیویی بین 30 تا 200 فریم در ثانیه ضروری است. قبل از پیدایش حس گرهای عمق سنج، این عمل توسط تصاویر فقط بافت انجام می گرفت؛ اما بعد از پیدایش حس گرهای عمق سنج(Depth Sensor)، دقت تشخیص حالات چهره به دلیل داده های بیشتر که همان بعد عمق است، به شکل چشم گیری بالا رفت. این مسئله یک دهه است که به خوبی در این زمینه ملموس است. تشخیص حالت چهره در تعامل انسان و ربات، پویانمایی دوبعدی و سه بعدی، روانشناسی، ارتباطات غیرکلامی یا زبان بدن، تشخیص حس درونی، مسائل امنیتی مانند دروغ سنجی و ... کاربرد دارد. ویژگی های مورداستفاده در این پژوهش شامل هیستوگرام جهت گرادیان(HOG)، فیلتر گابور(Gabor Filter)، ویژگی های توانمند سرعت یافته(SURF)، رقمی ساز فاز محلی(LPQ) الگوهای دودویی محلی (LBP) و ویژگی هار(Haar) هستند. همچنین به علت کمبود پایگاه داده تشخیص حالات چهره به قالب بافتی عمقی) RGB-D (و همچنین نقصان های پایگاه داده های موجود، پایگاه داده ای شامل 40 نفر مدل و یا Subject در سنین و جنسیت مختلف توسط حس گر کینکت نسخه ی 2 ) Kinect V.2 (جمع آوری شده که مشکلات پایگاه داده های موجود با خصوصیات مشابه را تا حد قابل قبولی برطرف کرده است. از طرفی می توان گفت این پایگاه داده اولین پایگاه داده عمق برای تشخیص ریز حالات چهره است. لازم به ذکر است که این پایگاه داده، بانام پایگاه داده کینکت چهره ایرانیان و به لاتین Iranian Kinect Face Databse (IKFDB) نام گذاری گردیده است. با توجه به اینکه داده دریافتی از کینکت به دو بخش بافت (RGB) و عمق(Depth) تقسیم می شود، یک روش استخراج ویژگی ترکیبی هم برای داده های عمق بر اساس تغییرات فاصله پیکسلی با حس گر عمق در نظر گرفته شده است. بخشی هم تحت
شناسایی کنش های انسان و درک روابط آن ها با استفاده از تکنیک های یادگیری ماشین در تصاویر RGB-D
1396
شناسایی فعالیت انسان یکی از موضوعات مهم زمینه تحقیقاتی بینایی ماشین است. شناسایی فعالیت های روزمره انسان در هوشمندسازی محیط زندگی کاربرد دارد. فعالیت روزمره انسان از چند کنش تشکیل می شود که مرز انجام کنش ها در افراد باهم متفاوت است اما روابط و ترتیبی بین آن ها وجود دارد که در شناسایی کنش در فعالیت موثر است. از طرفی وجود دوربین های کینکت و تصاویر RGB-D به دلیل داده های مفصل انسان، تصاویر عمق و رنگی با وضوح بالا شناسایی کنش را بهبود داده است. در این پژوهش با بکار گیری ترتیب کنش در فعالیت در مدل یادگیر نظارتی ضعیف و نیمه نظارتی و استخراج ویژگی داده های RGB-D به شناسایی کنش و روابط آن پرداخته شده است. برای داشتن سیستم پایدار نیاز به یک استخراج ویژگی متمایزکننده است. در این پژوهش ویژگی حالت، حرکت، اطلاعاتی تصویر و اشیا با استفاده از داده مفصل و تصویر عمق و رنگی استخراج شده است که نسبت به چرخش و نمای بدن انسان و مکان دوربین ثابت است. در مدل یادگیری ارائه شده از رگرسیون خط الراس استفاده شده است. رگرسیون خط الراس شباهت ریاضی به بهینه سازی درجه دوم و محدب دارد. به همین دلیل با داشتن یک بهینه سازی محدب و حاشیه به عنوان محدودیت از الگوریتم فرانک-ولف که یک الگوریتم بهینه سازی محدب با محدودیت می باشد استفاده شده است. جهت افزایش کارایی سیستم الگوریتم فرانک-ولف زوجی که یک مدل آماری توسعه یافته الگوریتم فرانک-ولف است بکار گرفته شده است. الگوریتم فرانک-ولف زوجی محدودیت های در طول یادگیری را ذخیره می کند و با گام مناسب نسبت به بهترین محدودیت ها بهینه ترین راه حل مسئله شناسایی کنش های متوالی را پیدا می کند. ارزیابی این روش پیشنهادی روی پایگاه داده watch-n-patch انجام و تحلیل شده است و با استفاده از روش نوین الگوریتم فرانک-ولف زوجی با محدودیت ترتیب کنش نتایج قابل قبولی رو این پایگاه داده و سایر روش های پیشنهادی این پایگاه داده داشته است. این پژوهش به شناسایی کنش های متوالی در فعالیت انسان با محدودیت روابط ترتیبی کنش انسان پرداخت در نتیجه هزینه زمانی برای جمع آوری برچسب دقیق هر تصویر در ویدیو در این سیستم پیشنهادی وجود ندارد و این هزینه زمانی تنها با استخراج ترتیب کنش انسان در ویدیو به عنوان حاشیه یک مدل نظارتی ضعیف کاهش یافت و با استخراج ویژگی متمایزکننده و ثابت نسبت به نمای بدن انسان
اراﺋﻪی روﺷﯽﺑﺮای اﺳﺘﺨﺮاج ﺑﺪن اﻧﺴﺎن درﺗﺼﺎوﯾﺮ وﯾﺪﯾﻮﯾﯽﺑﺎ اﺳﺘﻔﺎده از ﺗﺮﮐﯿﺐ روشﻫﺎی ﻫﻮﺷﻤﻨﺪ
1395
انسان یک شئ مهم در تشخیص اشیاء محسوب می شود. تشخیص انسان و تفکیک آن از سایر اشیاء کاری مهم و چالش برانگیز است. با توجه به این مسئله طراحی یک سیستم برای تشخیص انسان گامی مهم و ضروری در زمینه بینایی ماشین و تشخیص الگو به شمار می رود. به همین منظور در این پژوهش، سیستمی برای تشخیص انسان های موجود در تصویر و مرز بدن آن ها با هدف بهبود دقت و سرعت پیشنهاد شده است. در این روش ابتدا به تشخیص مستطیل محاط شامل انسان سپس به محاسبه مرز بدن پرداخته ایم. در مرحله اول با استفاده از ویژگی هیستوگرام جهت گرادیان و الگوی محلی دودویی پنجره های کاندید توصیف شده و با استفاده از الگوریتم یادگیری ماشین بردار پشتیبان پنجره های شامل انسان استخراج می شود. در نهایت برای پنجره ها با نمرهSVM مبهم یک پس پردازش انجام می گیرد. در این مرحله برای انتخاب پنجره های کاندید از الگوریتم تکامل تفاضلی استفاده شده است. در مرحله دوم با استفاده از روش قطعه بندی chan-vese شکل شبح انسان استخراج شده و استفاده از عملگرهای مورفولوژی باعث کاهش نویزهای موجود شده است. ارزیابی نتایج این الگوریتم با استفاده از تصاویر مجموعه داده INRIA انجام شده است. در نهایت روش پیشنهادی با دو معیار Recall و Precision با روش های موجود مورد مقایسه قرار گرفته است استخراج شکل شبح انسان در این پژوهش بر خلاف سایر روش ها در تصویر و با رویکردی جدید انجام گرفته است. نتایج تجربی نشان دهنده آن است که الگوریتم پیشنهادی با سرعتی بالاتر نسبت به سایر روش ها با روشی نو به استخراج شکل شبح انسان از تصویر می پردازد.
تشخیص خودکار رفتار انسان در تصاویر ویدیویی با استفاده از روش های کلاس بندی
1395
تشخیص و بازشناسی رفتار،به عنوان راهی کارآمد جهت شناسایی خودکار رفتار انسانی، در بسیاری از زمینه های مهم و کاربردی مانند پزشکی،جامعه شناسی و یا امنیتی مورداستفاده و توجه بسیاری از جوامع قرارگرفته است. با قدرت بخشیدن به حسگرها و یادگیری ماشین،می توان عملکرد تشخیص سامانه های مرتبط با بازشناسی رفتار را تقویت کرد.در چند سال گذشته،بسیاری از روش ها،برای بازشناسی رفتار و حل مشکلات پیاده سازی آن پیشنهادشده است که نتایج موثر و چشمگیری هم به همراه داشته است، اما به دلیل وجود زوایای محدود، تغییرات نور و حرکت های مکرر دوربین، این مسئله را به یکی از مسائل پیچیده تبدیل کرده است. باوجود تعدد حالت های بسیار زیاد برای شناسایی رفتار انسانی و وجود مرز باریکی بین رفتار عادی و رفتارهای مخرب یا غیرعادی، نمی توان ادعای طراحی سامانه های خبرۀ کامل و بدون خطا را مطرح نمود و درصدد شناسایی دقیق رفتارهای انسانی بود؛ اما می توان با بهینه سازی و طبقه بندی بهتر،این خطا را کمتر کرد.در این رساله به طور خاص،تشخیص و بازشناسی رفتار انسانی را با استفاده از پردازش تصویر و روش های طبقه بندی هوشمند بررسی خواهیم نمود و به دنبال بهبود عملکرد از طریق به کارگیری روشی جدید مبتنی بر روش CLLC و استفاده از شبکه های عصبی مصنوعی هستیم. برای طبقه بندی نیز از شبکه عصبی موجکی استفاده گردید که این شبکه موفق به رسیدن به صحت بالا در طبقه بندی شد.
ارائه ی روشی برای شناخت حرکت دست به منظور تعامل پزشک با سیستم پیمایش تصاویر MRI در اتاق عمل با استفاده از حسگر کینکت
1395
بازشناسی حرکت می تواند به عنوان آغاز راهی برای تعامل انسان و ماشین باشد. اگر ماشین ها بتوانند حرکات روزانه مردم را به صورت خودکار تفسیر کنند، انقلابی در حوزه بینایی ماشین به وجود می آید. بازشناسی حرکت کاربردهای بسیاری در زمینه های مختلف مانند بازی های ویدئویی، توانبخشی حرکتی سالمندان، استفاده در اتاق عمل به عنوان ابزار کمکی پزشک برای مشاهده تصاویر دارد. استفاده از دوربین های RGB نیاز به الگوریتم های پیچیده برای بازشناسی حرکت دست دارد. با ارائه حسگر کینکت توسط مایکروسافت، انقلابی در بازشناسی حرکت و صنعت بازی های تعاملی رخ داد. هدف از این پژوهش استفاده از حسگر کینکت برای بازشناسی حرکت دست پزشک در اتاق عمل است. در جراحی های مغز، پزشک نیاز دارد که تصاویر مختلف بیمار را مشاهده کند. شیوه مرسوم برای این کار استفاده از نگاتوسکوپ است که مشکلاتی مانند عدم بزرگ-نمایی، تغییر کنتراست و شدت روشنایی دارد. در این پژوهش با استفاده از کینکت XBOX One، دو روش به منظور بازشناسی حرکت دست ارائه شده است. در روش اول، ویژگی های سینماتیکی حرکت با استفاده از داده های کینکت استخراج می شود و از طبقه بندهای مختلف برای طبقه بندی حرکات استفاده می شود. با توجه به این که دقت این روش به ویژگی های استخراج شده، نوع طبقه بند و تعداد نمونه های آموزشی و آزمایشی بستگی دارد، روش دوم که مبتنی بر قوانین طراحی شده برای بازشناسی حرکت عمل می کند ارائه شده است. معیارهای دقت و یادآوری به همراه ماتریس درهم ریختگی برای ارزیابی روش-های پیشنهادی به کار رفته اند. نتایج آزمایشات و مقایسه آن با کارهای پیشین انجام شده در زمینه بازشناسی حرکت دست در اتاق عمل، حاکی از کارایی بالای روش های پیشنهادی هستند. همچنین نرم افزار بازشناسی حرکت دست در اتاق عمل بیمارستان های عرفان و سینا تهران حین عمل جراحی در 6 نوبت توسط 8 پزشک مورد ارزیابی قرار گرفت و نتایج نشان-دهنده میزان رضایت پزشکان از این نرم افزار است
ارائه ی روشی ترکیبی برای قطعه بندی تومور مغزی در تصاویر تشدید مغناطیسی(MRI) واقعی
1394
تومورها توده هایی از سلول ها هستند که در آن ها تقسیم سلولی به صورت فزاینده و غیر قابل کنترل انجام می شود. با توجه به شایع بودن بیماری تومور مغزی و مرگ و میر ناشی از آن، راه اندازی یک سیستم خودکار برای قطعه بندی تومور، گامی مهم و ضروری درزمینه ی پزشکی و درمان به شمار می رود. به همین منظور در روش ارائه شده در این پژوهش، قطعه بندی تومور با هدف بهبود دقت در دو بخش اصلی، قطعه بندی سراسری و قطعه بندی محلی انجام می شود. هدف از انجام بخش قطعه بندی سراسری، یافتن تقریبی ناحیه ی موردنظر است که از روش FCM برای انجام آن استفاده می شود. در بخش قطعه بندی محلی ابتدا استخراج ویژگی با استفاده از روش های گابور، هیستوگرام گرادیان های جهت دار، الگوی محلی دودویی، اعمال عناصر ساختاری و همچنین ویژگی های شدت روشنایی انجام می گیرد. برای کاهش ابعاد بردار ویژگی و نیز کاهش پیچیدگی زمانی از روش PCA برای کاهش ابعاد بهره گرفته می شود. در ادامه دسته بندی با دسته بندهای جنگل های تصادفی، ماشین بردار پشتیبان با تابع کرنل RBF و k-نزدیکترین همسایه صورت گرفته و با رویکرد ترکیب دمپستر-شفر ترکیب شده و بدین ترتیب دسته بندی و درنتیجه قطعه بندی انجام شده و در پایان با استفاده از یک فیلتر اکثریت گام پس پردازش انجام می شود. نتایج آزمایشات و مقایسه آن ها با کارهای پیشین انجام شده در زمینه قطعه بندی تصاویر تومور مغزی حاکی از کارایی قابل قبول روش پیشنهادی هستند.
ارائه روشی وفقی به منظور بهبود کنتراست تصویر با استفاده از تکنیک های پردازش تصویر
1394
امروزه کاربرد های پردازش تصویر در حوزه های مختلف بر کسی پوشیده نیست، از این رو وجود یک پیش پردازش به منظور بهبود کیفیت تصویر، برای هر چه بهتر کردن کارایی سیستم پردازش تصویر ضروری به نظر می رسد. یکی از معیارهای تعیین کننده کیفیت یک عکس، کنتراست است. کنتراست تنها عامل تعیین کننده کیفیت تصویر نیست، اما بدون شک یکی از مهم ترین عوامل آن به شمار می رود. بهبود کنتراست تصویر پردازشی است که در آن، یک تصویر با استفاده از گسترش بازه سطوح خاکستری و تغییر در هیستوگرام آن، تبدیل به تصویری باکیفیت بالاتر و مناسب برای یک کاربرد خواهد شد. تعدیل هیستوگرام یکی از شناخته شده ترین و موثرترین تکنیک ها در افزایش کنتراست و بهبود کیفیت تصویر است. اما این تعدیل هیستوگرام سنتی در بعضی از موارد، کنتراست تصویر را بیش ازاندازه افزایش می دهد که باعث تخریب ویژگی ها و از بین رفتن ظاهر طبیعی تصویر می شود. در این پایان نامه دو روش به منظور بهبود محلی کنتراست تصویر ارائه شده است. در بهبود محلی کنتراست تصویر، نحوه بخش بندی هیستوگرام، کلیدی ترین نقش را در کارایی سیستم بهبود ایفا می کند. در روش اول ابتدا هیستوگرام تصویر با استفاده از میانگین و انحراف معیار در یک روال بازگشتی به تعدادی زیر هیستوگرام تقسیم می شود که این تعداد با استفاده از مقدار اختلاف PSNR در دو مرحله متوالی کنترل خواهد شد. سپس تابع انتقال با توجه به زیر بخش ها محاسبه شده و تصویر بهبود پیدا خواهد کرد. در روش دوم، ابتدا هیستوگرام تصویر مورد پردازش قرار گرفته و تعداد خوشه های سطوح روشنایی تصویر تخمین زده خواهد شد. با استفاده از این تعداد، تصویر خوشه بندی شده و هر خوشه با استفاده از تابع انتقال به دست آمده برای آن، بهبود داده خواهد شد. نتایج کمی و کیفی نشان می دهند که با اعمال روش پیشنهادی، علاوه بر افزایش کنتراست و نمایان تر شدن جزئیات، ظاهر طبیعی تصویر نیز به طور موثری حفظ می شود.
بهبود کیفیت بازسازی دقت مضاعف تصاویر ویدئویی با ترکیب اطلاعات غیرتکراری فریم های دقت پایین ویدئویی
1394
با توجه به توسعه سریع و گسترش پردازش تصویر برای ارتباطات بصری و درک صحنه، نیاز به ارائه تصاویری با وضوح بالا برای بهبود بصری و استخراج اطلاعات اضافی در تصاویر پزشکی، سیستم های نظارت ویدئویی و تصاویر هوایی احساس می گردید. بر این اساس، الگوریتم های فراتفکیک برای این بهبود به کارگرفته شده اند، بطوریکه در این الگوریتم ها، علاوه بر بهبود کیفیت تصاویر خروجی، سایز فیزیکی تصاویر نیز افزایش می یابد. الگوریتم ها فراتفکیک ویدیویی مبتنی بر بازسازی، این کیفیت از دست رفته ی ناشی از عیوب دستگا ه های تصویر برداری وعوامل محیطی را، با توجه به ترکیب اطلاعات مفید فریم های همجوار، بازسازی نموده و کیفیت و سایز تصویر خروجی را افزایش می دهد. هدف الگوریتم های فراتفکیک، تهیه نمودن جزئیات کوچکتر از شبکه ی نمونه برداری دستگاه تصویربرداری به وسیله ی افزایش تعداد پیکسل ها در واحد سطح در یک تصویر می باشد. در این پژوهش، روشی برای بهبود کیفیت فراتفکیکی ویدیویی مبتنی بر MAP ارائه گردیده است، بطوریکه برای جبران حرکت از یک روش شار نوری جدید استفاده شده و برای جلوگیری از تاثیرات نویز و خطای ناشی از جبران حرکت در فرآیند بازسازی، از سیستم وزن دهی و دسته بندی پیکسل ها استفاده گردیده است. همچنین برای همگرایی بهتر و جلوگیری از افتادن الگوریتم در کمینه های محلی و همچنین بهبود کیفیت نواحی که در آن پیکسل ها دچار انسداد گردیده اند، از یک مقدار دهی اولیه مبتنی بر فراتفکیک تک تصویر استفاده شده است و در نهایت یک مرحله پس پردازش، برای کاهش اثرات نامطلوب باقی مانده به آن اعمال می گردد. نتایج آزمایش ها بر روی شش ویدیو با پیچیدگی های حرکتی مختلف و نویز متفاوت، نشان میدهد که روش پیشنهادی در مقایسه با سایر روش ها، از نظر معیار PSNR و SSIM و از لحاظ بصری از کیفیت بهتری برخوردار می باشد.
شناسایی چهره در تصاویر مادون قرمز از فاصله 150 متری
1394
زمانی که فاصله شخص از دوربین زیاد باشد و یا روشنایی و نور محیط در هنگام ثبت تصویر کافی نباشد جزییات چهره در تصویر ثبت شده بخوبی نمایان نیست و نویز بسیار زیاد به تصاویر متحمل می شود، از این رو برای شناسایی چهره در این شرایط، استفاده از روش های زمان بر بازسازی تصویر و الگوریتم های پیچیده مرسوم است، در این پژوهش روشی ساده و کارا برای شناسایی چهره در تصاویر با نویز بالا پیشنهاد خواهد شد که این روش از سه بخش اصلی تشکیل شده است، در بخش اول عمل پیش پردازش که شامل برش و بهبود کنتراست است بر روی تصاویر اعمال می شود. در قسمت بعد تصاویر از دو فیلتر عبور کرده و نویزهای آن کاهش داده می شود. الگوریتم اول برای این منظور DDLD نام دارد که از روش های کاهش نویز محلی بشمار می رود و از ترکیب دو دامنه مکان و فرکانس برای ارائه خروجی خود استفاده می کند. الگوریتم دوم کاهش نویز ANLM نامیده می شود که از اطلاعات تمام پیکسل ها برای از بین بردن نویزها استفاده خواهد کرد و الگوریتمی تطبیقی است. همچنین در پایان از روش 2DPCA برای نگاشت تصاویر و سپس تطبیق آن ها استفاده می شود و درصد شباهت برای این تطبیق توسط روش SSIM تعیین می گردد. سه معیار برای ارزیابی سیستم پیشنهادی به کار رفته است که شامل نرخ شناسایی، نرخ تصدیق و پیچیدگی زمانی می باشد با مقایسه این معیارها درمیابیم که روش پیشنهادی کارایی قابل قبولی نسبت به سایر روش های پیشین دارد.
کنترل موقعیت ربات سری صفحه ای دو درجه آزادی با استفاده از فیدبک تصویری موقعیت ربات
1394
استفاده از کنترل غیر خطی مزیت های زیادی دارد که به عنوان مهمترین آنها می توان به مقاوم بودن اشاره کرد. این ویژگی می تواند ایرادی که سامانه های سرو بینایی مبتنی بر مکان دارند، عدم مقاومت در برابر خطای بدست آمده توسط دوربین و نامعینی های موجود در دینامیک روبات را برطرف کند. از طرفی در روبات های جابجا کننده مبتنی بر سرو بینایی با تغییر شرایط محیطی از جمله تغییر در بار موجود در مجری نهایی معادلات حاکم بر روباتها دچار تغییر می شوند.
ارایه روشی هوشمند برای استخراج تعامل انسان - انسان و تشخیص رویداد مبتنی بر داده های لیزر.
1394
از آنجایی که به مرور ربات ها از محیط آزمایشگاه و کارخانجات خارج و وارد زندگی انسان ها شده اند، تحقیق و پژوهش بر روی ربات هایی که قابلیت تفسیر محیط و ارتباط با انسان ها و کار در محیط های پویا را داشته باشند، از اهمیت برخوردار شده است. روش های متفاوتی برای ارتباط ربات با محیط خارج وجود دارد. در این پژوهش سعی بر آن است که از لیزر دامنه یاب برای دریافت اطلاعات از محیط پویای اطراف استفاده کنیم. لیزرهای دامنه یاب ابزارهایی با سرعت و دقت بالا هستند که از پرتوهای لیزر برای تشخیص فاصله تا یک جسم استفاده می کنند. تشخیص وجود یا عدم وجود تعامل بین انسانها در حوزه های متفاوتی کاربرد دارد، نمونه ای از آن، ربات هایی که هدف از ساخت آنها تعامل با انسانها و حضور در اجتماع و پیمایش مسیر در بین افراد می باشد. در این پژوهش سعی شده تا با استفاده از داده هایی که توسط دو لیزر دامنه یاب بدست آمده اند، تعامل بین انسان ها تشخیص و استخراج شود. برای این منظور ابتدا داده ها، ترازبندی و ادغام شده، سپس با محاسبه مدل پس زمینه و حذف آن و بهره گیری از الگوریتم خوشه بندی طیفی برای خوشه بندی اطلاعات موجود در دسته های فریم ها و یک شبکه عصبی Stacked Auto Encoder، بعنوان طبقه بند، انسان ها را از اشیاء تشخیص داده و با استفاده از ترکیب فیلتر کالمن و روش های رهگیری مبتنی بر ناحیه، افراد تشخیص داده شده را رهگیری و نهایتا با استفاده از اطلاعات حاصل، به تشخیص و استخراج رویداد و تعامل بین انسان ها پرداخته شد. پس از پیاده سازی روش های ذکر شده در نرم افزار MATLAB، کارایی روش های ارایه شده بر روی داده های جمع آوری شده توسط دو لیزر دامنه یاب HOKUYO و SICK، آزمایش و صحت آن ها با داده دهای نشانه گذاری شده توسط خبره ی انسانی راستی آزمایی گردید.
تشخیص صرع از روی سیگنالهای EEG با استفاده از روشهای هوش محاسباتی
1393
تشخیص صرع از روی سیگنالهای EEG با استفاده از روشهای هوش محاسباتی
بهبود تصاویر اندوسکپی و کولونوسکپی به منظور اشکار سازی زخمهای دستگاه گوارش به کمک تکنیکهای پردازش تصویر
1393
بهبود تصاویر اندوسکپی و کولونوسکپی به منظور اشکار سازی زخمهای دستگاه گوارش به کمک تکنیکهای پردازش تصویر
ارائه روشی ترکیبی برای تولید تصاویر پانوراما مبتنی بر الگوریتم های هوشمند
1393
هدف از این رساله، ارائه روشی هوشمند برای ترکیب تصاویر به منظور تولید یک تصویر پانوراما با کیفیت بالا می باشد. در این رساله فرآیند تولید تصاویر پانوراما بصورت خودکار انجام می شود. ورودی این سیستم، مجموعه ای از تصاویر نامرتب و خروجی آن یک تصویر پانوراما با کیفیتی بالا خواهد بود.
قطعه بندی رگ های خونی شبکیه چشم با استفاده از ترکیب روش های هوشمند
1393
بب
ارائه ی روشی برای بازیابی مبتنی بر محتوای تصاویر دستگاه گوارش با ترکیب ویژگی های سطح پایین تصاویر
1393
بازیابی مبتنی بر محتوای تصاویر ابزاری است برای جستجوی تصاویر از یک مجموعه بزرگ بر اساس ویژگی های بصری ای که به طور خودکار از تصاویر استخراج می شوند. با پیشرفت فناوری، تصویربرداری به یکی از اجزاء اصلی حوزه پزشکی تبدیل شده است و پایگاه داده های حجیم، تصاویر پزشکی متنوعی را جمع آوری می کنند. انجام تشخیص با مقایسه تصاویر پزشکی کنونی و گذشته یکی از روش های اصلی در تشخیص پزشکی است. بنابراین بازیابی مبتنی بر محتوای تصاویر می تواند برای تشخیص درست به پزشکان کمک کند و شواهد کمکی مرتبطی را از موارد شناخته شده قبلی فراهم آورد. همچنین می تواند نقش یک مشاور متخصص را برای پزشکان ایفا کند و یا به عنوان یک وسیله آموزشی برای دانشجویان، دستیاران و محققان پزشکی به کار رود. یکی از چالش های مهم در پزشکی، تشخیص دقیق آسیب های دستگاه گوارش از روی تصاویر و انتخاب روش درمانی مناسب است که در این راستا بازیابی مبتنی بر محتوا نقش مهمی می تواند ایفا کند. یک سیستم بازیابی مبتنی بر محتوا معمولاً شامل دو بخش استخراج ویژگی و بازیابی تصویر است. در روش پیشنهادی تمرکز بر روی بخش استخراج ویژگی است. اولین مرحله روش پیشنهادی انجام پیش پردازش روی تصاویر پایگاه داده است. پس از آن پنج ویژگی مختلف از تصاویر استخراج می شوند. اولین ویژگی هیستوگرام رنگ است که با کوانتیزاسیون کانال های تصویر در فضای HSV با استفاده از الگوریتم FCM محاسبه می شود. ویژگی بعدی ممان های رنگ است که چهار ممان مرکزی کانال های تصویر در فضای RGB را محاسبه کرده و به عنوان ویژگی به کار می برد. برای حفظ اطلاعات مکانی، از یک بلوک بندی وزن د ار برای استخراج ویژگی با این دو روش استفاده می شود. ویژگی های دیگری با استفاده از تصاویر لبه به دست می آیند. در این روش پس از استخراج لبه، تصویر به بلوک های مربعی و مستطیلی تقسیم می شود و سه ویژگی تعداد بلوک های بدون لبه، تعداد پیکسل های سازنده لبه در هر بلوک و متوسط تعداد پیکسل های هر تکه لبه در داخل هر بلوک، از تصاویر استخراج می شوند. تجزیه تصاویر و بازسازی آن ها با استفاده از تبدیل موجک مبنای روش دیگری برای استخراج ویژگی است. تصویر تا 10 سطح تجزیه شده و 5 بار به شکلی متفاوت بازسازی می شود و 5 ویژگی آماری از نتیجه هر بازسازی استخراج می گردد. بار دیگر تصویر تا 5 سطح تجزیه شده و ضرایب موجک سطوح 2 تا 5 به عنو
ارائه ی روشی قابل بازگشت برای افزایش ظرفیت نهان سازی تصویر با حفظ کیفیت
1393
نهان سازی داده در تصویر برای حفظ امنیت اطلاعات در اینترنت به یکی از روش های بسیار مهم تبدیل شده است. این روش داده ی محرمانه را در پوشش یک تصویر مخفی می کند. با این شیوه به جای فرستادن فرم رمزنگاری شده ی اطلاعات که توجه هکرها را جلب می کند، تصویر حامل داده ی محرمانه ارسال می شود. این امر موجب می شود که توجه هکرها به وجود داده ی محرمانه جلب نشود. تصویری که برای حمل داده ی محرمانه انتخاب می شود را تصویرپوششی می نامند و بعد از جاسازی داده ی محرمانه در آن، آن را تصویر نهان سازی شده می نامیم. کم بودن کیفیت تصویر حامل داده نسبت به تصویر پوششی مشکل موجود این روشها می-باشد. محققان امروزه تلاش می کنند تا شباهت بین تصویر نهان سازی شده و تصویر پوششی را بالا ببرند در حالی که ظرفیت نهان-سازی را یکسان نگه دارند و یا برعکس. در این پایان نامه، چندین روش قابل بازگشت نهان سازی برای افزایش ظرفیت جاسازی با حفظ کیفیت تصویر ارائه شده است. اولین روش پیشنهادی فرایندی را ایجاد کرده است که به جای جاسازی داده ی محرمانه بصورت بیت های 0 و 1 بتوان آن را بصورت جریانی از بیت های 00،01،10 و 11 جاسازی کرد. البته در این روش بهای افزایش زیاد ظرفیت کاهش کم کیفیت می باشد. در روش پیشنهادی دوم پیش پردازشی بر روی تصویر پیشنهاد شده است که باعث افزایش کیفیت تصویر نهان سازی شده می شود. در این روش هر پیکسل از پیکسل زیرینش کم می شود که باعث می شود هیستوگرام اختلاف ها پیرامون مقدار صفر متمرکزتر باشد و این یعنی افزایش ظرفیت نهان سازی. در روش پیشنهادی سوم مکانیزمی اتخاذ شده است که بتوان داده ی محرمانه را بصورت سه حالت 10،11 و 0 جاسازی کرد در این روش نسبت به روش بهبود داده شده کاهش کیفیت تصویر نخواهیم داشت. آخرین روش که بهترین روش ارائه شده می باشد یک شیوه ی جدید نهان سازی قابل بازگشت. است که نیاز به انتقال هیستوگرام را حذف کرده است. انتقال هیستوگرام قسمتی از اکثر الگوریتم های نهان سازی می باشد که موجب کاهش کیفیت تصویر نهان سازی می شود. در این شیوه با حذف نیاز به انتقال هیستوگرام کیفیت و ظرفیت تصویر نهان-سازی شده بشدت افزایش یافته است.