پروفایل استاد - دانشگاه بوعلی سینا همدان

پروفایل استاد - دانشگاه بوعلی سینا همدان

P.H.D dissertations

تولید سیستم پرسش و پاسخ بصری با استفاده از تجمیع روش های مبتنی بر تصویرکاوی، پایگاه های دانش و یادگیری هوشمند
2020
چکیده : بینایی ماشین علمی برای ساخت سیستم های هوشمندی است که هدف آنها آنالیز، درک و استخراج اطلاعات مفید از داده های بصری است. این داده های بصری می تواند تصاویر ساده، حجمی و توالی های ویدئویی باشد. پردازش زبان طبیعی، توانایی ماشین ها برای خواندن و درک زبان های انسانی است. پرسش و پاسخ بصری یک مسئله تحقیقاتی هوش مصنوعی است که می توان آن را نقطه تقاطع یا ترکیبی از پردازش زبان طبیعی، بینایی ماشین و استنتاج دانش دانست. در این مسئله، به عنوان ورودی یک تصویر داده می شود و سوالی در مورد آن پرسیده می شود، و هدف یافتن پاسخ صحیح به سوال ورودی است. ار آنجا که سوالات متنوعی در مورد تصویر پرسیده می شود، سیستم به درک کاملی از تصویر، و مجموعه گسترده ای از قابلیت-های هوش مصنوعی نیاز دارد، مانند تشخیص شی، تشخیص رویداد و استدلال مبتنی بر دانش. با توجه به عملکرد قابل توجه شبکه های عصبی عمیق و عملگرهای پرکاربرد کلاسیک استخراج ویژگی از تصاویر، روش های پیشین نیز از این روش ها برای حل این مسئله استفاده کرده اند که هریک نقاط ضعف و قوت مخصوص به خود را دارند. همچنین نکته ی دیگر قابل توجه در طراحی سیستم پرسش و پاسخ بصری، حوزه ی هدف برای استفاده از این سیستم می باشد. در حوزه های تخصصی مانند پزشکی که با مسائل حیاتی انسان سروکار دارند، علاوه بر تنوع و گستردگی سوالات، دقت بالای سیستم در پاسخ دهی بسیار مهم است. در این پژوهش، یک معماری جدید برای تولید مدل های پرسش و پاسخ بصری ارائه می دهیم که بیشتر از زبان مبتنی بر آنالیز داده های بصری است. همچنین، هدایت مراحل آنالیز تصویر به طور مستقیم براساس پرسش مطرح شده انجام می شود، تا بتوان در حوزه های تخصصی نیز متناسب با هر سوال مطرح شده مدلسازی را به گونه ای انجام داد که بهترین مدل برای پیش بینی پاسخ آن سوال تولید کند. معماری پیشنهادی که مبتنی بر تکنیک توجه است، دارای دو بخش کلی شامل، استخراج ویژگی از تصاویر مبتنی بر نوع سوال مطرح شده و پیش بینی پاسخ می باشد. در این راستا هفت ماژول پیشنهادی برای پاسخ به سوالات مطرح شده در مورد تصاویر ساده و حجمی، ارائه شده است. در این ماژول ها متناسب با سوال مطرح شده یکی از روش های استخراج ویژگی های عمیق (شامل استفاده از شبکه های عصبی کانولوشنال، موبایل نت و حافظه کوتاه مدت طولانی) یا روش های کلاسیک (شامل عملگرهای معروف کلاس

Master Theses

ارائه چارچوبی جهت طبقه بندی کلان داده با استفاده از شبکه های عصبی ELM
2021
در سالهای اخیر رشد انفجاری داده ها به قدری شدید بوده است که هر دو سال مقدار داده ها تقریبا دو برابر می شود. تحت تاثیر این رشد انفجاری داده های جهانی، عبارت کلان داده جهت توصیف داده های بسیار حجیم، داری سرعت رشد بالا و تنوع زیاد مورد استفاده قرار می گیرد. بنابراین می توان گفت روش ها، الگوریتم ها و چارچوب های کلاسیک یادگیری ماشین برای مدیریت و پردازش این مقدار داده ناتوان می باشند. الگوریتمهای یادگیری ماشین تا زمانی که با کلان داده به چالش کشیده نشوند نوید بهبودی نخواهند داد. طبقه بندی یکی از روشهایی است که در تحلیل داده ها به ما کمک می کند، از جمله تحلیل داده های ساخت یافته، تحلیل داده های متنی، تحلیل داده های وب سایت، تحلیل داده های چندرسانه ای، تحلیل داده های شبکه، تحلیل داده های تلفن همراه. بنابراین می توان گفته مساله طبقه بندی امروزه روی کلان داده بسیار حایز اهمیت می باشد. رسیدن به راهکاری جهت طبقه بندی، در مواردی با حجم داده های بالا چون شبکه های اجتماعی، تراکنش های مالی، تشخیص نفوذ در شبکه، بسیار راه گشا خواهد بود. در این پژوهش سعی بر آن شد تا به روشی دست پیدا کنیم که با استفاده از شبکه عصبی ELM ، با سرعت بالا و منابع کمتر بتوانیم طبقه بندی کلان داده را انجام دهیم. کلان داده به علت حجم بالا به طور کامل در حافظه اصلی بارگذاری نمی شود بنابراین ما روشی ارائه دادیم که با بخش بندی مجموعه داده، و آموزش هر بخش بطور مجزا و در نهایت با استفاده از یک مجمع رده بندها که هدف آن استفاده از خرد جمعی یعنی استفاده از نظر همه رده بندهای آموزش دیده می باشد، با حداقل منابع سخت افزاری و در زمانی مناسب به دقتی قابل قبول برسیم که هم قابلیت موازی سازی داشته باشد و هم با روشهای مبتنی بر معماریهای موازی چون نگاشت کاهش و آپاچی اسپارک قابل رقابت باشد. نتایج روش پیشنهادی روی مجموعه داده MNIST دارای نرخ خطای 5.62 درصد می باشد که تفاوت آن با روش هایی که از معماریهای موازی و توزیع شده مانند آپاچی اسپارک و نگاشت کاهش استفاده می کنند، چندان معنادار نمی باشد.
بررسی وحل چالش تقسیم بندی داده های جریان در داده های حجیم
2020
جریان داده یک توالی نامحدود از داده هایی است که با سرعت و در حجم بالا تولید می شود. با در نظر گرفتن چنین تعریفی، پردازش اطلاعات جریان به عنوان یک موجودیت واحد بسیار دشوار و در برخی جریان ها ناممکن است. بنابراین، روش هایی ایجاد شده اند که بتوانند پردازش چنین داده هایی را امکان پذیر نمایند. یکی از رایج ترین این روش ها، خوشه بندی نام دارد که می تواند اقلام اطلاعاتی مشابه را در تعدادی گروه قرار دهد. EvoStream یکی از الگوریتم های خوشه بندی جریان است که با استفاده از یک الگوریتم تکاملی به صورت تدریجی در زمان های بیکاری جریان، خوشه بندی نهایی را انجام می دهد. این الگوریتم ضمن ایجاد نتایج رقابتی با سایر الگوریتم ها در این حوزه، سربار محاسباتی مرحله آفلاین را به طور موثری کاهش می دهد. تعداد خوشه ها در الگوریتم EvoStream ثابت درنظر گرفته می شود، درحالی که در جریان داده ی واقعی این تعداد در طول زمان متغیر است و به پیچیدگی داده های ورودی بستگی دارد. از طرف دیگر از آنجایی که زمان وقوع بیکاری و طول زمان مذکور از الگوی خاصی تبعیت نمی کند ممکن است برخی گام های تکاملی به پایان نرسند که این امر با توجه به ثابت نبودن تعداد خوشه ها از کیفیت خوشه ها می کاهد. در راستای رفع این مشکلات در این پایان نامه الگوریتم جدیدی ارائه شده است که تعداد خوشه ها را به درستی تشخیص داده و ضمن بهبود کیفیت خوشه ها، اجرای مرحله ی تکاملی را تا چهار برابر تسریع می کند.
فهم سؤال در سیستمهای پرسش و پاسخ با یادگیری عمیق
2020
پاسخ دادن به سؤال، یکی از شاخه های بازیابی اطلاعات و پردازش زبان های طبیعی است. به طورکلی، سیستم پرسش و پاسخ یک برنامه رایانه ای است که می تواند پاسخ ها را از مجموعه اسناد زبان طبیعی استخراج کند. یکی از حوزه های پرسش و پاسخ، درک مطلب ماشین است. درک مطلب ماشین، توانایی خواندن متن توسط ماشین و پاسخ دادن به سؤالات مطرح شده از متن است. به همین منظور سیستم باید همانند انسان قادر به فهم درست کلمات متن و روابط بین آن ها باشد. با توجه به جدید بودن این حوزه، بیشتر روش های ارائه شده مبتنی بر یادگیری عمیق هستند. روش پیشنهادی نیز مبتنی بر یادگیری عمیق است. در ابتدا، داده ها پیش پردازش شده و متن ها و سؤالات آن به کلمه و حروف تجزیه می شوند. سپس کلمات با روش پنهان سازی GloVe و حروف با مقداردهی تصادفی به بردار عددی تبدیل می شوند و پس از کدگذاری با شبکه Bi-GRU به صورت متناظر با کلمات پاراگراف و سؤال الحاق می شوند. با استفاده از شبکه Bi-GRU ماتریس جملات و سؤال کدگذاری شده و به وسیله مکانیسم توجه، توجه متن به سؤال به دست می آید. خروجی مکانیسم توجه توسط شبکه یادگیری افزایشی کدگذاری می شود که این شبکه دارای لایه توجه خود تطبیق است. خروجی شبکه جهت تخمین پاسخ مورداستفاده قرارگرفته و پاسخ پیش بینی شده مورد ارزیابی قرار می گیرد. در این پژوهش از مجموعه داده SQuAD استفاده شده و سعی شده روشی ارائه شود که به همراه افزایش سرعت اجرا، دقت و کارایی قابل قبولی ارائه دهد. نتایج بررسی نشان می دهد که مدل پیشنهادی به رشد مناسبی ازنظر سرعت و دقت نسبت به مدل های پیشین دست یافته است.
شناسایی و دسته بندی ترافیک رمزشده با تاکید بر برنامه های کاربردی پیام رسان
2019
امروزه شناسایی و دستهبندی ترافیک یکی ازملزومات اساسی در مدیریت شبکه است که در طیف متنوعی از کاربردهای شبکهای ازجمله بهبودکیفیت خدمات، اولویت دهی به برخی جریانهای ترافیکی، ارزشگذاری و حسابرسی، تشخیص نفوذ و مسدودسازی جریانهای مخرب مورد استفاده قرار میگیرد. از طرفی، با گسترش روز افزون مخاطرات امنیتی، بسیاری از برنامههای شبکهای، از رمزنگاری جهت تأمین محرمانگی پیامها در بستر اینترنت بهره میبرند. علاوه بر این تعدادی از این نرم افزارها از شماره درگاههای تصادفی استفاده میکنند که شناسایی ترافیک آنها توسط روشهای سنتی مبتنی بر شماره درگاه یا محتوا غیرممکن میگردد. اخیرا روشهای یادگیری ماشین برای شناسایی این نوع ترافیک مورد استقبال پژوهشگران قرار گرفته است. روشهای یادگیری ماشین برای شناسایی نرمافزارهای شبکه، بر اساس اطلاعات آماری در هر جریان عمل میکنند. این اطلاعات آماری از ویژگیهای مستقل از محتوا همانند اندازه بسته، فاصله زمانی بین ورود بستهها و غیره نشأت میگیرند. دراین پژوهش، جریانهای برنامههای کاربردی پیامرسان Messenger Facebook،Hangouts وSkype تحت ترافیک هدف با استفاده از پنج الگوریتم یادگیری ماشین، موردشناسایی و دستهبندی قرار میگیرند. ابتدا به ارزیابی نتایج، با استفاده از همه ویژگیها پرداخته و در ادامه الگوریتمهای یادگیری ماشین موردنظر با مجموعههای ویژگی بدست آمده از سه تکنیک انتخاب ویژگی، مورد آزمایش و ارزیابی قرار گرفته است. نتایج بدست آمده توسط هر روش از نقطه نظر معیارهای ارزیابی مختلف از جمله دقت، فراخوانی و measure_f گزارش میشود. نتایج حاکی ازآن است که میتوان به کمک روشهای یادگیری ماشین، جریانهای ترافیکی رمز شده را با دقت قابل قبولی دستهبندی نمود و انتخاب ویژگیهای موثر میتواند به شناسایی بهتر جریانهای ترافیکی رمزشده کمک نماید.
تولید ویدیو از تصاویر با استفاده از شبکه مولد رقابتی
2019
پاسخ دادن به سؤال، یکی از شاخه های بازیابی اطلاعات و پردازش زبان های طبیعی است. به طورکلی، سیستم پرسش و پاسخ یک برنامه رایانه ای است که می تواند پاسخ ها را از مجموعه اسناد زبان طبیعی استخراج کند. یکی از حوزه های پرسش و پاسخ، درک مطلب ماشین است. درک مطلب ماشین، توانایی خواندن متن توسط ماشین و پاسخ دادن به سؤالات مطرح شده از متن است. به همین منظور سیستم باید همانند انسان قادر به فهم درست کلمات متن و روابط بین آن ها باشد. با توجه به جدید بودن این حوزه، بیشتر روش های ارائه شده مبتنی بر یادگیری عمیق هستند. روش پیشنهادی نیز مبتنی بر یادگیری عمیق است. در ابتدا، داده ها پیش پردازش شده و متن ها و سؤالات آن به کلمه و حروف تجزیه می شوند. سپس کلمات با روش پنهان سازی GloVe و حروف با مقداردهی تصادفی به بردار عددی تبدیل می شوند و پس از کدگذاری با شبکه Bi-GRU به صورت متناظر با کلمات پاراگراف و سؤال الحاق می شوند. با استفاده از شبکه Bi-GRU ماتریس جملات و سؤال کدگذاری شده و به وسیله مکانیسم توجه، توجه متن به سؤال به دست می آید. خروجی مکانیسم توجه توسط شبکه یادگیری افزایشی کدگذاری می شود که این شبکه دارای لایه توجه خود تطبیق است. خروجی شبکه جهت تخمین پاسخ مورداستفاده قرارگرفته و پاسخ پیش بینی شده مورد ارزیابی قرار می گیرد. در این پژوهش از مجموعه داده SQuAD استفاده شده و سعی شده روشی ارائه شود که به همراه افزایش سرعت اجرا، دقت و کارایی قابل قبولی ارائه دهد. نتایج بررسی نشان می دهد که مدل پیشنهادی به رشد مناسبی ازنظر سرعت و دقت نسبت به مدل های پیشین دست یافته است.
کاوش زمانی موضوع با استفاده از روش FCA
2019
امروزه اطلاعاتی که در سطح وب وجود دارد، بسیار زیاد است و هرروز این اطلاعات در حال افزایش است، پیدا کردن موضوعات و اطلاعات موردنیاز مشکلی هست که سازمان ها با آن روبه رو هستند، دراین بین یکی از مهم ترین داده ها در سطح وب، داده های سایت توییتر محسوب میشود و علت آن به روز بودن و فراگیر بودن آن است. درنتیجه نیاز به روش هایی که این داده ها را به اطلاعات مفیدتری تبدیل کنند رو به افزایش است. البته این داده ها به علت کوتاه بودن ابعاد برخلاف اسناد معمولی استخراج اطلاعات را با چالش مواجه کرده است. در بین روش های موجود برای کاوش موضوع مدل های موضوعی به خصوص مدل موضوعی دیریکله یکی از محبوب ترین و موفق ترین روش ها محسوب میشود. گرچه این مدل برای اسناد معمول ارائه شده است اما کاوش موضوع با این روش عملکرد مطلوبی ندارد. به همین دلیل اکثر محققان روش های دیگری را برای کاوش موضوع از توییتر ارائه می کنند. درحالی که این روش با محاسبه مقادیر پنهان در داده ها می تواند روابط بین توییت ها را استخراج کند. در این پایان نامه مسئله کاوش زمانی داده های توییتر با ترکیب روش های آماری و منطق ریاضی موردبررسی قرارگرفته اند. در ابتدا داده ها از سایت توییتر جمع آوری شده و سپس برای دقت بهتر اطلاعات وابسته به متن توییت، انتخاب موضوعات را در هر بازه ی زمانی موردتوجه قرار می دهیم. سپس داده هایی که دارای اطلاعات مفید و موردنیاز هستند پالایش می شوند و به عنوان ورودی مدل موضوعی مورداستفاده قرار می گیرند. به منظور افزایش دقت کاوش موضوعات، دیگر روش های کاوش موضوعات برای انتخاب موضوعات برتر مورداستفاده قرار می گردد و سپس برای هر موضوع از روش های مبتنی بر تجزیه وتحلیل مفاهیم رسمی، موضوعات مختلف در هر بازه زمانی به دست می آید. برای ارزیابی کار آیی روش پیشنهادی ابتدا وابستگی بین موضوعات و داده ها بررسی می شوند و سپس نتایج حاصل با دیگر روش های مطرح در مجموعه دادگان مقایسه می گردد. نتایج حاصل از پیاده سازی نشان می دهد که روش پیشنهادی برای کاوش زمانی موضوع به دقت و عملکرد قابل قبولی دست پیداکرده است.
پاسخ به پرسش های مطرح شده از تصاویر به کمک تکنیک های یادگیری عمیق
2019
پاسخ گویی به پرسش های مطرح شده از تصاویر (VQA)، یک مسئله ی تحقیقاتی میان رشته ای در هوش مصنوعی است. این مسئله علاوه بر بینایی ماشین، حوزه های دیگری همانند پردازش زبان های طبیعی و نمایش دانش و استدلال را نیز پوشش می دهد. از آن جا که VQA، محیطی عملیاتی برای سنجش درک عمیق تصاویر به حساب می آید، طی سالیان گذشته با اقبال پژوهشگران حوزه ی هوش مصنوعی مواجه شد است. پژوهش پیش رو، به منظور ارائه ی راهکاری برای حل مسئله ی VQA طرح ریزی شده است. با آن که در چند سال گذشته، تمامی روش های سرآمد VQA از معماری های نسبتاً پیچیده ای استفاده کرده اند، اما پژوهش های اخیر نشان می دهد، مدل های ساده تر نیز به شرط پیاده سازی مناسب می توانند عملکردی در حد مدل های پیچیده ارائه نمایند. بر این اساس، در پژوهش جاری تلاش شده است تا مدلی ساده، سریع و قابل فهم برای حل مسئله ی VQA طراحی گردد که عملکرد قابل قبولی نیز داشته باشد. سنگ بنای روش پیشنهادی، بر پایه ی روش Anderson و همکاران ] [ پی ریزی شده است. مهم ترین مزیت این روش، ارائه ی سازوکاری تحت عنوان مکانیزم توجه پایین به بالا برای استخراج ویژگی های تصویر است. روش انتخاب شده با اتکا بر قابلیت فوق العاده ی خود در تشخیص اشیاء موفق به کسب رتبه نخست چالش VQA 2017 شده است. روش پیشنهادی این پژوهش، بر مبنای شبکه های عصبی عمیق بنا نهاده شده و از رویکرد مرسوم تعبیه سازی توأم ویژگی های تصویر و پرسش بهره می برد. به صورت خلاصه، مدل پیشنهادی از پنج بخش اصلی تشکیل گردیده است:استخراج ویژگی های تصویر، تعبیه سازی پرسش، مکانیزم توجه، ادغام ویژگی ها و در نهایت تولید پاسخ. روش پیشنهادی پس از پیاده سازی به کمک چارچوب یادگیری عمیق Pytorch، بر روی دیتاست VQA v2.0 ] [ آموزش دیده است. در مسایل یادگیری عمیق، بخش مهمی از هر پژوهش به تنظیم پارامتر های شبکه از طریق اعتبارسنجی و آزمایش های تجربی اختصاص می یابد از این رو، در این پژوهش نیز به قصد دستیابی به مدلی بهینه، آزمایش های فراوانی در جهت انتخاب بهترین معماری و بهینه ترین hyperparameterها صورت پذیرفته است. پس از انجام این فرآیند بهینه سازی، درنهایت، مدلی به دست آمده است که با کسب 65.19 درصد از امتیاز های بخش test-dev دیتاست، در حدود 2 درصد نسبت به روش پایه بهبود داشته است. باوجود این افزایش، اما نتایج نهایی مدل پیشنهادی نسبت
برچسب گذاری تصاویر بدون نمونه آموزشی با کمک شبکه های عصبی بازگشتی
2019
امروزه، تصاویر نقش مهمی را در جا به جایی و انتقال اطلاعات و مفاهیم بر عهده دارند. تصویر برداری شخصی و اشتراک تصاویر در رسانه های اجتماعی، صفحات اینترنتی، مباحث علمی همچون هواشناسی و زمین شناسی، مسائل جرم شناسی همچون تشخیص چره و اثر انگشت و .... همگی نمونه هایی از کاربرد تصاویر در عرصه های مختلف هستند. برای استفاده از تصاویر در موارد ذکر شده، نیازمند روش هایی هستیم که به صورت خودکار به بررسی و تحلیل تصاویر بپردازند. برچسب زنی و طبقه بندی تصاویر، از جمله مواردی است که در سال های اخیر، در زمینه پردازش تصاویر بسیار مورد توجه قرار گرفته است. یکی از چالش های موجود در این راستا، محدودیت های مجموعه دادگان تصاویر، در زمینه برچسب گذاری و توصیف تصاویر است. چرا که به صورت روزمره عناوین و مفاهیم و احساسات جدیدی به تصاویر نسبت داده می شود که همگی آن ها در مجموعه داده های مورد استفاده قابل ذخیره سازی نیستند. از این رو ارائه روش های که بتوانند بدون نمونه های آموزشی به برچسب زنی تصاویر بپردازند؛ به یکی از مسائل چالش برانگیز در سال های اخیر تبدیل شده است.
تشخیص نقل به مضمون با استفاده از تکنیک های یادگیری عمیق
2019
چکیده: تشخیص نقل به مضمون یکی از مسائل مهم در حوزه پردازش زبان های طبیعی است. نقل به مضمون به جملات یا عباراتی اشاره می کند که معنی و مفهوم یکسانی را به خواننده منتقل می کنند اما ساختار و کلمات آن ها با هم متفاوت است. این مسئله کاربردهای فراوانی در حوزه پردازش زبان های طبیعی دارد. ازجمله این کاربردها می توان به استفاده آن در خلاصه سازی متن، ترجمه ماشینی، سیستم های پرسش و پاسخ، تشخیص سرقت ادبی و موتور های جستجو اشاره کرد. در این پژوهش، ابتدا مسئله با چندین روش مرسوم مانند وزن دهی TF-IDF و استفاده از طبقه بند هایی همچون ماشین بردار پشتیبان، حل و ارزیابی شده است. سپس با استفاده از نتایج بدست آمده از این روش ها، یک مدل جدید برای تشخیص نقل به مضمون ارائه شده است. مدل پیشنهادی را می توان به دو بخش تقسیم نمود. در بخش اول که مسئله با تکنیک های یادگیری عمیق حل می-شود، جملات پس از عبور از مرحله پیش پردازش، با استفاده از تکنیک پنهان سازی GloVe به بردار هایی عددی تبدیل می-شوند. خروجی این لایه پنهان سازی سپس به یک شبکه Bi-LSTM برای بیان کردن کل جمله داده می شود. پس از اتمام آموزش مدل، خروجی این شبکه به عنوان ویژگی های استخراج شده برای هر جمله در نظر گرفته می شوند. در بخش دوم، یک سری ویژگی دستی برای بیان کردن میزان شباهت معنایی بین دو جمله معرفی می شوند. از میان این ویژگی ها، تعدادی از آن ها جدید بوده و برای اولین بار در این پژوهش معرفی شده اند. مدل پیشنهادی از ترکیب ویژگی های بدست آمده در این دو بخش حاصل می شود. دو مجموعه داده با نام های MSRP و Quora برای ارزیابی مدل پیشنهادی در نظر گرفته شده اند. نتایج مدل برای مجموعه داده MSRP نشان می دهد که این مدل تقریبا از تمام پژوهش های انجام شده، کارایی بهتری از نظر صحت و f-measure را کسب می کند. نتایج ارزیابی مدل برای مجموعه داده Quora نیز کارایی قابل قبول و قابل مقایسه ای با سایر پژوهش های انجام شده روی این مجموعه داده را نشان می دهد. به طوری که مدل پیشنهادی جزء 24 درصد برتر روش ها از میان بیش از 3000 تیم در سایت Kaggle است. نتایج ارزیابی همچنین نشان می دهد که مدل پیشنهادی برای مجموعه داده-هایی با تعداد نمونه های کم، کارایی بهتری در مقایسه با سایر مدل های جدید دارد.
بازیابی تصویر مبتنی بر محتوا با استفاده از مدل کیسه ای از واژگان چند سطحی
2018
بازیابی تصویر مبتنی بر محتوا استفاده از روش های بینایی ماشین برای بازیابی تصاویری از یک مجموعه است که ازنظر محتوا به تصویر پرسش شبیه باشند. چالش اصلی سیستم های بازیابی تصویر کاهش شکاف معنایی بین ویژگی های دیداری سطح پایین تصویر و مفاهیم سطح بالای موجود در آن است. دلیل اصلی شکاف معنایی این است که پیکسل ها و تکه های تصویر در بیشتر موارد مفاهیم معنایی کمی را با خود حمل می کنند. یکی از روش های کاهش این فاصله استخراج ویژگی های سطح بالا در بازیابی تصویر است. از طرفی برای تفکیک تصاویری از دو گروه مختلف که به وسیله ویژگی های سطح بالا قابل تفکیک نیستند، به ویژگی های سطح پایین نیز احتیاج داریم. در این پژوهش ویژگی های دیداری در چهار سطح پیکسل، ناحیه، شیء و مفهوم استخراج شده و تصاویر در این چهار سطح با استفاده از مدل کیسه ای از واژگان نمایه سازی می شوند. سپس از همجوشی اطلاعات این چهار سطح به منظور کاهش شکاف معنایی و بهبود دقت و فراخوانی بازیابی استفاده می شود. در سطح پیکسل ویژگی های SIFT، فیلتر گابور و گشتاورهای رنگ از تصاویر استخراج می شود. در سطح ناحیه ابتدا تصویر با استفاده از الگوریتم Jseg به چند ناحیه افراز شده و سپس ویژگی های رنگ و بافت با استفاده از توصیفگر Hue و LBP از هر یک از نواحی تصویر استخراج می شود. در سطح شیء از شبکه عصبی کانولوشنی AlexNet برای بازشناسی اشیاء و صحنه های درون تصویر استفاده می شود و در سطح مفهوم از بازنمایی برداری واژگان متناظر با این اشیاء و صحنه ها، برای سنجش شباهت معنایی تصاویر استفاده می شود. بازنمایی برداری واژگان با استفاده از شبکه عصبی Word2vec انجام می شود. برای ساختن یک سیستم بازیابی تصویر مبتنی بر محتوای چندسطحی نیز از دو راهکار همجوشی در سطح تصمیم و همجوشی ویژگی ها استفاده شده است. نتایج این مطالعه امکان سنجی روش پیشنهادی و بهبود عملکرد کلی سیستم بازیابی را در مجموعه تصاویر مختلف تائید می کند.
نظرکاوی جنبه گرا به کمک استخراج روابط معنایی
2017
یکی از دغدغه‎های مصرف کننده‎ محصولات، داشتن یک پیش زمینه ذهنی با توجه به نظرات خریداران قبلی، نسبت به یک محصول، قبل از تصمیم گیری برای خرید آن است.در کنار مصرف کنندگان، تولیدکنندگان هم برای بهبود محصولات قبلی و پیشی گرفتن در بازار فروش نسبت به رقیبان به نظرات مصرف کنندگان محصولات خود اهمیت می‎دهند. امروزه با افزایش تولید برخط محتوا توسط کاربران در شبکه‎های اجتماعی درباره یک شی واقعی یا انتزاعی، امکان رسیدن به اهداف بالا فراهم شده است. اما وجود انبوهی از اطلاعات، تحلیل آن ها را سخت کرده است به همین دلیل نظرکاوی از جایگاه ویژه‎ای در متن کاوی برخوردار است. نظرکاوی رشته ای از مطالعات است که در آن عقیده، احساس، ارزیابی، گرایش و هیجان مردم از زبان نوشتاری تحلیل می‎شود. نمونه‎ای از نظرکاوی، نظرکاوی ریزدانه جنبه گرا است که در آن جنبه‎های مهم یک قلم از متن نظر استخراج شده و جهت‎گیری هر جنبه بر اساس احساس ذکرشده تخمین زده می‎شود. در اینجا هر جنبه ویژگی یا جزئی از یک قلم و جهت گیری همان ارزش عددی بیان کننده احساس کاربر است. ما در این پژوهش با استخراج ویژگی‎های معنایی متن و استفاده از میدان تصادف شرطی به عنوان مدل یادگیر، جنبه‎های نهفته در متن نظرات را استخراج کردیم. نتایج آزمایش ها نشان می دهد که روش مورد استفاده در این پژوهش عملکردی قابل رقابت با بهترین روش‎های موجود روی مجموعه دادگان Semeval2014 دارد.
ارائه ی روشی برای شناخت حرکت دست به منظور تعامل پزشک با سیستم پیمایش تصاویر MRI در اتاق عمل با استفاده از حسگر کینکت
2016
بازشناسی حرکت می تواند به عنوان آغاز راهی برای تعامل انسان و ماشین باشد. اگر ماشین ها بتوانند حرکات روزانه مردم را به صورت خودکار تفسیر کنند، انقلابی در حوزه بینایی ماشین به وجود می آید. بازشناسی حرکت کاربردهای بسیاری در زمینه های مختلف مانند بازی های ویدئویی، توانبخشی حرکتی سالمندان، استفاده در اتاق عمل به عنوان ابزار کمکی پزشک برای مشاهده تصاویر دارد. استفاده از دوربین های RGB نیاز به الگوریتم های پیچیده برای بازشناسی حرکت دست دارد. با ارائه حسگر کینکت توسط مایکروسافت، انقلابی در بازشناسی حرکت و صنعت بازی های تعاملی رخ داد. هدف از این پژوهش استفاده از حسگر کینکت برای بازشناسی حرکت دست پزشک در اتاق عمل است. در جراحی های مغز، پزشک نیاز دارد که تصاویر مختلف بیمار را مشاهده کند. شیوه مرسوم برای این کار استفاده از نگاتوسکوپ است که مشکلاتی مانند عدم بزرگ-نمایی، تغییر کنتراست و شدت روشنایی دارد. در این پژوهش با استفاده از کینکت XBOX One، دو روش به منظور بازشناسی حرکت دست ارائه شده است. در روش اول، ویژگی های سینماتیکی حرکت با استفاده از داده های کینکت استخراج می شود و از طبقه بندهای مختلف برای طبقه بندی حرکات استفاده می شود. با توجه به این که دقت این روش به ویژگی های استخراج شده، نوع طبقه بند و تعداد نمونه های آموزشی و آزمایشی بستگی دارد، روش دوم که مبتنی بر قوانین طراحی شده برای بازشناسی حرکت عمل می کند ارائه شده است. معیارهای دقت و یادآوری به همراه ماتریس درهم ریختگی برای ارزیابی روش-های پیشنهادی به کار رفته اند. نتایج آزمایشات و مقایسه آن با کارهای پیشین انجام شده در زمینه بازشناسی حرکت دست در اتاق عمل، حاکی از کارایی بالای روش های پیشنهادی هستند. همچنین نرم افزار بازشناسی حرکت دست در اتاق عمل بیمارستان های عرفان و سینا تهران حین عمل جراحی در 6 نوبت توسط 8 پزشک مورد ارزیابی قرار گرفت و نتایج نشان-دهنده میزان رضایت پزشکان از این نرم افزار است
رتبه بندی صفحات وب در جستجوی مفهومی به کمک روابط ساختاری و معنایی بین مفاهیم
2016
هدف از این پژوهش، رتبه بندی صفحات وب با استفاده از اطلاعات مفهومی و معنایی بین مفاهیم می باشد. یکی از روش های موثر و متداول رتبه بندی، مدل فضای برداری است. درمدل فضای برداری، اسناد به شکل بردارهایی هستند که هر مولفه آن، وزن مربوط به واژه خاصی است. در این مدل، واژگان با استفاده از روش هایی وزن دهی می شوند. در صورت وجود واژه در سند متناسب با روش در نظر گرفته شده، وزن دهی شده و در صورت عدم وجود واژه در سند، وزن صفر می گیرند. درصورتی که می دانیم واژگان می توانند تعدادی معادل معنایی داشته باشند که با مدل فضای برداری، آنها در نظر گرفته نمی شوند . جهت رفع چنین نقطه ضعفی، تاکنون روش های جستجوی معنایی متعددی ارائه شده اند. یکی از این روش های متداول، گسترش پرس وجو یا اضافه نمودن واژگان دارای معنی مشترک با آن واژه به پرس وجو است. این واژگان بایستی با دقت به معنا و مفهوم خود در متن زمینه آن واژه انتخاب شوند؛ در غیر اینصورت تنها اثر آن منحرف ساختن بردار پرس وجو از بردار پرس وجوی بهینه است.