بررسی وحل چالش تقسیمبندی دادههای جریان در دادههای حجیم - دانشکده فنی و مهندسی
بررسی وحل چالش تقسیمبندی دادههای جریان در دادههای حجیم
نوع: Type: پایان نامه
مقطع: Segment: کارشناسی ارشد
عنوان: Title: بررسی وحل چالش تقسیمبندی دادههای جریان در دادههای حجیم
ارائه دهنده: Provider: زهرا عمیقی
اساتید راهنما: Supervisors: دکتر مرتضی یوسف صنعتی - دکتر میرحسین دزفولیان
اساتید مشاور: Advisory Professors:
اساتید ممتحن یا داور: Examining professors or referees: دکتر محرم منصوری زاده - کتر مهدی سخایی نیا
زمان و تاریخ ارائه: Time and date of presentation: چهارشنبه 23/07/1399 ساعت 14:00
مکان ارائه: Place of presentation:
چکیده: Abstract: جریانداده یک توالی نامحدود از دادههایی است که با سرعت و در حجم بالا تولید میشود. با در نظر گرفتن چنین تعریفی، پردازش اطلاعات جریان به عنوان یک موجودیت واحد بسیار دشوار و در برخی جریانها ناممکن است. بنابراین، روشهایی ایجاد شدهاند که بتوانند پردازش چنین دادههایی را امکانپذیر نمایند. یکی از رایجترین این روشها، خوشهبندی نام دارد که میتواند اقلام اطلاعاتی مشابه را در تعدادی گروه قرار دهد. EvoStream یکی از الگوریتمهای خوشهبندی جریان است که با استفاده از یک الگوریتم تکاملی به صورت تدریجی در زمانهای بیکاری جریان، خوشهبندی نهایی را انجام میدهد. این الگوریتم ضمن ایجاد نتایج رقابتی با سایر الگوریتمها در این حوزه، سربار محاسباتی مرحله آفلاین را به طور موثری کاهش میدهد. تعداد خوشهها در الگوریتم EvoStream ثابت درنظر گرفته میشود، درحالی که در جریاندادهی واقعی این تعداد در طول زمان متغیر است و به پیچیدگی دادههای ورودی بستگی دارد. از طرف دیگر از آنجاییکه زمان وقوع بیکاری و طول زمان مذکور از الگوی خاصی تبعیت نمیکند ممکن است برخی گامهای تکاملی به پایان نرسند که این امر با توجه به ثابت نبودن تعداد خوشهها از کیفیت خوشهها میکاهد. در راستای رفع این مشکلات در این پایاننامه الگوریتم جدیدی ارائه شده است که تعداد خوشهها را به درستی تشخیص داده و ضمن بهبود کیفیت خوشهها، اجرای مرحلهی تکاملی را تا چهار برابر تسریع میکند.
فایل: ّFile: دانلود فایل