تشخیص داده های پرت در جریان داده با استفاده از خوشه بندی - دانشکده فنی و مهندسی
تشخیص داده های پرت در جریان داده با استفاده از خوشه بندی
نوع: Type: پایان نامه
مقطع: Segment: کارشناسی ارشد
عنوان: Title: تشخیص داده های پرت در جریان داده با استفاده از خوشه بندی
ارائه دهنده: Provider: مائده مطلبی - مهندسی کامپیوتر
اساتید راهنما: Supervisors: آقای دکتر یوسف صنعتی
اساتید مشاور: Advisory Professors:
اساتید ممتحن یا داور: Examining professors or referees: آقای دکتر سخایی نیا، آقای دکتر نصرتی
زمان و تاریخ ارائه: Time and date of presentation: ساعت 8:30 - 1403/6/25
مکان ارائه: Place of presentation: آمفی تئاتر
چکیده: Abstract: در دنیای امروز، دادههای زیادی وجود دارند که شامل الگوهای مورد علاقه زیادی هستند که گاهی به طور منظم در دادهها رخ میدهند. یافتن چنین الگوهایی میتواند به شناسایی دادههای پرت، یعنی دادههای غیر منتظره که بهصورت پراکنده رخ میدهند، کمک کند. هرچه دادههای بیشتری تولید شوند، احتمال یافتن الگوهای جدیدتر و دادههای پرت افزایش می یابد، که با حضور حجم بسیار بالای دادهها و تولید سریع آنها ، استفاده از روش های پردازش کلان داده میتواند در این خصوص مفید باشد. تولید دادههای بیشتر میتواند منجربه ایجاد جریانی از دادهها شود که به صورت بی وقفه، فوری و متوالی پدیدار میشوند و باید مورد بهره برداری قرار گیرند که امکان ذخیرهسازی این دادهها عملا مقدور نمیباشد. در برخی حوزهها جریانهای داده دیده میشوند، بهطور مثال میتوان به شبکههای حسگر، مدیریت ترافیک و شبکههای اجتماعی اشاره نمود. دادههای موجود در جریان دادهها می توانند حاوی دانش مفیدی باشند که باید پردازش های گوناگونی را برای کشف این دانش انجام داد که یکی از پردازشها، خوشهبندی جریان داده نام دارد. این پردازش از مباحث موجود در دادهکاوی کلان داده می باشد. برای کشف دانش نهفته در کلانداده با استفاده از روشهای دادهکاوی، حضور مرحلهای به نام پیش پردازش ضروری است. درمرحله پیش پردازش، دادهها برای انجام دادهکاوی آماده میشوند. به طور مثال در این مرحله دادههای پرت یا دادههای بدون مقدار حذف یا اصلاح میشوند. از این رو مرحله پیش پردازش مرحله بسیار مهمی میباشد که در آن باید تکلیف دادههای پرت و یا سایر نا هنجاری های موجود در دادهها مشخص شوند. بنابراین وجود تکنیک های پیش پردازش برای کسب دانش مفید از همه ی داده های تولیدشده ضروری است. هدف استفاده از این تکنیک ها کاهش پیچیدگی های موجود در دادههای دنیای واقعی می باشد، به طوری که کاهش این پیچیدگی می تواند در موثر بودن روش های دادهکاوی در استخراج الگو ها نقش مهمی را ایفا کند و فرایند یادگیری را سریع تر ودقیق تر انجام دهد و ساختار دادههای خام را برای الگوریتم دادهکاوی قابل فهم تر نماید. در دادهکاوی روشهای متفاوتی وجود دارد که یکی از آنها خوشهبندی می باشد. خوشهبندی به عنوان یک تکنیک در یادگیری ماشین تلاش می کند تا دادهها را با استفاده از شناختی که دارد در گروههای متفاوتی قرار دهد. به طور کلی خوشهبندی جریان داده، تقسیم دادهها به گروههای همگن است به نحوی که شرط شباهت حداکثری مشاهدات درون هر گروه و شباهت حداقلی بین اعضای گروههای مختلف برآورده شود. از این نوع پردازش نیز میتوان برای کشف دادههای پرت استفاده نمود. در روش پیشنهادی،از الگوریتمSTARE استفاده شده است. در این پژوهش، سعی شده است که الگوریتم STARE بهبود یابد. استفاده از خوشه بندی DBSCAN به عنوان پیشپردازش میتواند دقت الگوریتم را بهبود ببخشد.
فایل: ّFile: دانلود فایل