تشخیص داده های پرت در جریان داده با استفاده از خوشه بندی

نوع: Type: پایان نامه

مقطع: Segment: کارشناسی ارشد

عنوان: Title: تشخیص داده های پرت در جریان داده با استفاده از خوشه بندی

ارائه دهنده: Provider: مائده مطلبی - مهندسی کامپیوتر

اساتید راهنما: Supervisors: آقای دکتر یوسف صنعتی

اساتید مشاور: Advisory Professors:

اساتید ممتحن یا داور: Examining professors or referees: آقای دکتر سخایی نیا، آقای دکتر نصرتی

زمان و تاریخ ارائه: Time and date of presentation: ساعت 8:30 - 1403/6/25

مکان ارائه: Place of presentation: آمفی تئاتر

چکیده: Abstract: در دنیای امروز، داده‌‌های زیادی وجود دارند که شامل الگوهای مورد علاقه زیادی هستند که گاهی به طور منظم در داده‌ها رخ می‌دهند. یافتن چنین الگوهایی می‌تواند به شناسایی داده‌های پرت، یعنی دادههای غیر منتظره که به‌صورت پراکنده رخ می‌دهند، کمک کند. هرچه داده‌های بیشتری تولید شوند، احتمال یافتن الگوهای جدیدتر و داده‌های پرت افزایش می یابد، که با حضور حجم بسیار بالای داده‌ها و تولید سریع آنها ، استفاده از روش های پردازش کلان داده می‌تواند در این خصوص مفید باشد. تولید داده‌های بیشتر می‌تواند منجربه ایجاد جریانی از داده‌ها شود که به صورت بی وقفه، فوری و متوالی پدیدار می‌شوند و باید مورد بهره برداری قرار گیرند که امکان ذخیره‌سازی این داده‌ها عملا مقدور نمی‌باشد. در برخی حوزهها جریان‌های داده دیده میشوند، به‌طور مثال می‌توان به شبکه‌های حسگر، مدیریت ترافیک و شبکههای اجتماعی اشاره نمود. داده‌های موجود در جریان داده‌ها می توانند حاوی دانش مفیدی باشند که باید پردازش های گوناگونی را برای کشف این دانش انجام داد که یکی از پردازش‌ها، خوشه‌بندی جریان داده نام دارد. این پردازش از مباحث موجود در داده‌کاوی کلان داده می باشد. برای کشف دانش نهفته در کلان‌داده با استفاده از روش‌های داده‌کاوی، حضور مرحلهای به نام پیش پردازش ضروری است. درمرحله پیش پردازش، داده‌ها برای انجام داده‌کاوی آماده می‌شوند. به طور مثال در این مرحله داده‌های پرت یا دادههای بدون مقدار حذف یا اصلاح میشوند. از این رو مرحله پیش پردازش مرحله بسیار مهمی می‌باشد که در آن باید تکلیف داده‌های پرت و یا سایر نا هنجاری های موجود در داده‌ها مشخص شوند. بنابراین وجود تکنیک های پیش پردازش برای کسب دانش مفید از همه ی داده های تولیدشده ضروری است. هدف استفاده از این تکنیک ها کاهش پیچیدگی های موجود در داده‌های دنیای واقعی می باشد، به طوری که کاهش این پیچیدگی می تواند در موثر بودن روش های داده‌کاوی در استخراج الگو ها نقش مهمی را ایفا کند و فرایند یادگیری را سریع تر ودقیق تر انجام دهد و ساختار داده‌های خام را برای الگوریتم داده‌کاوی قابل فهم تر نماید. در داده‌کاوی روش‌های متفاوتی وجود دارد که یکی از آنها خوشه‌بندی می باشد. خوشه‌بندی به عنوان یک تکنیک در یادگیری ماشین تلاش می کند تا داده‌ها را با استفاده از شناختی که دارد در گروه‌های متفاوتی قرار دهد. به طور کلی خوشه‌بندی جریان داده، تقسیم داده‌ها به گروه‌های همگن است به نحوی که شرط شباهت حداکثری مشاهدات درون هر گروه و شباهت حداقلی بین اعضای گروه‌های مختلف برآورده شود. از این نوع پردازش نیز می‌توان برای کشف داده‌های پرت استفاده نمود. در روش پیشنهادی،از الگوریتمSTARE استفاده شده است. در این پژوهش، سعی شده است که الگوریتم STARE بهبود یابد. استفاده از خوشه بندی DBSCAN به عنوان پیش‌پردازش می‌تواند دقت الگوریتم را بهبود ببخشد.

فایل: ّFile: دانلود فایل