جدول ۳-۶: نتایج حاصل از ارزیابی درخت j48 بر روی داده های تست ] ۸۹[
طبقه بندی شده به عنوان قانونی | طبقه بندی شده به عنوان هرزنامه | |
۳۸ | ۲۱ | هرزنامه |
۱۷۳ | ۲۰ | قانونی |
تشخیص ۳۵ درصدی برای سیستم پیشنهادی مناسب می باشد اما نرخ مثبت غلط ۱۱ درصدی نامناسب می باشد. به منظور کاستن نرخ مثبت غلط، تصمیم گرفته شد فاکتور اطمینان برگ ها دخالت داده شود. با بهره گرفتن از این فاکتور اطمینان به عنوان آستانه، می توان سیستم را به نحوی تنظیم کرد که نرخ مثبت غلط ها کاهش یابد. به عنوان مثال با اطمینان ۰٫۸۸، طبقه بندی کننده نرخ منفی غلط ۸۱٫۴ درصد را ارائه می دهد و هیچ مثبت غلط ی را برای مجموعه داده تست مورد آزمایش نمی دهد و همچنین سیستم با این مقدار آستانه نرخ مثبت درست ۱۸٫۴ درصد را ارائه می دهد.
( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
در حالی که نرخ ۱۸ درصد کامل نیست و نیاز به بهبود دارد، اما سایتهای ناخواسته را در نتایج کم می کند. با توجه به اینکه اغلب کاربران ۱۰ یا ۲۰ نتیجه ی بالای موتور جستجو توجه می کنند، این ۱۸ درصد سبب ایجاد دو اسلات خالی در ۱۰ نتیجه بالای موتورهای جستجو می شود که بالقوه می تواند با صفحات جالب جایگرین شود] ۸۹[.
۳-۴-۴- مطالعات مبتنی بر پیکربندی[۷۸] وب:
از پیکربندی گراف وب با استخراج وابسبرچسبی های لینک مابین صفحات استفاده می شود. آنها متوجه شده اند که میزبانهای لینک شده هر دو تمایل به کلاس های مشابه دارند : هر دو هرزنامه هستند یا هر دو غیرهرزنامه.
سه روش از پیکربندی های گراف وب استفاده شده در طبقه بندی کننده پایه:
-
- i) خوشه بندی گراف میزبان و تخصیص برچسب همه ی میزبان ها در خوشه با رای حداکثر ii) انتشار برچسب های پیش بینی شده به همسایگان iii) استفاده از برچسب های پیش بینی شده میزبان های همسایه به عنوان ویژگی های جدید و بازآموزی طبقه بندی کننده .
در مورد وب وابستگی ما بین صفحات و میزبان ها وجود دارد. هرزنامه ها تمایل به خوشه شدن بر روی وب دارند. یک توضیح برای این رفتار این است که صفحات هرزنامه اغلب تکنیک های rank-hosting مبتنی بر لینک را اتخاذ کرده اند نظیر link-farming.
طرح ۱ تصویری از گراف میزبان را در مجموعه هرزنامه وب می دهد که مورد استفاده محققین بوده است. یک لبه بین دو میزبان زمانی نشان داده شده است که حداقل ۱۰۰ لینک بین دو میزبان وجود داشته باشد . در طرح، گره های سیاه هرزنامه هستند و گره های سفید غیرهرزنامه هستند.
شکل ۳-۲: طرح گراف میزبان ] ۴۴[
استفاده از طبقه بندی کننده حساس به هزینه برای استخراج کردن برچسب های غیرمتقارن ذاتی
بهبودهایی در دقت طبقه بندی با بهره گرفتن از وابستگی های برچسب های همسایگان میزبان در گراف وب.
ترکیب این وابستگی ها به وسیله ی خوشه بندی و پیاده روی تصادفی
استفاده از stacked graphical learning برای بهبود دقت طبقه بندی ]۹۰٫[
از مجموعه داده Web Spam UK2006 استفاده شده است. برای آنالیز محتوا، خلاصه ای از محتویات هر میزبان به وسیله ردیابی ۴۰۰ صفحه ی اول قابل دسترس توسط جستجوی اول پهنا بدست آمد. نمونه خلاصه شده ۳/۳ میلیون صفحه را در برمی گیرد.
چارچوب کاری :
پایه واساس سیستم کشف هرزنامه، درخت تصمیم گیری حساس به هزینه است. برای یادگیری درخت از یک روش ترکیبی مبتنی بر لینک و نیز محتوا به منظور کشف انواع متفاوت هرزنامه وب استفاده کرده ایم. همه ی پیش بینی های گزارش شده با بهره گرفتن از ارزیابی متقاطع۱۰-fold محاسبه شده اند .
ویژگی ها:
برای ویژگی های مبتنی بر لینک از Becchetti و همکارن پیروی شده و برای ویژگی های مبتنی بر محتوا از Ntoulas و همکاران ]۴۹, ۸۱[.
اندازه های مرتبط با درجه:
تعدادی از اندازه های مرتبط با درجه داخلی و خارجی را روی میزبان ها و همسایگان آنها محاسبه شده، به علاوه اندازه های دیگر را نیز مورد توجه قرار گرفته، نظیر لبه متقابل و تعداد پیوندهایی که متقابل (دو جانبه هستند)، assortativity (نسبت درجه یک صفحه ویژه و درجه میانگین همسایگان). (۲۶ ویژگی)
رتبه صفحه :
اندازه های مختلف مرتبط با رتبه صفحه یک صفحه و رتبه صفحه همسایگان پیوند داخلی محاسبه شده است (۱۱ویژگی).
برآورد پشتیبان[۷۹] ها:
یک راه برای مبارزه با هرزنامه لینک شمردن پشتیبانیکنندهها است. x، d-supporter برای y است اگر کوتاهترین مسیر از x به y طول d داشته باشد. Nd(x) را مجموعه d-supporter های x است. الگوریتم کلی به این صورت است که در هر تکرار الگوریتم، اگر صفحه y لینکی به صفحه x داشته باشد، بردار بیت صفحه x بصورت xORy بهنگام سازی می شود. پس از d تکرار، بردار بیت مرتبط با هر صفحه x اطلاعاتی درباره تعداد پشتیبانیکننده های x در فاصله d ارائه می کند. اگر یک صفحه تعداد بیشتری پشتیبانیکننده از دیگری داشته باشند، یکهای بیشتری در پیکربندی نهایی بردار بیت آن ظاهر می شود.
یک اندازه جالب دیگر ، تعداد bottle neck است.
bd(x) یک صفحه x، که ما به صورت bd(x)= minj≤d{|Nj(x)|/|Nj-1(x)} تعریف شده واین اندازه کمینه نرخ رشد همسایگان x تا یک فاصله معین را نشان می دهد. صفحات هرزنامه خوشه هایی را تشکیل دهند که از مابقی گراف جدا هستند و آنها تعداد bottleneck کمتری نسبت به صفحات غیرهرزنامه دارند.