فاصلهها و شباهتهای اشیاء که با مقایسه ویژگیهای آنها بدست میآید از دسته شاخصهای پرکاربرد در روشهای مختلف داده کاوی هستن. معیار فاصله با معیار شباهت رابطه عکس دارد بطوریکه هر چه فاصله بیشتر باشد آنها از هم دورتر بوده و شباهت آنها کمتر است و برعکس.
شرح یک مسئله
فرض کنید میخواهیم میزان فاصله یا شباهت سلیقه افراد در فیلمها را با داشتن امتیازاتی که برای آنها ثبت کردن محاسبه کنیم. برای این منظور میتوانیم از روشهای محاسبه فاصلهها و شباهتهایی که در حوزهی دادهکاوی مطرح است استفادهکنیم.
یادآوری: همانطور که در قسمت جزئیات دیتاستها گفته شد، دیتاست مورد استفاده movie_rating_simple بصورت زیر است.
فاصلهها
در این قسمت به شرح انواع «معیارهای فاصله» یا Distance Metrics که برای محاسبه فاصله دو شیئ یا به عبارتی میزان دور بودن آنها استفاده میشود، بپردازیم.
شرایط معیارهای فاصله ۱ـ اندازه فاصله همیشه نامنفی است. ۲ـ اگر فاصلهی بین دو نقطه صفر باشد آن دو نقطه یکی هستن و بر عکس. ۳ـ در صورت جابجایی مبدا و مقصد بین دو نقطهی ثابت فاصلهها به یک اندازه باشند.
F(a,b)=F(b,a)
۴ـ نامساوی مثلثی، صادق باشد مطابق شکل زیر برای هر سه نقطهی دلخواه
*یادآوری: نامساوی مثلثی بیان میکند مجموع دو طول یک مثلث بزرگتر از ضلع سوم آن است.
فاصله اقلیدسی
فاصلهی اقلیدسی مانند قضیه فیثاغورس برابر است با ریشه دوم مجموع مربعات اختلاف ویژگیهای اشیاء
\fq,p=(q1−p1)2+⋯+(qn−pn)2=i=1∑n(qi−pi)2به مثال زیر که در ادامه برای فاصلههای دیگر نیز بررسی میکنیم دقت کنید.
پیادهسازی روش اقلیدسی در پایتون
فاصله منهتن یا فاصلهی راننده تاکسی
illustrativemathematicsخط آبی نشان دهندهی فاصلهی راننده تاکسی یا منهتن، بین دو نقطهی Start و End است و خط قرمز نشان دهندهی فاصلهی اقلیدوسی میباشد.
فاصلهی منهتن سادهترین معیار برای محاسبهی فاصله است که برابر است با مجموع قدر مطلق اختلاف ویژگیهای اشیاء.
محاسبهی فاصله به روش منهتن
پیادهسازی روش منهتن در پایتون
فاصله چبیشف
یا به عبارتی دیگر فاصلهی چبیشف برابر است با حداکثر اختلافی که بین ویژگیهای اشیاء وجود دارد.
محاسبهی فاصله به روش چبیشف
پیادهسازی روش چبیشف در پایتون
فاصله مینکوفسکی
یک معیار کلی و تعمیم یافته است، به این معنا که میتوان با تغییر فرمول فاصلههای متفاوتی را محاسبه کرد.
(i=1∑n∣xi−yi∣p)1/p
برای مثال با تغییر مقدار p در معادلهی فوق به سه فاصلهی متفاوت زیر میرسیم.
اگر بجای p عدد ۱ را قرار دهیم، تبدیل به فاصلهی منهتن میشود.
اگر بجای p عدد ۲ را قرار دهیم، تبدیل به فاصلهی اقلیدسی میشود.
اگر بجای p عدد ∞ (یا بینهایت) را قرار دهیم، تبدیل به فاصلهی چبیشف میشود.
** نکته: هر چه p بزرگتر باشد، میزان تاثیر اختلاف زیاد در یک ویژگی روی نتیجه بیشتر خواهد شد.