“`html
رگرسیون چیست ؟
رگرسیون: ضریب همبستگی به معنای ارتباط بین دو متغیر است. به طور کلی، وقتی که دو یا چند متغیر را به هم مرتبط میکنیم، به این فرآیند رگرسیون میگویند.
تاریخچه رگرسیون
واژه رگرسیون به معنای بازگشت است و معمولاً برای بیان مفهوم «بازگشت به یک مقدار متوسط» استفاده میشود. این به این معنی است که برخی از پدیدهها به مرور زمان به طرف یک مقدار میانگین تمایل دارند.
بیش از 100 سال پیش، در سال 1877، فرانسیس گالتون (Francis Galton) در مقالهای که در این زمینه منتشر کرد، گفت که میانگین قد پسران دارای پدران قد بلند، کمتر از قد پدرانشان است.
به همین ترتیب، میانگین قد پسران دارای پدران کوتاه قد نیز بیشتر از قد پدرانشان گزارش شده است. به این روش، گالتون پدیده بازگشت به سمت میانگین را در دادههایش توضیح داد.
برای گالتون، رگرسیون معنای زیستشناسی داشت، اما کارهای او توسط کارل پیرسون (Karl Pearson) برای مفاهیم آماری گسترش یافت. هرچند گالتون برای نشان دادن پدیده «بازگشت به سمت مقدار متوسط» از تحلیل رگرسیون استفاده کرد، در حال حاضر از واژه تحلیل رگرسیون برای اشاره به مطالعات مرتبط با روابط بین متغیرها استفاده میشود.
نمودار پراکندگی رگرسیون
در حقیقت، تحلیل رگرسیونی یک روش آماری برای بررسی و مدلسازی ارتباط بین متغیرها است. رگرسیون تقریباً در تمامی زمینهها از جمله مهندسی، فیزیک، اقتصاد، مدیریت، علوم زیستی، بیولوژی و علوم اجتماعی برای تخمین و پیشبینی استفاده میشود.
میتوان گفت که تحلیل رگرسیونی، پرکاربردترین روش در میان تکنیکهای آماری است. یک نمای کلی و ساده از یک تحلیل رگرسیونی به این صورت است:
در ابتدا، تحلیلگر حدس میزند که میان دو متغیر ارتباطی وجود دارد. به عبارت دیگر، او فکر میکند که یک رابطه به شکل یک خط بین دو متغیر وجود دارد و سپس به جمعآوری اطلاعات کمی از دو متغیر میپردازد و این دادهها را به صورت نقاطی در یک نمودار دو بعدی رسم میکند.
این نمودار که به آن نمودار پراکندگی [scatter plot] میگویند، نقش بسیار مهمی در تحلیلهای رگرسیونی و نمایش ارتباط بین متغیرها ایفا میکند.
اگر نمودار نشان دهد که دادهها تقریباً (نه الزاماً دقیق) در کنار یک خط مستقیم پراکنده شدهاند، حدس تحلیلگر تأیید میشود و این ارتباط خطی به صورت زیر نمایش داده میشود:
y = a x + b
که در آن a مقدار تقاطع با محور y و b شیب این خط است.
متغیرها و خطا :
بین برخی از نقاط و تصویر آنها بر روی خط رگرسیونی (خط y) کمی تفاوت قابل مشاهده است که به آن خطای برآورد میگوییم.
این خطا ممکن است ناشی از خطا در اندازهگیری، شرایط محیطی، تفاوتهای طبیعی و غیره باشد. بنابراین معادله اولیه را به صورت زیر اصلاح میکنیم:
y = ax + b + ?
معادله بالا یک مدل رگرسیون خطی نامیده میشود. معمولاً به x متغیر مستقل (رگرسیونی) و به y متغیر وابسته (پاسخ) گفته میشود، که ? خطای تصادفی است که برای تکمیل مدل و نشان دادن این که خطا نیز وجود دارد، در نظر گرفته میشود.
فرضیات :
معمولاً فرض میشود که خطاها یکدیگر را خنثی میکنند، به عبارت دیگر جمع خطاها برابر با صفر است. همچنین فرض میشود که خطاهای یک مشاهده هیچ رابطهای با خطاهای دیگر ندارند و در نهایت تغییرات
“`
این سه فرض برای ساختن یک مدل بسیار مهم هستند و راههای زیادی برای بررسی وجود یا عدم وجود این فرضها وجود دارد. یکی از دلایل اصلی استفاده نادرست از رگرسیون، نادیده گرفتن این فرضهاست که میتواند منجر به نتیجهگیریهای نادرست شود.
اگر در یک مدل رگرسیونی فقط یک متغیر مستقل وجود داشته باشد، به آن مدل رگرسیونی خطی ساده میگویند.
مفهوم رگرسیون در ویدئوی آموزشی