بهترین اپلیکیشن آشپزی و شیرینی پزی

رگرسیون چیست ؟ همراه با ویدئوی آموزشی

“`html

رگرسیون چیست ؟

رگرسیون: ضریب همبستگی به معنای ارتباط بین دو متغیر است. به طور کلی، وقتی که دو یا چند متغیر را به هم مرتبط می‌کنیم، به این فرآیند رگرسیون می‌گویند.

تاریخچه رگرسیون

واژه رگرسیون به معنای بازگشت است و معمولاً برای بیان مفهوم «بازگشت به یک مقدار متوسط» استفاده می‌شود. این به این معنی است که برخی از پدیده‌ها به مرور زمان به طرف یک مقدار میانگین تمایل دارند.

بیش از 100 سال پیش، در سال 1877، فرانسیس گالتون (Francis Galton) در مقاله‌ای که در این زمینه منتشر کرد، گفت که میانگین قد پسران دارای پدران قد بلند، کمتر از قد پدرانشان است.

به همین ترتیب، میانگین قد پسران دارای پدران کوتاه قد نیز بیشتر از قد پدرانشان گزارش شده است. به این روش، گالتون پدیده بازگشت به سمت میانگین را در داده‌هایش توضیح داد.

برای گالتون، رگرسیون معنای زیست‌شناسی داشت، اما کارهای او توسط کارل پیرسون (Karl Pearson) برای مفاهیم آماری گسترش یافت. هرچند گالتون برای نشان دادن پدیده «بازگشت به سمت مقدار متوسط» از تحلیل رگرسیون استفاده کرد، در حال حاضر از واژه تحلیل رگرسیون برای اشاره به مطالعات مرتبط با روابط بین متغیرها استفاده می‌شود.

نمودار پراکندگی رگرسیون

در حقیقت، تحلیل رگرسیونی یک روش آماری برای بررسی و مدل‌سازی ارتباط بین متغیرها است. رگرسیون تقریباً در تمامی زمینه‌ها از جمله مهندسی، فیزیک، اقتصاد، مدیریت، علوم زیستی، بیولوژی و علوم اجتماعی برای تخمین و پیش‌بینی استفاده می‌شود.

می‌توان گفت که تحلیل رگرسیونی، پرکاربردترین روش در میان تکنیک‌های آماری است. یک نمای کلی و ساده از یک تحلیل رگرسیونی به این صورت است:

در ابتدا، تحلیل‌گر حدس می‌زند که میان دو متغیر ارتباطی وجود دارد. به عبارت دیگر، او فکر می‌کند که یک رابطه به شکل یک خط بین دو متغیر وجود دارد و سپس به جمع‌آوری اطلاعات کمی از دو متغیر می‌پردازد و این داده‌ها را به صورت نقاطی در یک نمودار دو بعدی رسم می‌کند.

این نمودار که به آن نمودار پراکندگی [scatter plot] می‌گویند، نقش بسیار مهمی در تحلیل‌های رگرسیونی و نمایش ارتباط بین متغیرها ایفا می‌کند.

اگر نمودار نشان دهد که داده‌ها تقریباً (نه الزاماً دقیق) در کنار یک خط مستقیم پراکنده شده‌اند، حدس تحلیل‌گر تأیید می‌شود و این ارتباط خطی به صورت زیر نمایش داده می‌شود:

y = a x + b

که در آن a مقدار تقاطع با محور y و b شیب این خط است.

متغیرها و خطا :

بین برخی از نقاط و تصویر آنها بر روی خط رگرسیونی (خط y) کمی تفاوت قابل مشاهده است که به آن خطای برآورد می‌گوییم.

این خطا ممکن است ناشی از خطا در اندازه‌گیری، شرایط محیطی، تفاوت‌های طبیعی و غیره باشد. بنابراین معادله اولیه را به صورت زیر اصلاح می‌کنیم:

y = ax + b + ?

معادله بالا یک مدل رگرسیون خطی نامیده می‌شود. معمولاً به x متغیر مستقل (رگرسیونی) و به y متغیر وابسته (پاسخ) گفته می‌شود، که ? خطای تصادفی است که برای تکمیل مدل و نشان دادن این که خطا نیز وجود دارد، در نظر گرفته می‌شود.

فرضیات :

معمولاً فرض می‌شود که خطاها یکدیگر را خنثی می‌کنند، به عبارت دیگر جمع خطاها برابر با صفر است. همچنین فرض می‌شود که خطاهای یک مشاهده هیچ رابطه‌ای با خطاهای دیگر ندارند و در نهایت تغییرات

“`

این سه فرض برای ساختن یک مدل بسیار مهم هستند و راه‌های زیادی برای بررسی وجود یا عدم وجود این فرض‌ها وجود دارد. یکی از دلایل اصلی استفاده نادرست از رگرسیون، نادیده گرفتن این فرض‌هاست که می‌تواند منجر به نتیجه‌گیری‌های نادرست شود.

اگر در یک مدل رگرسیونی فقط یک متغیر مستقل وجود داشته باشد، به آن مدل رگرسیونی خطی ساده می‌گویند.

مفهوم رگرسیون در ویدئوی آموزشی

https://v.delgarm.com/video/813/2020/12/02/c3cf31726ba762d86868a1d7bd6b11f6.mp4

سایت رضیم

خروج از نسخه موبایل