مقادیر P و ضرایب در تحلیل رگرسیون با هم کار می کنند تا به شما بگویند که کدام روابط در مدل شما از نظر آماری معنی دار هستند و ماهیت آن روابط. ضرایب رگرسیون خطی رابطه ریاضی بین هر متغیر مستقل و متغیر وابسته را توصیف می کند. مقادیر p برای ضرایب نشان می دهد که آیا این روابط از نظر آماری معنی دار هستند یا خیر.
پس از برازش یک مدل رگرسیون، ابتدا نمودارهای باقیمانده را بررسی کنید تا مطمئن شوید که برآوردهای بی طرفانه دارید. پس از آن، زمان تفسیر خروجی آماری است. تجزیه و تحلیل رگرسیون خطی می تواند نتایج زیادی ایجاد کند، که من به شما کمک خواهم کرد تا در آنها پیمایش کنید. در این پست، تفسیر رگرسیون خطی p-value و ضرایب برای متغیرهای مستقل را پوشش میدهم.
تفسیر مقادیر P در رگرسیون برای متغیرها
تحلیل رگرسیون شکلی از آمار استنباطی است. مقادیر p در رگرسیون به تعیین اینکه آیا روابطی که در نمونه خود مشاهده می کنید در جمعیت بزرگتر نیز وجود دارد یا خیر کمک می کند. مقدار p رگرسیون خطی برای هر متغیر مستقل این فرضیه صفر را آزمایش می کند که متغیر با متغیر وابسته همبستگی ندارد. اگر همبستگی وجود نداشته باشد، هیچ ارتباطی بین تغییرات متغیر مستقل و تغییرات متغیر وابسته وجود ندارد. به عبارت دیگر، شواهد کافی برای نتیجه گیری از وجود تأثیر در سطح جمعیت وجود ندارد.
اگر مقدار p برای یک متغیر کمتر از سطح معنیداری شما باشد، دادههای نمونه شما شواهد کافی برای رد فرضیه صفر برای کل جامعه فراهم میکند. داده های شما از این فرضیه حمایت می کند که همبستگی غیر صفر وجود دارد. تغییرات متغیر مستقل با تغییرات متغیر وابسته در سطح جمعیت همراه است. این متغیر از نظر آماری معنیدار است و احتمالاً به مدل رگرسیونی شما افزوده میشود.
از سوی دیگر، زمانی که مقدار p در رگرسیون بیشتر از سطح معنیداری باشد، نشان میدهد که شواهد کافی در نمونه شما برای نتیجهگیری وجود یک همبستگی غیر صفر وجود ندارد.
مثال خروجی رگرسیون زیر نشان میدهد که متغیرهای پیشبینیکننده جنوبی و شمالی از نظر آماری معنادار هستند، زیرا مقادیر p آنها برابر با 000/0 است. از سوی دیگر، شرق از نظر آماری معنادار نیست، زیرا مقدار p آن (0. 092) بیشتر از سطح معنیداری معمول 0. 05 است.
استفاده از ضرایب p-values برای تصمیم گیری در مورد گنجاندن متغیرها در مدل نهایی یک روش استاندارد است. برای نتایج بالا، حذف شرق را در نظر می گیریم. حفظ متغیرهایی که از نظر آماری معنی دار نیستند می تواند دقت مدل را کاهش دهد.
تفسیر ضرایب رگرسیون خطی
ضریب به چه معناست؟علامت ضریب رگرسیون خطی به شما می گوید که آیا بین هر متغیر مستقل و متغیر وابسته همبستگی مثبت یا منفی وجود دارد. ضریب مثبت نشان می دهد که با افزایش مقدار متغیر مستقل، میانگین متغیر وابسته نیز تمایل به افزایش دارد. یک ضریب منفی نشان می دهد که با افزایش متغیر مستقل، متغیر وابسته تمایل به کاهش دارد.
مقدار ضریب نشان می دهد که میانگین متغیر وابسته با تغییر یک واحدی در متغیر مستقل در حالی که سایر متغیرها را در مدل ثابت نگه می دارد، چقدر تغییر می کند. این خاصیت ثابت نگه داشتن سایر متغیرها بسیار مهم است زیرا به شما امکان می دهد تا تأثیر هر متغیر را جدا از سایرین ارزیابی کنید.
ضرایب رگرسیون خطی در خروجی آماری شما تخمینی از پارامترهای جمعیت واقعی است. برای به دست آوردن تخمین های ضرایب بی طرفانه که دارای حداقل واریانس هستند، و برای اینکه بتوانید به مقادیر p اعتماد کنید، مدل شما باید هفت فرض کلاسیک رگرسیون خطی OLS را برآورده کند.
آماردانان ضرایب رگرسیون خطی را یک اندازه اثر غیر استاندارد در نظر می گیرند، زیرا آنها قدرت رابطه بین متغیرها را با استفاده از مقادیری که واحدهای طبیعی متغیر وابسته را حفظ می کنند، نشان می دهند. اندازه افکت ها به شما کمک می کند تا درک کنید که یافته ها از نظر عملی چقدر مهم هستند. برای کسب اطلاعات بیشتر در مورد اندازه افکت های غیر استاندارد و استاندارد، پست من در مورد اندازه افکت در آمار را بخوانید.
نمایش گرافیکی ضرایب رگرسیون خطی
یک راه ساده برای درک تفسیر ضریب رگرسیون این است که آنها را به صورت شیب های خطی به تصویر بکشیم. نمودار خط برازش این موضوع را با ترسیم رابطه بین قد (IV) و وزن (DV) یک فرد نشان می دهد. خروجی عددی و نمودار اطلاعات یک مدل را نشان می دهد.
ضریب ارتفاع در معادله رگرسیون 106. 5 است. این ضریب نشان دهنده میانگین افزایش وزن بر حسب کیلوگرم به ازای هر یک متر اضافه قد است. اگر قد شما 1 متر افزایش یابد، میانگین وزن 106. 5 کیلوگرم افزایش می یابد.
خط رگرسیون روی نمودار بصری همان اطلاعات را نشان می دهد. اگر با یک متر به سمت راست در امتداد محور x حرکت کنید ، خط 106. 5 کیلوگرم افزایش می یابد. به خاطر داشته باشید که تفسیر نتایج رگرسیون در فضای مشاهده داده های شما فقط بی خطر است. در این حالت ، داده های قد و وزن از دختران دوره متوسطه جمع آوری و از 1. 3 متر تا 1. 7 متر است. در نتیجه ، ما نمی توانیم با یک متر کامل برای این داده ها در امتداد خط تغییر کنیم.
بیایید فرض کنیم که خط رگرسیون مسطح بود ، که مربوط به ضریب صفر است. برای این سناریو ، میانگین وزن مهم نیست که چقدر در امتداد خط حرکت کنید. به همین دلیل ضریب نزدیک صفر نشان می دهد که هیچ تاثیری وجود ندارد-و شما می توانید یک مقدار P بالا (ناچیز) را ببینید که می توانید با آن همراه شوید.
این طرح واقعاً این را زنده می کند. با این حال ، توطئه ها فقط می توانند نتایج رگرسیون ساده را نشان دهند - یک پیش بینی کننده و پاسخ. برای رگرسیون خطی چندگانه ، تفسیر یکسان است.
توطئه های کانتور می توانند دو متغیر مستقل و متغیر وابسته را نمودار کنند. برای اطلاعات بیشتر ، توطئه های کانتور پست من را بخوانید: با استفاده از ، مثالها و تفسیر.
از اصطلاحات چند جمله ای برای مدل سازی انحنای در مدل های خطی استفاده کنید
رابطه خطی قبلی برای درک نسبتاً ساده است. یک رابطه خطی نشان می دهد که این تغییر در کل خط رگرسیون یکسان است. حال ، بیایید به تفسیر ضرایب برای یک رابطه منحنی بپردازیم ، جایی که تأثیر آن به موقعیت مکانی شما در منحنی بستگی دارد. تفسیر ضرایب برای یک رابطه منحنی نسبت به روابط خطی کمتر شهودی است.
به عنوان یک تازه کننده ، در رگرسیون خطی ، می توانید از منحنی های مدل اصطلاحات چند جمله ای در داده های خود استفاده کنید. این مهم است که به خاطر داشته باشید که ما هنوز از رگرسیون خطی برای مدل سازی انحنای به جای رگرسیون غیرخطی استفاده می کنیم. به همین دلیل من به جای روابط غیرخطی به روابط منحنی در این پست مراجعه می کنم. غیرخطی در آمار معنای بسیار تخصصی دارد. برای خواندن در مورد این تمایز ، پست من را بخوانید: تفاوت بین مدلهای رگرسیون خطی و غیرخطی.
این مثال رگرسیون از یک اصطلاح درجه دوم (مربع) برای مدل سازی انحنای در مجموعه داده استفاده می کند. می بینید که مقادیر p از نظر خطی و درجه دوم از نظر آماری معنی دار هستند. اما ، ضرایب به چه معناست؟
نمودار کردن داده ها برای رگرسیون با اصطلاحات چند جمله ای
نمودار کردن داده ها واقعاً به شما کمک می کند تا انحنا را تجسم کنید و مدل رگرسیون را درک کنید.
نمودار نشان می دهد که چگونه تأثیر تنظیم ماشین بر مصرف متوسط انرژی به کجای منحنی رگرسیون بستگی دارد. در محور x، اگر با تنظیم 12 شروع کنید و آن را 1 افزایش دهید، مصرف انرژی باید کاهش یابد. از طرف دیگر، اگر از 25 شروع کنید و تنظیم را 1 افزایش دهید، باید افزایش مصرف انرژی را تجربه کنید. نزدیک به 20 و شما انتظار تغییر زیادی ندارید.
تحلیل رگرسیون که از چندجملهای برای مدلسازی انحنا استفاده میکند، میتواند تفسیر نتایج را پیچیدهتر کند. بر خلاف یک رابطه خطی، اثر متغیر مستقل بر اساس مقدار آن تغییر می کند. نگاه کردن به ضرایب، تصویر را واضح تر نمی کند. در عوض، داده ها را نمودار کنید تا رابطه را به درستی درک کنید. دانش تخصصی منطقه مورد مطالعه نیز می تواند به شما در درک نتایج کمک کند.
ضرایب رگرسیون و روابط بین متغیرها
تجزیه و تحلیل رگرسیون همه چیز در مورد تعیین چگونگی ارتباط تغییرات در متغیرهای مستقل با تغییرات متغیر وابسته است. ضرایب به شما در مورد این تغییرات می گویند و مقادیر p به شما می گویند که آیا این ضرایب تفاوت قابل توجهی با صفر دارند یا خیر.
تمامی افکت های این پست اثرات اصلی بوده اند که رابطه مستقیم بین متغیر مستقل و متغیر وابسته است. با این حال، گاهی اوقات رابطه بین IV و DV بر اساس متغیر دیگری تغییر می کند. این شرایط یک اثر متقابل است. در مورد این اثرات در پست من بیشتر بیاموزید: درک اثرات متقابل در آمار.
در این پست، من اصطلاح ثابت را پوشش ندادم. حتما پست من را در مورد نحوه تفسیر ثابت بخوانید!
آماری که در این پست پوشش میدهم به شما میگوید چگونه معادله رگرسیون را تفسیر کنید، اما به شما نمیگویند که مدل شما چقدر با دادهها مطابقت دارد. برای آن، باید R-squared را نیز ارزیابی کنید.
اگر در حال یادگیری رگرسیون هستید و رویکردی را که من در وبلاگ خود به کار می برم دوست دارید، کتاب راهنمای بصری تحلیل رگرسیون من را بررسی کنید! می توانید آن را در آمازون و سایر خرده فروشان پیدا کنید.
توجه: من نسخه متفاوتی از این پست نوشتم که در جای دیگری ظاهر شد. من آن را به طور کامل برای سایت وبلاگم بازنویسی و به روز کردم.