เนื้อหา
- การถดถอยเชิงเส้น จำกัด อยู่ที่ความสัมพันธ์เชิงเส้น
- การถดถอยเชิงเส้นจะดูเฉพาะค่าเฉลี่ยของตัวแปรที่ขึ้นอยู่กับ
- การถดถอยเชิงเส้นมีความไวต่อค่าผิดปกติ
- ข้อมูลจะต้องเป็นอิสระ
การถดถอยเชิงเส้นเป็นวิธีการทางสถิติสำหรับการตรวจสอบความสัมพันธ์ระหว่างตัวแปรตามซึ่งแสดงเป็น Y, และตัวแปรอิสระหนึ่งตัวหรือมากกว่าแสดงเป็น x. ตัวแปรที่ต้องพึ่งพาต้องเป็นแบบต่อเนื่องซึ่งสามารถรับค่าใด ๆ หรืออย่างน้อยก็ใกล้เคียงต่อเนื่อง ตัวแปรอิสระสามารถเป็นประเภทใดก็ได้ แม้ว่าการถดถอยเชิงเส้นไม่สามารถแสดงสาเหตุได้ด้วยตัวเอง แต่ตัวแปรตามมักจะได้รับผลกระทบจากตัวแปรอิสระ
การถดถอยเชิงเส้น จำกัด อยู่ที่ความสัมพันธ์เชิงเส้น
โดยธรรมชาติแล้วการถดถอยเชิงเส้นจะพิจารณาเฉพาะความสัมพันธ์เชิงเส้นระหว่างตัวแปรตามและตัวแปรอิสระ นั่นคือถือว่ามีความสัมพันธ์แบบเส้นตรงระหว่างกัน บางครั้งสิ่งนี้ไม่ถูกต้อง ตัวอย่างเช่นความสัมพันธ์ระหว่างรายได้และอายุเป็นโค้งเช่นรายได้มีแนวโน้มที่จะเพิ่มขึ้นในช่วงต้นของวัยผู้ใหญ่แผ่ออกไปในวัยผู้ใหญ่ในภายหลังและลดลงหลังจากที่คนออก คุณสามารถบอกได้ว่านี่เป็นปัญหาหรือไม่โดยดูที่การแสดงภาพกราฟิกของความสัมพันธ์
การถดถอยเชิงเส้นจะดูเฉพาะค่าเฉลี่ยของตัวแปรที่ขึ้นอยู่กับ
การถดถอยเชิงเส้นดูที่ความสัมพันธ์ระหว่างค่าเฉลี่ยของตัวแปรตามและตัวแปรอิสระ ตัวอย่างเช่นหากคุณดูที่ความสัมพันธ์ระหว่างน้ำหนักแรกเกิดของทารกและลักษณะของมารดาเช่นอายุการถดถอยเชิงเส้นจะดูที่น้ำหนักเฉลี่ยของทารกที่เกิดจากมารดาที่มีอายุต่างกัน อย่างไรก็ตามบางครั้งคุณต้องดูความสุดขั้วของตัวแปรตามเช่นเด็กทารกมีความเสี่ยงเมื่อน้ำหนักของพวกเขาอยู่ในระดับต่ำดังนั้นคุณอาจต้องการดูสุดขั้วในตัวอย่างนี้
เช่นเดียวกับที่ค่าเฉลี่ยไม่ใช่คำอธิบายที่สมบูรณ์ของตัวแปรเดียวการถดถอยเชิงเส้นไม่ใช่คำอธิบายที่สมบูรณ์ของความสัมพันธ์ระหว่างตัวแปร คุณสามารถจัดการกับปัญหานี้ได้โดยใช้การถดถอยเชิงปริมาณ
การถดถอยเชิงเส้นมีความไวต่อค่าผิดปกติ
Outliers เป็นข้อมูลที่น่าแปลกใจ ค่าผิดปกติสามารถเป็นตัวแปรเดียว (ขึ้นอยู่กับตัวแปรเดียว) หรือตัวแปรหลายตัวแปร หากคุณกำลังมองหาอายุและรายได้ค่าผิดปกติที่ไม่เปลี่ยนแปลงจะเป็นสิ่งที่เหมือนคนที่อายุ 118 ปีหรือเป็นผู้สร้างรายได้ 12 ล้านดอลลาร์เมื่อปีที่แล้ว ค่าเริ่มต้นหลายตัวแปรจะเป็น 18 ปีซึ่งทำเงินได้ 200,000 ดอลลาร์ ในกรณีนี้ทั้งอายุและรายได้ไม่มากนัก แต่มีคนอายุ 18 ปีเพียงไม่กี่คนที่ทำเงินได้มาก
Outliers สามารถมีผลกระทบอย่างมากต่อการถดถอย คุณสามารถจัดการกับปัญหานี้ได้โดยการร้องขอสถิติที่มีอิทธิพลจากซอฟต์แวร์สถิติของคุณ
ข้อมูลจะต้องเป็นอิสระ
การถดถอยเชิงเส้นถือว่าข้อมูลเป็นอิสระ นั่นหมายความว่าคะแนนของวิชาหนึ่ง (เช่นบุคคล) ไม่มีส่วนเกี่ยวข้องกับวิชาอื่น นี่เป็นเรื่องที่สมเหตุสมผล แต่ไม่เสมอไป กรณีทั่วไปสองกรณีที่ไม่สมเหตุสมผลคือการรวมกลุ่มในอวกาศและเวลา
ตัวอย่างคลาสสิกของการจัดกลุ่มในอวกาศคือคะแนนการทดสอบนักเรียนเมื่อคุณมีนักเรียนจากชั้นเรียนเกรดโรงเรียนและเขตการศึกษาต่างๆ นักเรียนในชั้นเรียนเดียวกันมีแนวโน้มที่จะคล้ายกันในหลาย ๆ ทางเช่นพวกเขามักจะมาจากละแวกใกล้เคียงเดียวกันพวกเขามีครูเหมือนกันเป็นต้นดังนั้นพวกเขาจึงไม่ได้เป็นอิสระ
ตัวอย่างของการจัดกลุ่มในเวลาคือการศึกษาใด ๆ ที่คุณวัดวิชาเดียวกันหลายครั้ง ตัวอย่างเช่นในการศึกษาเรื่องอาหารและน้ำหนักคุณอาจวัดแต่ละคนได้หลายครั้ง ข้อมูลเหล่านี้ไม่ได้เป็นอิสระเพราะสิ่งที่คนมีน้ำหนักในโอกาสหนึ่งเกี่ยวข้องกับสิ่งที่เขาหรือเธอมีน้ำหนักในโอกาสอื่น ๆ วิธีหนึ่งในการจัดการกับสิ่งนี้คือโมเดลหลายระดับ