4 เทพแห่งการทดสอบ outlier
- Nott Panik Senariddhikrai

- Jul 6, 2020
- 2 min read
Updated: Feb 19, 2023
"outlier คืออีกเรื่องที่น่าปวดหัวก่อนจะวิเคราะห์สถิติ แล้วมีแนวทางอะไรบ้างนะ ที่พอจะช่วยจัดการได้ มาดูกัน"
พยายามศึกษาเกี่ยวกับ outlier (ค่าสุดโต่ง หรือ ค่าผิดปกติ) มาตลอด จนคิดว่าถึงเวลาล่ะที่ต้องเอามาเขียนเล่าสู่กันฟังซะหน่อย แต่สำหรับในบทความนี้ จะขอเขียนถึงการทดสอบ outlier จำนวน 4 ตัวที่เป็นที่นิยมกันครับ 4 ตัวที่ว่านี้ประกอบด้วย 1) Leverage 2) Cook's distance 3) Mahalanobis และ 4) DFFits ในบทความนี้จะนำเสนอแบบที่เข้าใจง่ายที่สุด โดยไม่นำเสนอสูตรการคำนวณ แต่จะมีการนำเสนอสูตรในการพิจารณาเกณฑ์ตัดสินว่าข้อมูลใดเป็น outlier หรือไม่ เนื่องจากรายละเอียดของสูตรสามารถค้นหาเพิ่มเติมในบทความวิชาการต่างๆ ได้เลย
1) Leverage (h)
เป็นสถิติวัด outlier ในกลุ่ม distance คือดูเรื่องระยะห่างของข้อมูล
โดยที่ตัว leverage นี้ พิจารณาจากเกณฑ์
h > 2(k+1)/n
โดยที่ k คือจำนวนตัวแปรพยากรณ์ (predictor) และ n คือจำนวนเคส
การพิจารณาคือถ้าค่า leverage (h) นี้ มีค่ามากกว่าที่คำนวณจากสูตรการพิจารณาก็จะนับว่าเคสนั้นเป็นเคสที่เป็น outlier
ref: Rousseeuw and Leroy. 2003, p220 อ้างถึงใน [1]
2) Cook's distance (D)
เป็นสถิติวัด outlier ในกลุ่ม distance คือดูเรื่องระยะห่างของข้อมูล
โดยที่ตัว Cook's นี้ พิจารณาจากเกณฑ์
D > 4/n
โดยที่ n คือจำนวนเคส
การพิจารณาคือถ้าค่า Cook's (D) นี้ มีค่ามากกว่าที่คำนวณจากสูตรการพิจารณาก็จะนับว่าเคสนั้นเป็นเคสที่เป็น outlier
ref: Rousseeuw and Leroy. 2003, p220 อ้างถึงใน [1]
3) Mahalanobis (MD)
เป็นสถิติวัด outlier ในกลุ่ม distance คือดูเรื่องระยะห่างของข้อมูล
แต่ที่พิเศษกว่าตัวอื่นคือ ตัว mahalanobis นี้ มีหลายแนวทางในการพิจารณา เช่น นำตัวแปร ID ใส่ในช่อง dependent แล้วนำทุกตัวแปรที่สนใจ ใส่ใน independent
แต่สำหรับแนวทางที่จะนำเสนอในบทความนี้ คือ นำค่า MD ไปยกกำลังสอง เขียนเป็น D2(square)(D กำลังสอง) แล้วเทียบเคียงกับค่า Chi-square แล้วจากนั้นทำการ plot graph หรือพิจารณาเทียบเป็นค่า p-value
โดยที่ตัว Mahalanobis นี้ พิจารณาจากเกณฑ์
p < 0.001
โดยที่ หลังจากออกค่า Mahalanobis แล้ว นำค่าที่ได้ไปคำนวณค่า p-value จากตาราง chi-square distrubiton แล้วเทียบค่า p-value
โดยพิจารณาว่า ถ้ามีค่า p น้อยกว่า 0.001 ก็จะนับว่าเคสนั้นเป็น outlier
ref: [2] [3]
แนะนำลิงก์อ้างอิงเพิ่มเติม https://en.wikipedia.org/wiki/Prasanta_Chandra_Mahalanobis
4) DFFits
เป็นสถิติวัด outlier ในกลุ่ม influence คือดูตามผลของการพยากรณ์ ว่า หากผลการพยากรณ์เป็นเช่นนี้ แล้วมีเคสใดที่สร้างผลค่าผิดปกติบ้าง
โดยที่ตัว DFFits นี้ พิจารณาจากเกณฑ์
DFFits > (square root (k+1)/n)
ต้องขอเขียนเป็นข้อความ square root นะครับ เนื่องจากใน web editor นี้ไม่มีการแทรกสมการ
โดยที่ k คือจำนวนตัวแปรพยากรณ์ (predictor) และ n คือจำนวนเคส
การพิจารณาคือถ้าค่า DFFits นี้ มีค่ามากกว่าที่คำนวณจากสูตรการพิจารณาก็จะนับว่าเคสนั้นเป็นเคสที่เป็น outlier
ref: Rousseeuw and Leroy. 2003, p220 อ้างถึงใน [1]
ต่อไปจะแนะนำคำสั่งใน spss แบบรวดเร็วให้นะครับ
ขั้นที่ 1 รันคำสั่ง regression ใน spss ปกติ
ขั้นที่ 2 ใน option เลือก save แล้วเลือกออกค่า Mahalanobis, Cook's, Leverage, DfFits
ขั้นที่ 3 สำหรับตัวเลือก Cook's, Leverage, DfFits สามารถพิจารณาตามเกณฑ์ได้เลย ส่วนค่า Mahalanobis ให้ทำการ compute สร้างตัวแปรใหม่ อาจจะตั้งชื่อว่า "p" แล้วในช่อง Expression ให้ใส่สูตร 1-CDF.CHISQ(Mah_1,2) โดยที่ mah_1 คือชื่อตัวแปร mahalanobis ที่ได้จากการออกค่าในคำสั่งย่อย save แล้วเลข 2 มาจากจำนวนตัวแปรพยากรณ์ ซึ่งจากในตัวอย่างที่แนะนำนี้คือมีตัวแปรพยากรณ์ (อิสระ) 2 ตัว
ขั้นที่ 4 เมื่อได้ค่า p ที่ได้จากการคำนวณ mah แล้ว ให้เลือกแสดงทศนิยม 3-4 จุด แล้วเลือกจากน้อยไปมาก เมื่อดูว่าเคสไหนที่มีค่า p น้อยกว่า 0.001 หรือไม่ ถ้ามีก็พิจารณาได้ว่าเคสนั้นเป็น outlier

จากรูปนำเสนอตัวอย่างผลของ Mahalanobis ซึ่งพบว่า ค่า p ที่น้อยกว่า 0.001 ไม่มี แสดงว่าข้อมูลชุดนี้ไม่มีค่า outlier สามารถทำการวิเคราะห์ต่อได้
ref:
[1] วนิดา พงษ์ศักดิ์และแพรวนภา เหมือนสมัย. 2017. ประสิทธิภาพของตัวสถิติที่ใช้ในการตรวจสอบค่าผิดปกติในการถดถอยเส้นพหุคูณ. วารสารวิทยาศาสตร์บูรพา ปีที่ 22 การประชุมวิชาการระดับชาติ "วิทยาศาสตร์วิจัย ครั้งที่ 9"
[2] Hamid Ghorbani. 2019. Mahalanobis Distance and Its Application for Detecting Multivariate Outliers. Ser. Math. Inform. Vol.34 No.3 p.583-595.
[3] Identifying Multivariate Outliers in SPSS. Retrieved from https://www.statisticssolutions.com/identifying-multivariate-outliers-in-spss/
มาพูดคุยกันได้ตลอดนะครับในทุกช่องทาง ทั้ง Facebook, Line, และ Youtube channel ที่กำลังจะมีเนื้อหาเพิ่มเติมในอนาคต
💝ร่วมติดตามได้ทุกช่องทาง
💝follow or subscribe in any channel
.
📳tel.086-555-5949
🆔️line: @SmartResearchThai
💌email: contact@SmartResearchThai.com
Blockdit: SmartResearchThai
Youtube: SmartResearchThai
Facebook: SmartResearchThai
#Regression #Linear #SPSS #Outlier #MultivariateNormality
#StatisticAssistant #SmartResearchThai





![[How to] easy scatter diagram](https://static.wixstatic.com/media/241151_d3f68e5bad8a44f68c20cbcc18722022~mv2.png/v1/fill/w_757,h_751,al_c,q_90,enc_avif,quality_auto/241151_d3f68e5bad8a44f68c20cbcc18722022~mv2.png)
link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link link