ตรวจสอบและแก้ไข outlier | Outlier Detection | Easy Statistics EP.26
- Nott Panik Senariddhikrai
- Mar 22
- 2 min read
Updated: 3 days ago

Outlier
ตรวจสอบและแก้ไข outlier | Outlier Detection | Easy Statistics EP.26
.
บทความนี้ จะพูดถึงการตรวจสอบและแก้ไข Outlier เบื้องต้น โดยข้อมูลที่นำเสนอนี้ ถูกทำขึ้นมาเพื่อสอนโดยเฉพาะ ดังนั้น มันจึงเรียกว่า "ง่าย" สำหรับการแก้ไข และผลออกมาดี แต่ในงานจริง คงมีอุปสรรคแน่นอน แต่อย่างน้อยเราก็มีวิธีการแก้ไข เป็นแนวทางตั้งต้นให้เพื่อแก้ไขต่อไปได้ ครับ
.
.
เริ่มต้นเรื่องราวดังนี้ครับ
.
1.ข้อมูลดิบจะมี 4 ตัวแปรหลัก ประกอบด้วย 3 ตัวแปรอิสระ X1 X2 X3 กับ 1 ตัวแปรตาม Y
.

.
.
2.ตรวจสอบ outlier แบบง่ายด้วย Skewness กับ Kurtosis
>Analyze >> Descriptive >> Descriptive
Option >> Skewness, Kurtosis
.

.
3.ดูผล Skewness Kurtosis ควรอยู่ระหว่าง -3 ถึง +3 บางอ้างอิงบอกว่า -2 ถึง +2 แต่ให้เข้มๆ ควรเป็น -1 ถึง +1 ซึ่งผลนี้ จะพบว่า มีหลายตัวแปรที่ ค่า Kurtosis เกิน 3 ไปมากเลย ถือว่ามี outlier
.

.
4.มาหา outlier ด้วยคำสั่ง Explore
>Analyze >> Descriptive >> Explore
เลือกตัวแปรทีละตัว โดยเลือก X3 ก่อน เพราะมีค่า Kutosis สูงสุด
แล้วเลือก Plot >> Normality with test กับ Histogram
.

.
5.ดู outlier จาก Boxplot โดยจะเห็นว่า มี * ปรากฏอยู่ นั่นคือ เคส หรือ บรรทัดที่เป็น outlier
จากผลนี้ ได้แก่ 103 104 105 จำนวน 3 เคสนี้ ที่มีปัญหา แนะนำให้ ตัดออก
.

.
6.จำนวน 3 เคส ที่มีปัญหา ควรตัดออก
.

.
7.เมื่อตัดออกแล้ว รันซ้ำ Explore อีกรอบ จะพบว่า ผลต่างๆ ผ่านแล้ว
ทั้ง Skewness Kurtosis มีค่าเข้าใกล้ 0 และค่า Shapiro Wilk ก็มากกว่า 0.05 แล้ว
.

.
8.ต่อไป ลองทดสอบการหา Outlier จาก Regression โดยตรง โดยพิจารณาจากค่า Mahalanobis Distance
>Analyze >> Regression >> Linear >> Save >> Mahalanobis Distance
.

.
9.เมื่อได้ค่า Maha มาแล้ว ต้องทำการทดสอบ P-value ของ Maha ว่ามีน้อยกว่า 0.001 หรือไม่
หากน้อยกว่า แสดงว่า ตัวนั้น เป็น outlier
ใช้คำสั่ง Transform >> Compute
ตั้งชื่อตัวแปรใหม่เป็น pmaha1 และใส่สูตร 1-CDF.CHISQ(Mah_1,3) โดยหลัง " , " คือจำนวนตัวแปรอิสระ
.

.
10.เรียงลำดับจากน้อย ไป มากของตัวแปร pmaha เพื่อตรวจสอบตัวที่มี pvalue น้อยกว่า 0.001
.

.
11.พบว่า มี 5 เคส ที่เป็นปัญหา outlier จากการตรวจสอบด้วย Mahalanobis Distance ให้ทำการตัดทิ้ง
.

.
12.รัน Regression อีกรอบ ตรวจสอบค่า Durbin Watson และการกระจายของความแปรปรวน
.

.
13.การกระจายตัวของความแปรปรวน
.

.
.
สรุป
บทความนี้ แนะนำการจัดการ outlier 2 แนวทาง คือ 1) แบบรายตัวแปร โดยพิจารณาจากค่า Skewness Kurtosis และตรวจสอบ Boxplot เพื่อดูเคสที่มีปัญหา และ 2) ตรวจสอบโดย Regression ด้วย Mahalanobis Distance และหาค่า p-value ของ Mahalanobis Distance ถ้ามีน้อยกว่า 0.001 แสดงว่า เคสนั้น เป็นเคสที่มีปัญหา outlier
.
ทำการตัดเคสที่เป็น outlier ทิ้ง แล้วทำซ้ำไปเรื่อยๆ จนกว่าจะไม่พบ outlier แล้ว จากนั้น ทำการรันผลต่อไป
.
ต้องการเรียนสถิติ อยากปรึกษาสถิติทั้งเรื่อง Factor Analysis, CFA, SEM หรือเรื่องอื่นๆ สามารถติดต่อสอบถามเข้ามาได้เลย
.

'นึกถึงสถิติ นึกถึงเรา Smart Research Thai'
ร่วมติดตามได้ทุกช่องทาง
follow or subscribe in any channel
.
tel.086-555-5949
line: @SmartResearchThai
Blockdit: SmartResearchThai
Youtube: SmartResearchThai
Facebook: SmartResearchThai
Comments