top of page

ตรวจสอบและแก้ไข outlier | Outlier Detection | Easy Statistics EP.26

Updated: 3 days ago


ตรวจสอบและแก้ไข outlier | Outlier Detection | Easy Statistics EP.26
ตรวจสอบและแก้ไข outlier | Outlier Detection | Easy Statistics EP.26

Outlier

ตรวจสอบและแก้ไข outlier | Outlier Detection | Easy Statistics EP.26

.

บทความนี้ จะพูดถึงการตรวจสอบและแก้ไข Outlier เบื้องต้น โดยข้อมูลที่นำเสนอนี้ ถูกทำขึ้นมาเพื่อสอนโดยเฉพาะ ดังนั้น มันจึงเรียกว่า "ง่าย" สำหรับการแก้ไข และผลออกมาดี แต่ในงานจริง คงมีอุปสรรคแน่นอน แต่อย่างน้อยเราก็มีวิธีการแก้ไข เป็นแนวทางตั้งต้นให้เพื่อแก้ไขต่อไปได้ ครับ

.

.




เริ่มต้นเรื่องราวดังนี้ครับ

.

1.ข้อมูลดิบจะมี 4 ตัวแปรหลัก ประกอบด้วย 3 ตัวแปรอิสระ X1 X2 X3 กับ 1 ตัวแปรตาม Y

.


Outlier 01
Outlier01

.

.

2.ตรวจสอบ outlier แบบง่ายด้วย Skewness กับ Kurtosis

>Analyze >> Descriptive >> Descriptive

Option >> Skewness, Kurtosis

.


Outlier 02
Outlier02

.

3.ดูผล Skewness Kurtosis ควรอยู่ระหว่าง -3 ถึง +3 บางอ้างอิงบอกว่า -2 ถึง +2 แต่ให้เข้มๆ ควรเป็น -1 ถึง +1 ซึ่งผลนี้ จะพบว่า มีหลายตัวแปรที่ ค่า Kurtosis เกิน 3 ไปมากเลย ถือว่ามี outlier

.


Outlier 03 Skewness Kurtosis
Outlier 03 Skewness Kurtosis

.

4.มาหา outlier ด้วยคำสั่ง Explore

>Analyze >> Descriptive >> Explore

เลือกตัวแปรทีละตัว โดยเลือก X3 ก่อน เพราะมีค่า Kutosis สูงสุด

แล้วเลือก Plot >> Normality with test กับ Histogram

.


Outlier 04 Explore
Outlier 04 Explore

.

5.ดู outlier จาก Boxplot โดยจะเห็นว่า มี * ปรากฏอยู่ นั่นคือ เคส หรือ บรรทัดที่เป็น outlier

จากผลนี้ ได้แก่ 103 104 105 จำนวน 3 เคสนี้ ที่มีปัญหา แนะนำให้ ตัดออก

.


Outlier 05 Boxplot
Outlier 05 Boxplot

.

6.จำนวน 3 เคส ที่มีปัญหา ควรตัดออก

.


Outlier 06
Outlier 06

.

7.เมื่อตัดออกแล้ว รันซ้ำ Explore อีกรอบ จะพบว่า ผลต่างๆ ผ่านแล้ว

ทั้ง Skewness Kurtosis มีค่าเข้าใกล้ 0 และค่า Shapiro Wilk ก็มากกว่า 0.05 แล้ว

.


Outlier 07 Shapiro Wilk
Outlier 07 Shapiro Wilk

.

8.ต่อไป ลองทดสอบการหา Outlier จาก Regression โดยตรง โดยพิจารณาจากค่า Mahalanobis Distance

>Analyze >> Regression >> Linear >> Save >> Mahalanobis Distance

.


Outlier 08 Mahalanobis Distance
Outlier 08 Mahalanobis Distance

.

9.เมื่อได้ค่า Maha มาแล้ว ต้องทำการทดสอบ P-value ของ Maha ว่ามีน้อยกว่า 0.001 หรือไม่

หากน้อยกว่า แสดงว่า ตัวนั้น เป็น outlier

ใช้คำสั่ง Transform >> Compute

ตั้งชื่อตัวแปรใหม่เป็น pmaha1 และใส่สูตร 1-CDF.CHISQ(Mah_1,3) โดยหลัง " , " คือจำนวนตัวแปรอิสระ

.


Outlier 09 p-value mahalanobis distance
Outlier 09 p-value mahalanobis distance

.

10.เรียงลำดับจากน้อย ไป มากของตัวแปร pmaha เพื่อตรวจสอบตัวที่มี pvalue น้อยกว่า 0.001

.


Outlier 10 pmaha
Outlier 10 pmaha

.

11.พบว่า มี 5 เคส ที่เป็นปัญหา outlier จากการตรวจสอบด้วย Mahalanobis Distance ให้ทำการตัดทิ้ง

.


Outlier 11 pmaha
Outlier 11 pmaha

.

12.รัน Regression อีกรอบ ตรวจสอบค่า Durbin Watson และการกระจายของความแปรปรวน

.


Outlier 12 Durbin Watson
Outlier 12 Durbin Watson

.

13.การกระจายตัวของความแปรปรวน

.


Outlier 13 Residual scatter plot
Outlier 13 Residual scatter plot

.

.

สรุป

บทความนี้ แนะนำการจัดการ outlier 2 แนวทาง คือ 1) แบบรายตัวแปร โดยพิจารณาจากค่า Skewness Kurtosis และตรวจสอบ Boxplot เพื่อดูเคสที่มีปัญหา และ 2) ตรวจสอบโดย Regression ด้วย Mahalanobis Distance และหาค่า p-value ของ Mahalanobis Distance ถ้ามีน้อยกว่า 0.001 แสดงว่า เคสนั้น เป็นเคสที่มีปัญหา outlier

.

ทำการตัดเคสที่เป็น outlier ทิ้ง แล้วทำซ้ำไปเรื่อยๆ จนกว่าจะไม่พบ outlier แล้ว จากนั้น ทำการรันผลต่อไป





.





ต้องการเรียนสถิติ อยากปรึกษาสถิติทั้งเรื่อง Factor Analysis, CFA, SEM หรือเรื่องอื่นๆ สามารถติดต่อสอบถามเข้ามาได้เลย

.

Training and Coaching package
Training and Coaching package

'นึกถึงสถิติ นึกถึงเรา Smart Research Thai'


ร่วมติดตามได้ทุกช่องทาง

follow or subscribe in any channel

.

tel.086-555-5949

line: @SmartResearchThai

Blockdit: SmartResearchThai

Youtube: SmartResearchThai

Facebook: SmartResearchThai




Comments


bottom of page