top of page

4 เทพแห่งการทดสอบ outlier

Updated: Feb 19, 2023

"outlier คืออีกเรื่องที่น่าปวดหัวก่อนจะวิเคราะห์สถิติ แล้วมีแนวทางอะไรบ้างนะ ที่พอจะช่วยจัดการได้ มาดูกัน"

พยายามศึกษาเกี่ยวกับ outlier (ค่าสุดโต่ง หรือ ค่าผิดปกติ) มาตลอด จนคิดว่าถึงเวลาล่ะที่ต้องเอามาเขียนเล่าสู่กันฟังซะหน่อย แต่สำหรับในบทความนี้ จะขอเขียนถึงการทดสอบ outlier จำนวน 4 ตัวที่เป็นที่นิยมกันครับ 4 ตัวที่ว่านี้ประกอบด้วย 1) Leverage 2) Cook's distance 3) Mahalanobis และ 4) DFFits ในบทความนี้จะนำเสนอแบบที่เข้าใจง่ายที่สุด โดยไม่นำเสนอสูตรการคำนวณ แต่จะมีการนำเสนอสูตรในการพิจารณาเกณฑ์ตัดสินว่าข้อมูลใดเป็น outlier หรือไม่ เนื่องจากรายละเอียดของสูตรสามารถค้นหาเพิ่มเติมในบทความวิชาการต่างๆ ได้เลย


1) Leverage (h)

  • เป็นสถิติวัด outlier ในกลุ่ม distance คือดูเรื่องระยะห่างของข้อมูล

  • โดยที่ตัว leverage นี้ พิจารณาจากเกณฑ์

h > 2(k+1)/n

  • โดยที่ k คือจำนวนตัวแปรพยากรณ์ (predictor) และ n คือจำนวนเคส

  • การพิจารณาคือถ้าค่า leverage (h) นี้ มีค่ามากกว่าที่คำนวณจากสูตรการพิจารณาก็จะนับว่าเคสนั้นเป็นเคสที่เป็น outlier

  • ref: Rousseeuw and Leroy. 2003, p220 อ้างถึงใน [1]


2) Cook's distance (D)

  • เป็นสถิติวัด outlier ในกลุ่ม distance คือดูเรื่องระยะห่างของข้อมูล

  • โดยที่ตัว Cook's นี้ พิจารณาจากเกณฑ์

D > 4/n

  • โดยที่ n คือจำนวนเคส

  • การพิจารณาคือถ้าค่า Cook's (D) นี้ มีค่ามากกว่าที่คำนวณจากสูตรการพิจารณาก็จะนับว่าเคสนั้นเป็นเคสที่เป็น outlier

  • ref: Rousseeuw and Leroy. 2003, p220 อ้างถึงใน [1]


3) Mahalanobis (MD)

  • เป็นสถิติวัด outlier ในกลุ่ม distance คือดูเรื่องระยะห่างของข้อมูล

  • แต่ที่พิเศษกว่าตัวอื่นคือ ตัว mahalanobis นี้ มีหลายแนวทางในการพิจารณา เช่น นำตัวแปร ID ใส่ในช่อง dependent แล้วนำทุกตัวแปรที่สนใจ ใส่ใน independent

  • แต่สำหรับแนวทางที่จะนำเสนอในบทความนี้ คือ นำค่า MD ไปยกกำลังสอง เขียนเป็น D2(square)(D กำลังสอง) แล้วเทียบเคียงกับค่า Chi-square แล้วจากนั้นทำการ plot graph หรือพิจารณาเทียบเป็นค่า p-value

  • โดยที่ตัว Mahalanobis นี้ พิจารณาจากเกณฑ์

p < 0.001

  • โดยที่ หลังจากออกค่า Mahalanobis แล้ว นำค่าที่ได้ไปคำนวณค่า p-value จากตาราง chi-square distrubiton แล้วเทียบค่า p-value

  • โดยพิจารณาว่า ถ้ามีค่า p น้อยกว่า 0.001 ก็จะนับว่าเคสนั้นเป็น outlier

  • ref: [2] [3]

  • แนะนำลิงก์อ้างอิงเพิ่มเติม https://en.wikipedia.org/wiki/Prasanta_Chandra_Mahalanobis

4) DFFits

  • เป็นสถิติวัด outlier ในกลุ่ม influence คือดูตามผลของการพยากรณ์ ว่า หากผลการพยากรณ์เป็นเช่นนี้ แล้วมีเคสใดที่สร้างผลค่าผิดปกติบ้าง

  • โดยที่ตัว DFFits นี้ พิจารณาจากเกณฑ์

DFFits > (square root (k+1)/n)

  • ต้องขอเขียนเป็นข้อความ square root นะครับ เนื่องจากใน web editor นี้ไม่มีการแทรกสมการ

  • โดยที่ k คือจำนวนตัวแปรพยากรณ์ (predictor) และ n คือจำนวนเคส

  • การพิจารณาคือถ้าค่า DFFits นี้ มีค่ามากกว่าที่คำนวณจากสูตรการพิจารณาก็จะนับว่าเคสนั้นเป็นเคสที่เป็น outlier

  • ref: Rousseeuw and Leroy. 2003, p220 อ้างถึงใน [1]

 

ต่อไปจะแนะนำคำสั่งใน spss แบบรวดเร็วให้นะครับ

  • ขั้นที่ 1 รันคำสั่ง regression ใน spss ปกติ

  • ขั้นที่ 2 ใน option เลือก save แล้วเลือกออกค่า Mahalanobis, Cook's, Leverage, DfFits

  • ขั้นที่ 3 สำหรับตัวเลือก Cook's, Leverage, DfFits สามารถพิจารณาตามเกณฑ์ได้เลย ส่วนค่า Mahalanobis ให้ทำการ compute สร้างตัวแปรใหม่ อาจจะตั้งชื่อว่า "p" แล้วในช่อง Expression ให้ใส่สูตร 1-CDF.CHISQ(Mah_1,2) โดยที่ mah_1 คือชื่อตัวแปร mahalanobis ที่ได้จากการออกค่าในคำสั่งย่อย save แล้วเลข 2 มาจากจำนวนตัวแปรพยากรณ์ ซึ่งจากในตัวอย่างที่แนะนำนี้คือมีตัวแปรพยากรณ์ (อิสระ) 2 ตัว

  • ขั้นที่ 4 เมื่อได้ค่า p ที่ได้จากการคำนวณ mah แล้ว ให้เลือกแสดงทศนิยม 3-4 จุด แล้วเลือกจากน้อยไปมาก เมื่อดูว่าเคสไหนที่มีค่า p น้อยกว่า 0.001 หรือไม่ ถ้ามีก็พิจารณาได้ว่าเคสนั้นเป็น outlier

จากรูปนำเสนอตัวอย่างผลของ Mahalanobis ซึ่งพบว่า ค่า p ที่น้อยกว่า 0.001 ไม่มี แสดงว่าข้อมูลชุดนี้ไม่มีค่า outlier สามารถทำการวิเคราะห์ต่อได้

 

ref:

[1] วนิดา พงษ์ศักดิ์และแพรวนภา เหมือนสมัย. 2017. ประสิทธิภาพของตัวสถิติที่ใช้ในการตรวจสอบค่าผิดปกติในการถดถอยเส้นพหุคูณ. วารสารวิทยาศาสตร์บูรพา ปีที่ 22 การประชุมวิชาการระดับชาติ "วิทยาศาสตร์วิจัย ครั้งที่ 9"


[2] Hamid Ghorbani. 2019. Mahalanobis Distance and Its Application for Detecting Multivariate Outliers. Ser. Math. Inform. Vol.34 No.3 p.583-595.


[3] Identifying Multivariate Outliers in SPSS. Retrieved from https://www.statisticssolutions.com/identifying-multivariate-outliers-in-spss/

 

มาพูดคุยกันได้ตลอดนะครับในทุกช่องทาง ทั้ง Facebook, Line, และ Youtube channel ที่กำลังจะมีเนื้อหาเพิ่มเติมในอนาคต






💝ร่วมติดตามได้ทุกช่องทาง

💝follow or subscribe in any channel

.

📳tel.086-555-5949

🆔️line: @SmartResearchThai

Blockdit: SmartResearchThai

Youtube: SmartResearchThai

Facebook: SmartResearchThai

#ปรึกษาสถิติ #สอนใช้โปรแกรมสถิติ #แก้ปัญหาสถิติ #คอร์สสถิติ #เรียนสถิติ

#StatisticAssistant #SmartResearchThai

6,015 views0 comments

Recent Posts

See All

Comments


bottom of page