Bootstrapping and Confident Interval

Nott Panik Senariddhikrai
Oct 28, 2022
2 min read

Updated: Feb 19, 2023

บทความนี้ว่าด้วยเรื่อง Bootstrapping และ Confident Interval

Bootstrapping คืออะไร Confident Interval คืออะไร มาทำความเข้าใจในแบบบทความกันครับ

>>สำหรับใครที่ต้องการทำความเข้าใจในแบบ podcast ตามไปฟังใน youtube ได้เลย<<
https://www.youtube.com/watch?v=5aSGrFFgf8M

Outline:

Bootstrapping คืออะไร
Confident Interval คืออะไร
การนำไปใช้อย่างไร และตัวอย่าง
สรุป

1. Bootstrapping คืออะไร

Bootstrapping อธิบายง่ายๆ คือ การที่จำลองการรันข้อมูลที่ตัวเลขที่ตั้งไว้ เพื่อดูค่าว่าถ้ามีข้อมูลจริง จำนวนเท่านี้ ผลจะเป็นอย่างไร ซึ่งค่าที่ได้จะไปสอดคล้องกับ Confident Interval ที่จะกล่าวต่อไป

Bootstrapping จึงถูกนำไปใช้เพื่อทดสอบค่าอิทธิพลหรือค่าต่างๆ เพื่อทำให้ผู้วิจัยเกิดความมั่นใจ ลองนึกภาพตามครับ ว่า ด้วยข้อมูลชุดนี้ (ทิศทางของข้อมูล การตอบคำถามต่าง) ก็จะเป็นเช่นนี้ แล้วถ้าทำการเก็บเพิ่ม สมมติจาก 200 กลุ่มตัวอย่าง เป็น 500 หรือ 1,000 ตัวอย่างล่ะ ผลจะเป็นอย่างไร แต่ผลในที่นี้ ไม่ได้หมายความว่า ถ้าเก็บข้อมูลเพิ่มจะได้ผลตามนี้ เพราะตัวเลขการจำลองนั้น เกิดมาจากผลของข้อมูลชุดปัจจุบัน

ลองสมมติต่อว่า ถ้าเราเก็บข้อมูลเพิ่มเป็น 500 ล่ะ ผลของการรัน Bootstrapping 500 samples จากผลเมื่อกี้ จะเท่ากันหรือไม่ คำตอบคือ "ไม่เท่า" และในขณะเดียวกัน หากใช้ข้อมูลชุด 200 รัน Bootstrapping 500 ซ้ำกัน สัก 5 รอบ ผลที่ได้จาก 5 รอบ ก็จะไม่เหมือนกันอยู่ดี แต่! จะมีความใกล้เคียงกัน ซึ่งความใกล้เคียงที่ว่านี้ จะไปปรากฏที่ Confident Interval แต่ค่าอิทธิพลต่างๆ ยังเหมือนเดิม

ตัวอย่างเช่น ข้อมูลจริง 200 รันแล้วได้ผลค่าอิทธิพลจาก X ที่มีต่อ Y เท่ากับ .234 เมื่อลองทดสอบรัน Bootstrapping ที่ 500 samples ผลของค่าอิทธิพลก็ยังได้ .234 แต่จะได้ค่า CI เพิ่มขึ้นมา เช่น มีค่า CI-Lower = .123 , CI-Upper = .345 หลักการก็คือ .234 คือค่าเฉลี่ยที่ทำการรันซ้ำ 500 ครั้งนั่นเอง โดยมีค่าต่ำสุดคือ .123 และมีค่าสูงสุดคือ .345 เป็นต้น ทีนี้ เราดูกันต่อในเรื่อง CI กัน

2. Confident Interval คืออะไร

Confident Interval เรียกย่อๆ ว่า CI ภาษาไทยใช้คำว่า "ช่วงความเชื่อมั่น" คำว่าช่วงให้ความหมายว่า มีค่าจากจุดนึงไปถึงอีกจุดนึง ก็คือค่าต่ำสุด ไปถึง ค่าสูงสุด ของผลที่ถูกรันซ้ำจำนวน xx ครั้ง

จากตัวอย่างข้างต้น รัน Bootstrapping จำนวน 500 samples ก็หมายความว่า ตั้งแต่การรันที่ 1 จนถึงการรันครั้งที่ 500 จะได้ผลลัพธ์ (ค่าอิทธิพล) ออกมา 500 ครั้ง ซึ่งก็จะมีค่าต่ำสุด (1 ใน 500 ครั้งตรงนั้น) และก็จะมีค่าสูงสุด (1 ใน 500 ครั้งตรงนั้น) แล้วก็นำมาเฉลี่ย ก็จะได้เป็นค่าอิทธิพลที่ปรากฏ

ดังนั้น การจะออกค่า CI ได้ก็ต้องทำการรัน Bootstrapping ก่อน หรือถ้าเทียบเคียงจากการรัน Regression แล้วเราเลือกแสดงผล CI ใน SPSS ก็จะมีตารางเพิ่มขึ้นมาว่า มีค่า CI95% เพิ่มขึ้นมา จะใช้คำว่า Lower Limit (LL) กับ Upper Limit (UL) ก็เปรียบเสมือนค่าต่ำสุด กับ ค่าสูงสุด แล้วก็พิจารณาต่อว่า ค่าที่ได้นั้นให้ผลอย่างไร แปลความอย่างไร ต่อไป

3. การนำไปใช้อย่างไรและตัวอย่าง

จากความหมายที่กล่าวข้างต้นแล้ว ทีนี้จะมาเล่าต่อในหลักของการนำไปใช้ หัวข้อนี้จึงเน้นอธิบายถึงการอ่านผล และการแปลความเป็นหลัก ลองดูภาพตัวอย่างประกอบ

จากภาพตัวอย่าง เป็นผลจากการทดสอบ Mediation Analysis ใน ProcessMacro ลองดูตรงบรรทัด IV ในหัวข้อ Model ค่าที่เราจะดูก็คือ Coefficient, p, LLCI, ULCI

coefficient คือ ค่าอิทธิพลในเส้นทางนั้นๆ

p คือ p-value คือค่านัยสำคัญ

LLCI คือ Lower Limit CI เป็นค่าต่ำสุดของช่วงความเชื่อมั่น

ULCI คือ Upper Limit CI เป็นค่าสูงสุดของช่วงความเชื่อมั่น

ผลจากตัวอย่าง มาดูกัน

coefficient=.163 , p=.000 , LLCI = .081 , ULCI=.246

หมายความว่า ค่าอิทธิพลจาก IV ไปสู่ DV มีค่าเท่ากับ .163 อย่างมีนัยสำคัญทางสถิติที่ระดับ .01 (p=.000) โดยมีค่าช่วงความเชื่อมั่นตั้งแต่ .081 ถึง .246 เราจะเขียนเป็น [.081,.246]

ทีนี้ ถ้าตรงผลลัพธ์ไหนมีค่า p มาให้ ก็จะง่าย เพราะเราจะถนัดในการแปลความจาก p-value กันอยู่แล้ว แต่ถ้าเป็นผลส่วนอื่นที่ไม่มีค่า p มาช่วยกำกับล่ะ จะอ่านอย่างไร ลองดูผลจากตัวอย่างนี้

จากภาพตัวอย่าง ลองดูในหัวข้อ Indirect Effect ซึ่งหัวข้อนี้เป็นผลการทดสอบอิทธิพลทางอ้อม ก็คือ อิทธิพลจาก IV ไปสู่ DV โดยผ่าน Med ได้ค่าอิทธิพลเท่ากับ .050 แต่จะเห็นว่าไม่มีค่า p มาให้ ทำให้เราไม่รู้ว่า แล้ว .050 เนี่ยมันมีนัยสำคัญหรือไม่

ดังนั้น สิ่งที่เราจะพิจารณาได้ก็คือดูจากค่า CI ซึ่งในที่นี้เขียนเป็น BootLLCI และ BootULCI มีค่าตั้งแต่ .024 ถึง .077 แล้วหมายความว่าอย่างไร

วิธีการอ่านค่าของ CI ก็คือ ให้ดูว่าค่าที่ได้จากช่วงต่ำสุด (LL) ไปถึงช่วงสูงสุด (UL) ผ่าน 0 หรือ (หรือมักเรียกกันว่า "คร่อม 0") จากค่านี้ จะเห็นว่าค่าต่ำสุดเริ่มต้นที่ (+).024 ไปถึง (+).077 ซึ่งไม่ผ่าน 0.000 (ไม่งงนะ) จึงถือว่ามีนัยสำคัญทางสถิติ ก็คือซิก มีอิทธิพล (แล้วแต่จะเรียกได้เลย)

แต่ถ้าสมมติว่า ผลออกมาเป็น LL=-.123 , UL=+.123 แบบนี้จะถือว่า ผ่าน 0 (คร่อม 0) ก็คือไม่มีนัยสำคัญ ไม่ซิกนั่นเอง

4.สรุป

โดยสรุปการรัน Bootstrapping จะทำเพื่อสร้างการทดสอบซ้ำ และอีกกรณีคือเพื่อให้ออกค่า CI เพื่อตัดสินใจว่ามีนัยสำคัญหรือไม่ ขอเล่ากรณีศึกษาเพิ่มเติมดังนี้ คือ การทดสอบอิทธิพลทางอ้อมมักจะไม่มีค่า p-value ออกมาให้ ดังนั้น จึงมีวิธีอยู่บางวิธีที่ใช้ในการทดสอบเพื่อหาคำตอบว่า แล้วมีนัยสำคัญหรือไม่ มักใช้กันอยู่ 2 วิธี คือ Sobel test กับ Bootstrapping โดยวิธี sobel นั้นก็ต้องไปเข้าสูตรคำนวณต่างหาก หรือต้องเอาค่าอิทธิพลไปคำนวณผ่าน online calculator แต่การทำด้วย Bootstrapping นั้นง่ายกว่า เนื่องจากแค่คลิกเลือกก็ออกผลมาให้แล้ว แล้วเราก็ไปอ่านผลจากตัวเลขของ CI แทน ง่ายๆ คือ ถ้าค่าจาก LL ไปถึง UL ไม่ผ่าน 0 ก็แสดงว่ามีนัยสำคัญ และกรณีเดียวกัน หากค่า LL เริ่มต้นที่ - แล้วไปถึง UL เป็น - ก็ยังถือว่าไม่ผ่าน 0 ก็จะถือว่าซิกเช่นเดียวกัน

ต้องการผู้ช่วยในการให้คำแนะนำในการวิเคราะห์ ขอเสนอบริการ "Stat Coaching" ที่จะช่วยเป็นที่ปรึกษาและสอนการใช้โปรแกรม รายละเอียดเพิ่มเติม