การแจกแจง (ไม่) ปกติ

A A
Dec 16, 2021
Dec 16, 2021
A A

        “ข้อมูลที่พบในธรรมชาติหลายๆ อย่าง กระจายตัวแบบการแจกแจงปกติ (normal distribution)”

        ผมคงเหมือนกับคนอื่นๆ ที่ได้ยินประโยคข้างบนมาจากไหนสักแห่ง อาจจะเป็นห้องเรียน หนังสือบางเล่ม หรือ เพื่อนที่ทำงาน ประโยคที่ทำให้ข้องใจมามากกว่าสิบปีว่า จริงเหรอ และถ้าจริง ทำไมถึงต้องเป็นแบบนั้น ใครเป็นคนบอก

ถึงเวลาต้องสะสางปัญหาคาใจนี้ซะที
        เราจะดูที่มาของการแจกแจงรูประฆังคว่ำ ที่แสนพิเศษตัวนี้กัน ว่าจะปกติจริงไหม จะได้เอาไปใช้งานได้ดียิ่งขึ้น ยิ่งยุคนี้เป็นยุคของการวิเคราะห์ข้อมูลด้วย หวังว่าจะเป็นประโยชน์กับทุกคนนะครับ

[ เริ่มจากการพนัน ]
        สมมติว่าเรามีเหรียญมาตรฐาน ที่พอทอยแล้วมีโอกาสออกหัว หรือก้อยเท่าๆ กัน คุณคิดว่า ถ้าเราทอยเหรียญ 10 ครั้ง จะออกหัวกี่ครั้ง       

        ใครๆ ก็ตอบได้ว่า น่าจะมีโอกาสออกหัว 5 ครั้ง มากที่สุด แต่จะออก 4 หรือ 6 ครั้ง ก็ไม่ผิดปกติใช่ไหมครับ เพียงแต่จะมีโอกาสน้อยกว่าเท่านั้นเอง จะออกหัว 3 หรือ 7 ครั้งก็ยังได้ แต่โอกาสก็ยิ่งน้อยลงไปอีก หรือ จริงๆ จะไม่ออกหัวเลย หรือออกทั้งหัว 10 ครั้ง ก็ยังเป็นไปได้ แค่มีโอกาสน้อยสุดๆ

        ถ้าเราลองวาดกราฟ โดยให้แกนนอนเป็นจำนวนหัวที่ออก และให้แกนตั้งเป็นโอกาสที่จะได้จำนวนหัวนั้นๆ เราก็จะได้รูประฆังคว่ำแบบหยาบๆ

        ในปี 1733 อับราฮัม เดอ มัวฟ์ (Abraham de Moivre) ก็สังเกตเห็นรูประฆังนี้เหมือนกัน และก็รู้ต่อด้วยว่า ถ้าเพิ่มจำนวนการทอยให้มากขึ้น ระฆังที่ได้ก็จะดูเรียบลื่นขึ้นด้วย

        ปัญหาของเขา คือ พอจำนวนการทอยยิ่งเยอะ การคำนวณก็จะยิ่งยุ่งยาก เขาต้องการประหยัดเวลา เลยคิดสูตรประมาณรูประฆังขึ้นมาซะเลย

        เขาไม่รู้ตัวหรอกว่า ได้ค้นพบสิ่งที่ยิ่งใหญ่เข้าให้แล้ว

[ เกาส์ต้องการวาดวงโคจรดาวซีรีส ] 
        1 มกราคม 1801 จูเซปเป ปีอัซซี (Giuseppe Piazzi) นักดาราศาสตร์ชาวอิตาลีค้นพบ ซีรีส (Ceres) ดาวเคราะห์แคระที่โคจรอยู่ระหว่างดาวอังคาร กับดาวพฤหัส

        หลังจากที่ติดตามซีรีสมาได้แค่ 42 วัน และเก็บตำแหน่งวงโคจรได้ 19 ตำแหน่ง (น้อยกว่า 1% ของวงโคจรทั้งหมด) ซีรีสก็หลบหายไปหลังดวงอาทิตย์ กว่าจะปรากฏตัวอีกที ก็คาดว่าอีกเกือบปี

        นั่นก็ทำให้เหล่านักดาราศาสตร์แข่งกันทำนายว่า ซีรีสจะไปโผล่อีกทีตรงไหนของท้องฟ้า และ คาร์ล ฟรีดริช เกาส์ (Carl Friedrich Gauss) เจ้าชายแห่งคณิตศาสตร์ ก็เป็นหนึ่งในนั้น

        เพื่อที่จะระบุตำแหน่งซีรีส เกาส์จะต้องหาค่าพารามิเตอร์ 6 ตัว มาใส่สูตรไม่เป็นเส้นตรง ตามกฎการเคลื่อนที่ของดาวเคราะห์ของเคปเลอร์ แต่เขามีข้อมูลแค่ 19 ตัว และข้อมูลแต่ละตัวก็มีความคลาดเคลื่อนปนอยู่

Abraham de Moivre

เกาส์ตั้งสมมติฐาน 3 อย่าง คือ

  1. ความคลาดเคลื่อนน้อยๆ มีโอกาสเกิดมากกว่า ความคลาดเคลื่อนใหญ่ๆ
  2. ความคลาดเคลื่อนไปทางลบ มีโอกาสเกิดเท่ากับ ความคลาดเคลื่อนไปทางบวก
  3. เมื่อทำการวัดหลายๆ ครั้ง ค่าเฉลี่ยจะเป็นค่าที่ใกล้ความจริงมากที่สุด

       ด้วยสมมติฐานเพียงเท่านี้ เกาส์ก็สามารถสร้างกฎของความคลาดเคลื่อน (การแจกแจงปกตินั่นแหละ) ออกมาได้

        เกาส์ใช้กฎของความคลาดเคลื่อน มาพัฒนาวิธีกำลังสองน้อยที่สุด (least square) (วิธีที่คุณอาจเคยเรียน และเคยใช้) เพื่อประมาณค่าพารามิเตอร์ของวงโคจรของซีรีส

        สังเกตนะครับว่า การแจกแจงปกติที่เกาส์คิดขึ้น ตั้งต้นจากสมมติฐานของเขาเอง ไม่ได้มาจากการรวบรวมข้อมูล แล้วสังเกตรูปแบบ อะไรแบบนั้น ดังนั้นจะมองว่า การแจกแจงปกติเป็นแบบจำลองที่เกาส์สร้างขึ้นก็ได้ ไม่ใช่ทฤษฎงทฤษฎีอะไร

        เกาส์ระบุตำแหน่งในท้องฟ้าที่ซีรีสจะปรากฏตัว แตกต่างจากที่นักดาราศาสตร์คนอื่นๆ คาดการณ์ แน่นอนว่า ตำแหน่งของเกาส์เป็นตำแหน่งที่ถูกต้อง (คลาดเคลื่อนไปแค่ครึ่งองศา)

วิธีกำลังสองน้อยที่สุดของเกาส์ ทำให้นักดาราศาสตร์หาซีรีสเจออีกครั้ง

sketch-of-orbits

[ “นอร์มอล” ที่ไม่ได้แปลว่า ปกติ ]
        สิ่งที่ทำให้คนเข้าใจผิดเกี่ยวกับการแจกแจงปกติมากที่สุด ก็คือ ชื่อของมันนี่แหละ!

        ก่อนหน้าที่เราจะเรียก “การแจกแจงปกติ” แบบทุกวันนี้ การแจกแจงปกติถูกเรียกหลายชื่อ เช่น กฎของความคลาดเคลื่อน (law of errors) กฎข้อที่สองของลาปลาส (Laplace’s second law) และกฎของเกาส์ (Gaussian law)

        เกาส์เป็นคนแรกที่ใช้คำว่า “นอร์มอล” เรียกสมการของเขา แต่คำว่า “นอร์มอล” ที่เขาหมายถึง ไม่ได้แปลว่า “ปกติ” แต่แปลว่า “ตั้งฉาก” ต่างหาก! (คำว่านอร์มอลแปลได้หลายความหมาย)

        ภายหลังพอมีคนใช้คำว่า “นอร์มอล” เรียกการแจกแจงแบบระฆังคว่ำนี้มากขึ้นเรื่อยๆ ผู้คนก็สับสน เข้าใจผิดไปว่า คำว่า การแจกแจงนอร์มอล คือ การแจกแจงปกติ…สุดแสนจะปกติ ชนิดที่อะไร อะไร ก็เป็นการแจกแจงปกติไปเสียหมด

        คนจำนวนมากคิดไปเองว่า การแจกแจงปกตินั้น ปกติ เหมือนกับที่ กาเบรียล ลิพพ์มานน์ (Gabriel Lippmann) เคยบอกกับ อองรี ปวงกาเร (Henri Poincare) ว่า “… เพราะนักทดลองคิดไปเองว่า [การแจกแจกแจงปกติ] เป็นทฤษฎีคณิตศาสตร์ ส่วนนักคณิตศาสตร์ก็คิดไปเองว่า [การแจกแจกแจงปกติ] เป็นข้อเท็จจริงจากผลการทดลอง”

[ การแจกแจงปกติ มีที่ไหน ]

แล้วการแจกแจงปกติที่แท้จริง มีอยู่จริงไหม

        มีบ้างในธรรมชาติ และในวิชาสถิติ แต่ก็เป็นกรณีเฉพาะเจาะจง เช่น การแพร่กระจายตัวของอนุภาค (diffusion) หรือ ผลการทอยเหรียญของ เดอ มัวฟ์ ที่พอจำนวนการทอยเพิ่มขึ้นมากๆ ความน่าจะเป็นของจำนวนหัวที่ออกก็จะเข้าใกล้การแจกแจงปกติ ตามทฤษฎีแนวโน้มเข้าสู่ศูนย์กลาง (central limit theorem)

        การแจกแจงปกติที่เราใช้ส่วนใหญ่มาจากการสมมติ พอเราเห็นกราฟข้อมูลที่โด่งๆ ตรงกลาง และลดหลั่นไปทั้งด้านซ้ายและด้านขวา จะเอียงบ้าง ขรุขระบ้าง เราก็มักใช้การแจกแจงปกติเข้าไปจับ ซึ่งก็ไม่ได้ผิดอะไรนะครับ (ถ้าไม่ได้แตกต่างจากรูประฆังคว่ำจนน่าเกลียด) ถือเป็นการ “ประมาณ” อย่างหนึ่ง พออยู่ในรูปแบบการแจกแจงปกติแล้ว ก็นำไปใช้งานต่อยอดได้ง่าย

        แน่นอนว่าข้อมูลในธรรมชาติหลายอย่าง ก็ไม่ได้มีรูปทรงใกล้เคียงกับการแจกแจงปกติเลย (เช่น ระยะเวลาระหว่างสายโทรศัพท์เรียกเข้า) แบบนี้ก็ไม่ควรยัดเยียดใช้การแจกแจงปกติเด็ดขาด

        ผมว่าการแจกแจงปกติคงเหมือนกับเสื้อยืด ที่ไม่ว่าคุณจะมีรูปร่างอย่างไร ก็เลือกไซส์ที่เหมาะใส่ได้ ถ้าคุณรูปร่างสมส่วน ก็จะค่อนข้างใส่ได้พอดีตัว จะไหล่กว้าง หรือมีพุง ก็ยังใส่ได้ แต่อาจพอดีน้อยหน่อย

        แต่ไม่ว่าอย่างไร เสื้อยืดจากโรงงาน ก็จะไม่เข้ารูปพอดิบพอดี และแน่นอนว่า…

       มันจะไม่มีทางใช้แทนกางเกง กระโปรง หรือถุงเท้าได้

        เรียบเรียงโดย : พรพุฒิ สุริยะมงคล

อ้างอิง:
https://en.wikipedia.org/wiki/Normal_distribution
https://www.actuaries.digital/2021/03/31/gauss-least-squares-and-the-missing-planet/
https://www.maa.org/sites/default/files/pdf/upload_library/22/Allendoerfer/stahl96.pdf
https://arxiv.org/pdf/1211.5737.pdf

Share

Authors

Authors

RELATED POSTS