รีเกรสชันเชิงเส้นคืออะไร
รีเกรสชันเชิงเส้นเป็นเทคนิคการวิเคราะห์ข้อมูลที่คาดการณ์ค่าของข้อมูลที่ไม่รู้จักโดยใช้ค่าข้อมูลอื่นที่เกี่ยวข้องและเป็นที่รู้จัก แบบจำลองตัวแปรทางคณิตศาสตร์ที่ไม่รู้จักหรือขึ้นอยู่กับและตัวแปรที่รู้จักหรือเป็นอิสระเป็นสมการเชิงเส้น ตัวอย่างเช่นสมมติว่ามีข้อมูลเกี่ยวกับค่าใช้จ่ายและรายได้สำหรับปีที่ผ่านมา เทคนิครีเกรสชันเชิงเส้นวิเคราะห์ข้อมูลนี้และตรวจสอบว่าค่าใช้จ่ายเป็นครึ่งหนึ่งของรายได้ จากนั้นพวกเขาก็คำนวณค่าใช้จ่ายในอนาคตที่ไม่รู้จักโดยการลดลงครึ่งหนึ่งรายได้ที่รู้จักกันในอนาคต
ทำไมรีเกรสชันเชิงเส้นจึงสำคัญ
รูปแบบรีเกรสชันเชิงเส้นคือสูตรทางคณิตศาสตร์ที่ค่อนข้างไม่ซับซ้อนและง่ายต่อการตีความเพื่อสร้างการคาดการณ์ รีเกรสชันเชิงเส้นเป็นเทคนิคทางสถิติที่จัดตั้งขึ้นและนำไปใช้ได้อย่างง่ายดายกับซอฟต์แวร์และคอมพิวเตอร์ ธุรกิจใช้ข้อมูลนี้เพื่อแปลงข้อมูลดิบให้เป็นข้อมูลอัจฉริยะทางธุรกิจและข้อมูลเชิงลึกที่ดำเนินการได้อย่างน่าเชื่อถือและคาดการณ์ได้ นักวิทยาศาสตร์ในหลายสาขา รวมทั้ง ชีววิทยาและพฤติกรรม สิ่งแวดล้อม และสังคมศาสตร์ใช้รีเกรสชันเชิงเส้นเพื่อทำการวิเคราะห์ข้อมูลเบื้องต้นและพยากรณ์แนวโน้มในอนาคต วิธีการทางวิทยาศาสตร์ข้อมูลหลายอย่างเช่นแมชชีนเลิร์นนิงและปัญญาประดิษฐ์ ใช้รีเกรสชันเชิงเส้นเพื่อแก้ปัญหาที่ซับซ้อน
วิธีการทำงานของรีเกรสชันเชิงเส้น
หลักของเทคนิครีเกรสชันเชิงเส้นที่เรียบง่ายพยายามที่จะพล็อตกราฟเส้นระหว่างสองตัวแปรข้อมูล x และ y ในฐานะที่เป็นตัวแปรอิสระ x เป็นพล็อตตามแกนนอน ตัวแปรอิสระจะเรียกว่าตัวแปรอธิบายหรือตัวแปรทำนาย ตัวแปรขึ้นอยู่กับ y เป็นพล็อตบนแกนแนวตั้ง นอกจากนี้ยังสามารถอ้างถึงค่า y เป็นตัวแปรการตอบสนองหรือตัวแปรที่คาดการณ์ไว้
ขั้นตอนในรีเกรสชันเชิงเส้น
สำหรับภาพรวมนี้ ให้พิจารณารูปแบบที่ง่ายที่สุดของสมการกราฟเส้นระหว่าง y และ x; y=c*x+m โดยที่ c และ m เป็นค่าคงที่สำหรับค่าที่เป็นไปได้ทั้งหมดของ x และ y ตัวอย่างเช่นสมมติว่าชุดข้อมูลอินพุตสำหรับ (x, y) เป็น (1,5) (2,8) และ (3,11) เพื่อระบุวิธีรีเกรสชันเชิงเส้น จะทำตามขั้นตอนต่อไปนี้
- พล็อตเป็นเส้นตรงและวัดความสัมพันธ์ระหว่าง 1 และ 5
- ให้เปลี่ยนทิศทางของเส้นตรงสำหรับค่าใหม่ (2,8) และ (3,11) จนกว่าค่าทั้งหมดจะพอดี
- ระบุสมรีเกรสชันเชิงเส้นเป็น y=3*x+2
- อนุมานหรือคาดการณ์ว่า y คือ 14 เมื่อ x เป็น
รีเกรสชันเชิงเส้นในการเรียนรู้ของเครื่องคืออะไร
ในการเรียนรู้ของเครื่อง โปรแกรมคอมพิวเตอร์ที่เรียกว่าอัลกอริทึมจะวิเคราะห์ชุดข้อมูลขนาดใหญ่ และทำงานย้อนหลังจากข้อมูลนั้นเพื่อคำนวณสมรีเกรสชันเชิงเส้น นักวิทยาศาสตร์ข้อมูลฝึกอัลกอริทึมเป็นอย่างแรกด้วยชุดข้อมูลที่รู้จักหรือมีชื่อแล้วใช้อัลกอริทึมในการทำนายค่าที่ไม่รู้จัก ข้อมูลในชีวิตจริงมีความซับซ้อนกว่าตัวอย่างก่อนหน้านี้ นั่นคือเหตุผลที่การวิเคราะห์รีเกรสชันเชิงเส้นจะต้องปรับเปลี่ยนทางคณิตศาสตร์หรือแปลงค่าข้อมูลเพื่อตอบสนอง 4 สมมติฐานต่อไปนี้
ความสัมพันธ์เชิงเส้น
ความสัมพันธ์เชิงเส้นต้องอยู่ระหว่างตัวแปรที่เป็นอิสระและพึ่งพา เพื่อตรวจสอบความสัมพันธ์นี้ นักวิทยาศาสตร์ข้อมูลจะสร้างพล็อตที่กระจาย–คอลเลกชันสุ่มของค่า x และ y เพื่อดูว่าพวกเขาตกไปตามเส้นตรงหรือไม่ ถ้าไม่ สามารถใช้ฟังก์ชันไม่เชิงเส้นเช่นรากที่สองหรือข้อมูลบันทึกเพื่อสร้างความสัมพันธ์เชิงเส้นระหว่างสองตัวแปรในทางคณิตศาสตร์
ความเป็นอิสระที่เหลือ
นักวิทยาศาสตร์ข้อมูลใช้ส่วนตกค้างเพื่อวัดความถูกต้องของการคาดการณ์ ส่วนที่เหลือคือความแตกต่างระหว่างข้อมูลที่สังเกตและค่าที่คาดการณ์ สารตกค้างต้องไม่มีรูปแบบที่สามารถระบุตัวได้ระหว่างกัน ยกตัวอย่างเช่น ไม่อยากให้เศษที่เหลือโตขึ้นตามกาลเวลา สามารถใช้การทดสอบทางคณิตศาสตร์ที่แตกต่างกันเช่นการทดสอบ Durbin-Watson เพื่อตรวจสอบความเป็นอิสระที่เหลือ สามารถใช้ข้อมูลหุ่นเพื่อแทนที่การเปลี่ยนแปลงข้อมูลใดๆ เช่นข้อมูลตามฤดูกาล
ภาวะปกติ
เทคนิคการทำกราฟเช่นแปลง Q-Q กำหนดสารตกค้างที่มีการกระจายตามปกติ ส่วนที่เหลือควรตกไปตามเส้นทแยงมุมในใจกลางของกราฟ ถ้าตกค้างไม่เป็นปกติ สามารถทดสอบข้อมูลสำหรับค่าผิดปกติสุ่มหรือค่าที่ไม่ปกติ การลบค่าผิดปกติหรือการดำเนินการแปลงไม่เชิงเส้นสามารถแก้ไขปัญหาได้
ความเป็นปริมาณพ้องกัน
ความเป็นปริมาณพ้องกันสันนิษฐานว่าสิ่งตกค้างมีความแปรปรวนคงที่หรือค่าเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยสำหรับทุกค่าของ x ถ้าไม่ได้ ผลของการวิเคราะห์อาจจะไม่ถูกต้อง หากไม่เป็นไปตามสมมติฐานนี้ อาจจะต้องเปลี่ยนตัวแปรพึ่งพา เพราะความแปรปรวนเกิดขึ้นตามธรรมชาติในชุดข้อมูลขนาดใหญ่ ทำให้สมเหตุสมผลที่จะเปลี่ยนขนาดของตัวแปรพึ่งพา ยกตัวอย่างเช่น แทนที่จะใช้ขนาดประชากรในการพยากรณ์จำนวนสถานีดับเพลิงในเมือง อาจจะใช้ขนาดประชากรในการพยากรณ์จำนวนสถานีดับเพลิงต่อคน
ประเภทขอรีเกรสชันเชิงเส้นมีอะไรบ้าง
บางประเภทของการวิเคราะห์รีเกรสชันมีความเหมาะสมมากขึ้นในการจัดการกับชุดข้อมูลที่ซับซ้อนกว่าอันอื่นๆ ตัวอย่างบางส่วนมีดังต่อไปนี้
รีเกรสชันเชิงเส้นอย่างง่าย
รีเกรสชันเชิงเส้นที่เรียบง่ายถูกกำหนดโดยฟังก์ชั่นเชิงเส้น
Y= β0*x + β1 + ε
β0 และ β1 เป็นค่าคงที่ที่ไม่รู้จักสองค่าที่เป็นตัวแทนของความลาดชันรีเกรสชัน ในขณะที่ ε (epsilon) เป็นคำที่ผิดพลาด
สามารถใช้รีเกรสชันเชิงเส้นที่เรียบง่ายในรูปแบบความสัมพันธ์ระหว่างสองตัวแปรเช่นเหล่านี้
- ปริมาณน้ำฝนและผลผลิตพืช
- อายุและความสูงในเด็ก
- อุณหภูมิและการขยายตัวของปรอทโลหะในเครื่องวัดอุณหภูมิ
รีเกรสชันเชิงหลายเส้น
ในการวิเคราะห์รีเกรสชันเชิงหลายเส้น ชุดข้อมูลที่มีตัวแปรหนึ่งขึ้นอยู่กับและตัวแปรอิสระหลาย ฟังก์ชันเส้นรีเกรสชันเชิงเส้นจะเปลี่ยนแปลงไปรวมถึงปัจจัยอื่นๆ ดังนี้
Y= β0*x0 + β1x1 + β2x2+... βNxN+ ε
เมื่อจำนวนของตัวแปรทำนายเพิ่มขึ้น ค่าคงที่ β ก็เพิ่มขึ้นตามลําดับ
รีเกรสชันเชิงหลายเส้นรุ่นหลายตัวแปรและผลกระทบต่อผลลัพธ์
- ปริมาณน้ำฝน อุณหภูมิ และการใช้ปุ๋ยกับผลผลิตพืช
- อาหารและการออกกำลังกายเกี่ยวกับโรคหัวใจ
- การเติบโตของค่าจ้างและอัตราเงินเฟ้อในอัตราเงินกู้
รีเกรสชันทางโลจิสติก
นักวิทยาศาสตร์ข้อมูลใช้รีเกรสชันโลจิสติกในการวัดความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้น การคาดคะเนเป็นค่าระหว่าง 0 ถึง 1 โดยที่ 0 แสดงเหตุการณ์ที่ไม่น่าจะเกิดขึ้น และ 1 แสดงถึงความน่าจะเป็นสูงสุดที่จะเกิดขึ้น สมการโลจิสติกใช้ฟังก์ชั่นลอการิทึมในการคำนวณเส้นรีเกรสชัน
ต่อไปนี้เป็นตัวอย่างบางส่วน:
- ความน่าจะเป็นของการชนะหรือแพ้ในการแข่งขันกีฬา
- ความน่าจะเป็นของการผ่านหรือล้มเหลวในการทดสอบ
- ความน่าจะเป็นของภาพที่เป็นผลไม้หรือสัตว์
AWS สามารถช่วยแก้ปัญหารีเกรสชันเชิงเส้นได้อย่างไร
Amazon SageMaker เป็นบริการที่มีการจัดการอย่างเต็มรูปแบบที่สามารถช่วยให้เตรียมพร้อม สร้าง ฝึกอบรม และปรับใช้โมเดลการเรียนรู้ของเครื่องจักร (ML) คุณภาพสูงได้อย่างรวดเร็ว Amazon SageMaker Autopilot เป็นโซลูชัน ML อัตโนมัติทั่วไปสำหรับปัญหาการจำแนกประเภทและรีเกรสชันเช่นการตรวจจับการฉ้อโกง การวิเคราะห์ปั่น และการตลาดเป้าหมาย
Amazon Redshift คลังข้อมูลระบบคลาวด์ที่รวดเร็ว ใช้กันอย่างแพร่หลาย บูรณาการกับ Amazon SageMaker สำหรับ ML ด้วย Amazon Redshift ML สามารถใช้คำสั่ง SQL ง่ายๆ ในการสร้างและฝึกอบรมรุ่น ML จากข้อมูลใน Amazon Redshift จากนั้นสามารถใช้รูปแบบเหล่านี้ในการแก้ปัญหาทุกประเภทของปัญหารีเกรสชันเชิงเส้น
เริ่มต้นกับ Amazon SageMaker JumpStart หรือ สร้างบัญชี AWS วันนี้.