รีเกรสชันเชิงเส้นและรีเกรสชันทางโลจิสติกแตกต่างกันอย่างไร
รีเกรสชันเชิงเส้นและรีเกรสชันทางโลจิสติกเป็นเทคนิคของแมชชีนเลิร์นนิงที่ทำการคาดการณ์ด้วยการวิเคราะห์ข้อมูลในอดีต ตัวอย่างเช่น การดูที่แนวโน้มการซื้อของลูกค้าในอดีตจะช่วยให้การวิเคราะห์รีเกรสชันสามารถประมาณการยอดขายในอนาคตได้ เพื่อให้คุณดำเนินการซื้อสินค้าคงคลังได้อย่างมีข้อมูลมากขึ้น เทคนิครีเกรสชันเชิงเส้นสร้างโมเดลปัจจัยที่ไม่รู้จักบนหลายปัจจัยที่รู้จักในรูปแบบคณิตศาสตร์เพื่อประมาณค่าที่ไม่รู้จักแน่นอน ในทำนองเดียวกัน รีเกรสชันทางโลจิสติกจะใช้คณิตศาสตร์ในการค้นหาความสัมพันธ์ระหว่างปัจจัยข้อมูลสองอย่างนี้ จากนั้นจะใช้ความสัมพันธ์นี้เพื่อคาดการณ์ค่าของปัจจัยเหล่านั้นโดยอาศัยปัจจัยอื่นๆ การคาดการณ์มักจะมีจำนวนผลลัพธ์ที่จำกัด เช่น ใช่หรือไม่ เป็นต้น
การดำเนินการคาดการณ์ระหว่างรีเกรสชันเชิงเส้นกับรีเกรสชันทางโลจิสติก
ทั้งรีเกรสชันเชิงเส้นและรีเกรสชันทางโลจิสติกใช้โมเดลทางคณิตศาสตร์ในการคาดการณ์ค่าของตัวแปรเอาต์พุตจากตัวแปรอินพุตอย่างน้อย 1 รายการ ตัวแปรเอาต์พุตเป็นตัวแปรอ้างอิง และตัวแปรอินพุตเป็นตัวแปรอิสระ
รีเกรสชันเชิงเส้น
ตัวแปรอิสระแต่ละรายการมีความสัมพันธ์โดยตรงกับตัวแปรอ้างอิง และไม่มีความสัมพันธ์กับตัวแปรอิสระอื่นๆ ความสัมพันธ์นี้เรียกว่า ความสัมพันธ์เชิงเส้น ตัวแปรอ้างอิงมักจะเป็นค่าจากช่วงของค่าต่อเนื่อง
สูตรหรือฟังก์ชันเชิงเส้นสำหรับสร้างโมเดลรีเกรสชันเชิงเส้นคือ
y= β0 + β1X1 + β2X2+… βnXn+ ε
ตัวแปรแต่ละตัวหมายถึง
- y เป็นตัวแปรอ้างอิงที่คาดการณ์
- β0 เป็นจุดตัดแกน y เมื่อตัวแปรอินพุตอิสระทั้งหมดเท่ากับ 0
- β1X1 เป็นค่าสัมประสิทธิ์รีเกรสชัน (B1) ของตัวแปรอิสระตัวแรก (X1) ค่าผลกระทบของตัวแปรอิสระตัวแรกต่อตัวแปรอ้างอิง
- βnXn เป็นค่าสัมประสิทธิ์รีเกรสชัน (BN) ของตัวแปรอิสระตัวสุดท้าย (XN) เมื่อมีค่าอินพุตหลายค่า
- ε เป็นข้อผิดพลาดของโมเดล
ตัวอย่างของรีเกรสชันเชิงเส้นคือ การคาดการณ์ราคาบ้าน (ตัวแปรอ้างอิง) โดยอิงจากจำนวนห้อง ละแวกใกล้เคียง และอายุ (ตัวแปรอิสระ)
รีเกรสชันทางโลจิสติก
ค่าของตัวแปรอ้างอิงเป็นหนึ่งจากรายการของหมวดหมู่จำกัดที่ใช้การจำแนกประเภทแบบไบนารี เหล่านี้เรียกว่าตัวแปรเชิงกลุ่ม ตัวอย่างคือผลที่ได้จากการทอยลูกเต๋า 6 ด้าน ความสัมพันธ์นี้เรียกว่า ความสัมพันธ์ทางโลจิสติก
สูตรสำหรับรีเกรสชันทางโลจิสติกใช้การแปลงโลจิตหรือลอการิทึมของอัตราต่อรองตามปกติ กับความน่าจะเป็นของความสำเร็จหรือความล้มเหลวของตัวแปรเชิงกลุ่มที่เฉพาะเจาะจง
y = e^(β0 + β1X1 + β2X2+… βnXn+ ε) / (1 + e^(β0 + β1 x 1 + β2 x 2 +… βn x n + ε))
ตัวแปรแต่ละตัวหมายถึง
- y คือความน่าจะเป็นของความสำเร็จของตัวแปรเชิงกลุ่ม y
- e (x) เป็นจำนวนของออยเลอร์ ความผกผันของฟังก์ชันลอการิทึมตามปกติหรือฟังก์ชัน Sigmoid ใน (x)
- Β0, β1X1…βnXn มีความหมายเช่นเดียวกับรีเกรสชันเชิงเส้นในส่วนก่อนหน้า
ตัวอย่างของรีเกรสชันทางโลจิสติกคือ การคาดการณ์โอกาสที่ราคาบ้านจะสูงกว่า 500,000 USD (ตัวแปรอ้างอิง) โดยอิงจากจำนวนห้อง ละแวกใกล้เคียง และอายุ (ตัวแปรอิสระ)
รีเกรสชันเชิงเส้นและรีเกรสชันทางโลจิสติกเหมือนกันอย่างไร
รีเกรสชันเชิงเส้นและรีเกรสชันทางโลจิสติกมีจุดเหมือนบางอย่างและมีพื้นที่การใช้งานในวงกว้างที่คล้ายกัน
การวิเคราะห์ทางสถิติ
รีเกรสชันทางโลจิสติกและเชิงเส้นมีทั้งรูปแบบของการวิเคราะห์ทางสถิติหรือข้อมูล และอยู่ในขอบเขตด้านวิทยาศาสตร์ข้อมูล ทั้งสองใช้โมเดลทางคณิตศาสตร์เพื่อเชื่อมโยงชุดตัวแปรอิสระหรือตัวแปรที่รู้จักกับตัวแปรอ้างอิง คุณสามารถเสนอทั้งรีเกรสชันทางโลจิสติกและรีเกรสชันเชิงเส้นเป็นสมการทางคณิตศาสตร์ได้ นอกจากนี้ คุณยังสามารถเสนอโมเดลบนกราฟได้
เทคนิคแมชชีนเลิร์นนิง
ทั้งโมเดลรีเกรสชันเชิงเส้นและรีเกรสชันทางโลจิสติกมีการใช้งานในแมชชีนเลิร์นนิงแบบมีผู้ดูแล
แมชชีนเลิร์นนิงแบบมีผู้ดูแลต้องมีการฝึกโมเดลโดยการป้อนชุดข้อมูลที่มีป้ายกำกับ นักวิจัยที่เป็นมนุษย์ทราบและรวบรวมตัวแปรอ้างอิงและตัวแปรอิสระ เมื่อป้อนข้อมูลในอดีตที่ทราบ สมการทางคณิตศาสตร์จะถูกดำเนินการวิศวกรรมย้อนกลับ ในท้ายที่สุด การคาดการณ์ในการคำนวณตัวแปรอ้างอิงที่ไม่ทราบจากตัวแปรอิสระที่ทราบจะออกมาถูกต้อง
การเรียนรู้แบบมีผู้ดูแลแตกต่างจากการเรียนรู้แบบไม่มีผู้ดูแลที่ข้อมูลไม่ได้ติดป้ายกำกับ
ความยากในการฝึก
ทั้งรีเกรสชันทางโลจิสติกและรีเกรสชันเชิงเส้นต้องมีข้อมูลที่ติดป้ายกำกับจำนวนมากสำหรับโมเดลเพื่อให้คาดการณ์ได้ถูกต้อง ซึ่งอาจเป็นงานที่ยากลำบากสำหรับมนุษย์ ตัวอย่างเช่น หากคุณต้องการติดป้ายกำกับว่าภาพมีรถ ภาพทั้งหมดจะต้องมีแท็กของตัวแปร เช่น ขนาดรถ มุมภาพ และสิ่งกีดขวาง
ความแม่นยำในการคาดการณ์แบบจำกัด
โมเดลทางสถิติที่ระบุข้อมูลอินพุตในข้อมูลเอาต์พุตไม่จำเป็นต้องบ่งบอกถึงความสัมพันธ์เชิงสาเหตุระหว่างตัวแปรอ้างอิงกับตัวแปรอิสระ สำหรับทั้งรีเกรสชันทางโลจิสติกและรีเกรสชันเชิงเส้น ความสัมพันธ์ไม่ได้เป็นสาเหตุ
ตัวอย่างเช่นการกำหนดราคาบ้านจากส่วนก่อนหน้า สมมติว่าชื่อของเจ้าของบ้านอยู่ในรายการตัวแปรอิสระ แล้วชื่อ John Doe สัมพันธ์กับราคาขายบ้านที่ต่ำ ในขณะที่รีเกรสชันเชิงเส้นและรีเกรสชันทางโลจิสติกจะคาดการณ์ราคาบ้านที่ต่ำเสมอหากชื่อของเจ้าของคือ John Doe ตรรกะจะระบุว่าความสัมพันธ์กับข้อมูลอินพุตนี้ไม่ถูกต้อง
ความแตกต่างระหว่างรีเกรสชันเชิงเส้นกับรีเกรสชันทางโลจิสติก
รีเกรสชันทางโลจิสติกและรีเกรสชันเชิงเส้นมีความแตกต่างกันมากที่สุดในด้านวิธีการทางคณิตศาสตร์
ค่าเอาต์พุต
เอาต์พุตรีเกรสชันเชิงเส้นเป็นขนาดค่าต่อเนื่อง ตัวอย่างเช่น ตัวเลข กิโลเมตร ราคา และน้ำหนัก
ในทางตรงกันข้าม เอาต์พุตโมเดลรีเกรสชันทางโลจิสติกคือความน่าจะเป็นของการเกิดเหตุการณ์แบบกลุ่มที่คงที่ ตัวอย่างเช่น 0.76 อาจหมายถึงโอกาส 76% ที่จะสวมเสื้อสีน้ำเงิน และ 0.22 อาจหมายถึงโอกาส 22% ที่จะโหวต “ใช่”
ความสัมพันธ์ของตัวแปร
ในการวิเคราะห์รีเกรสชัน เส้นรีเกรสชันเป็นรูปทรงเส้นกราฟที่แสดงความสัมพันธ์ระหว่างแต่ละตัวแปรอิสระและตัวแปรอ้างอิงแต่ละรายการ
ในรีเกรสชันเชิงเส้น เส้นรีเกรสชันเชิงเส้นจะเป็นเส้นตรง การเปลี่ยนแปลงตัวแปรอิสระจะส่งผลโดยตรงต่อตัวแปรอ้างอิง
ในรีเกรสชันทางโลจิสติก เส้นรีเกรสชันเป็นเส้นโค้งรูปตัว S หรือที่เรียกว่าเส้นโค้ง Sigmoid
ประเภทการกระจายทางคณิตศาสตร์
รีเกรสชันเชิงเส้นใช้การกระจายปกติหรือ Gaussian ของตัวแปรอ้างอิง การกระจายปกติปรากฏเป็นเส้นต่อเนื่องบนกราฟ
รีเกรสชันทางโลจิสติกใช้การกระจายแบบทวินาม การกระจายแบบทวินามมักจะปรากฏเป็นกราฟแท่ง
เมื่อใดที่ควรใช้รีเกรสชันเชิงเส้นหรือรีเกรสชันทางโลจิสติก
คุณสามารถใช้รีเกรสชันเชิงเส้นเมื่อต้องการคาดการณ์ตัวแปรอ้างอิงต่อเนื่องจากขนาดของค่า ใช้รีเกรสชันทางโลจิสติกเมื่อคุณต้องการผลลัพธ์แบบไบนารี (ตัวอย่างเช่น ใช่หรือไม่)
ตัวอย่างของรีเกรสชันเชิงเส้นมีดังนี้
- การคาดการณ์ความสูงของผู้ใหญ่ โดยอิงจากความสูงของแม่และพ่อ
- การคาดการณ์ปริมาณการขายฟักทอง โดยอิงจากราคา ช่วงเวลาของปี และตำแหน่งที่ตั้งร้าน
- การคาดการณ์ราคาตั๋วสายการบิน โดยอิงจากต้นทาง ปลายทาง ช่วงเวลาของปี และสายการบิน
- การคาดการณ์จำนวนการกดถูกใจในโซเชียลมีเดีย โดยอิงจากผู้โพสต์ จำนวนผู้ติดตามจริง เนื้อหาโพสต์ และเวลาในวันที่โพสต์
ตัวอย่างของรีเกรสชันทางโลจิสติกมีดังนี้
- การคาดการณ์ว่าบุคคลจะเป็นโรคหัวใจหรือไม่ โดยอิงจากค่าดัชนีมวลกาย สถานะการสูบบุหรี่ และความบกพร่องทางพันธุกรรม
- การคาดการณ์ว่าเสื้อผ้าขายปลีกรายการใดจะนิยมมากที่สุด โดยอิงจากสี ขนาด ประเภท และราคา
- การคาดการณ์ว่าพนักงานจะลาออกในปีนั้นหรือไม่ โดยอิงจากอัตราค่าจ้าง จำนวนวันที่ทำงาน จำนวนการประชุม จำนวนอีเมลที่ส่ง ทีม และการดำรงตำแหน่ง
- การคาดการณ์ว่าสมาชิกทีมฝ่ายขายคนใดจะทำสัญญาได้มากกว่า 1 ล้านดอลลาร์สหรัฐในหนึ่งปี โดยอิงจากยอดขายปีก่อน การดำรงตำแหน่ง และอัตราค่าคอมมิชชั่น
สรุปความแตกต่างระหว่างรีเกรสชันเชิงเส้นกับรีเกรสชันทางโลจิสติก
รีเกรสชันเชิงเส้น |
รีเกรสชันทางโลจิสติก |
|
คืออะไร |
วิธีการทางสถิติเพื่อคาดการณ์ค่าเอาต์พุตจากชุดของค่าอินพุต |
วิธีการทางสถิติเพื่อคาดการณ์ความน่าจะเป็นของค่าเอาต์พุตที่มาจากบางหมวดหมู่จากชุดตัวแปรเชิงกลุ่ม |
ความสัมพันธ์ |
ความสัมพันธ์เชิงเส้นที่แทนด้วยเส้นตรง |
ความสัมพันธ์ทางโลจิสติกหรือความสัมพันธ์ Sigmoid ที่แทนด้วยเส้นโค้งรูปตัว S |
สมการ |
เชิงเส้น |
ลอการิทึม |
ประเภทของการเรียนรู้แบบมีผู้ดูแล |
รีเกรสชัน |
การจัดหมวดหมู่ |
ประเภทการกระจาย |
ปกติ/Gaussian |
ทวินาม |
เหมาะที่สุดสำหรับ |
งานที่ต้องใช้ตัวแปรอ้างอิงต่อเนื่องที่คาดการณ์จากขนาด |
งานที่ต้องใช้ความน่าจะเป็นที่คาดการณ์ของตัวแปรอ้างอิงเชิงกลุ่มที่เกิดขึ้นจากชุดหมวดหมู่แบบคงที่ |
คุณจะเรียกใช้การวิเคราะห์รีเกรสชันเชิงเส้นและรีเกรสชันทางโลจิสติกบน AWS ได้อย่างไร
คุณสามารถเรียกใช้การวิเคราะห์รีเกรสชันเชิงเส้นและทางโลจิสติกใน Amazon Web Services (AWS) โดยใช้ Amazon SageMaker
SageMaker เป็นบริกาแมชชีนเลิร์นนิงที่มีการจัดการอย่างสมบูรณ์พร้อมด้วยอัลกอริทึมรีเกรสชันในตัวสำหรับทั้งรีเกรสชันเชิงเส้นและรีเกรสชันทางโลจิสติกในแพ็คเกจซอฟต์แวร์ทางสถิติอื่นๆ คุณสามารถใช้รีเกรสชันเชิงเส้นที่มีค่าอินพุตได้มากตามต้องการ หรือแก้ปัญหารีเกรสชันกับรูปแบบความน่าจะเป็นทางโลจิสติก
ตัวอย่างเช่น ต่อไปนี้คือวิธีที่คุณจะได้รับประโยชน์เมื่อใช้ SageMaker
- เตรียม สร้าง ฝึก และนำโมเดลรีเกรสชันไปใช้จริงได้อย่างรวดเร็ว
- กำจัดภาระหนักในแต่ละขั้นตอนของกระบวนการรีเกรสชันเชิงเส้นและทางโลจิสติกเและพัฒนาโมเดลรีเกรสชันคุณภาพสูง
- เข้าถึงส่วนประกอบทั้งหมดที่จำเป็นสำหรับการวิเคราะห์รีเกรสชันในชุดเครื่องมือชุดเดียว เพื่อให้เริ่มใช้งานโมเดลได้เร็วขึ้น ง่ายขึ้น และคุ้มค่ายิ่งขึ้น
เริ่มต้นใช้งานการวิเคราะห์รีเกรสชันบน AWS ด้วยการสร้างบัญชีวันนี้