ทำไมต้องกาว?
AWS Glue ช่วยให้คุณชำระอัตรารายชั่วโมงซึ่งเรียกเก็บตามวินาทีสำหรับโปรแกรมรวบรวมข้อมูล (การค้นพบข้อมูล) และกระบวนการ Extract, Transform and Load (ETL) (ประมวลผลและโหลดข้อมูล) แค็ตตาล็อกข้อมูลของ AWS Glue ช่วยให้คุณสามารถชำระเพียงค่าธรรมเนียมรายเดือนสำหรับการจัดเก็บและการเข้าถึงข้อมูลเมตา ให้คุณจัดเก็บหนึ่งล้านอ็อบเจ็กต์แรกได้ฟรี และเข้าถึงหนึ่งล้านครั้งแรกได้ฟรี หากคุณจัดเตรียมตำแหน่งข้อมูลการพัฒนาเพื่อพัฒนาโค้ด ETL อย่างต่อเนื่อง คุณจะชำระอัตรารายชั่วโมงซึ่งเรียกเก็บตามวินาที สำหรับ AWS Glue DataBrew ระบบจะเรียกเก็บค่าบริการเซสชันแบบอินเทอร์แอคทีฟเป็นรายเซสชัน และเรียกเก็บค่าบริการงาน DataBrew เป็นรายนาที การใช้งานรีจิสทรีของ AWS Glue Schema นั้นไม่มีค่าใช้จ่ายเพิ่มเติม
หมายเหตุ: ราคาอาจแตกต่างกันออกไปตาม AWS Region
-
งาน ETL และเซสชันแบบอินเทอร์แอคทีฟ
-
แค็ตตาล็อกข้อมูล
-
โปรแกรมรวบรวมข้อมูล
-
เซสชันแบบอินเทอร์แอคทีฟ DataBrew
-
งาน DataBrew
-
คุณภาพข้อมูล
-
งาน ETL และเซสชันแบบอินเทอร์แอคทีฟ
-
ตัวอย่างราคา
งาน ETL: สมมติว่างาน AWS Glue Apache Spark รันเป็นเวลา 15 นาทีและใช้ 6 DPU ราคาของ 1 DPU ต่อชั่วโมงคือ 0.44 USD เนื่องจากงานของคุณรันเป็นเวลา 1/4 ของชั่วโมง และใช้ 6 DPU ดังนั้น AWS จะเรียกเก็บเงินจากคุณ 6 DPU * 1/4 ชั่วโมง * 0.44 USD หรือ 0.66 USD
AWS Glue Studio Job Notebooks และเซสชันแบบอินเทอร์แอคทีฟ: สมมติว่าคุณใช้โน๊ตบุ๊กใน AWS Glue Studio เพื่อพัฒนาโค้ด ETL ของคุณแบบอินเทอร์แอคทีฟ ตามค่าเริ่มต้น เซสชันแบบอินเทอร์แอคทีฟจะมี 5 DPU หากคุณรันเซสชันเป็นเวลา 24 นาทีหรือ 2/5 ชั่วโมง คุณจะถูกเรียกเก็บค่าบริการสำหรับ 5 DPU * 2/5 ชั่วโมงที่ 0.44 USD ต่อ DPU ต่อชั่วโมง หรือ 0.88 USD
ML Transforms: เช่นเดียวกับการรันงาน AWS Glue ค่าใช้จ่ายในการรัน ML Transforms ซึ่งรวมถึง FindMatches ในข้อมูลของคุณจะแตกต่างกันไปตามขนาดของข้อมูล เนื้อหาของข้อมูล และจำนวนและประเภทของโหนดที่คุณใช้ ในตัวอย่างต่อไปนี้ เราใช้ FindMatches เพื่อผสานข้อมูลที่เป็นจุดสนใจจากแหล่งที่มาของข้อมูลหลายแหล่งเข้าด้วยกัน หากคุณมีชุดข้อมูลขนาด ~11,000,000 แถว (1.6 GB) ข้อมูลป้าย (ตัวอย่างของคู่ที่ตรงกันจริงหรือคู่ที่ไม่ตรงกันจริง) ขนาด ~8,000 แถว (641 KB) ที่รันบนอินสแตนซ์ประเภท G.2x จำนวน 16 หน่วย คุณจะต้องใช้รันไทม์ในการสร้างชุดป้าย 34 นาที โดยมีค่าใช้จ่าย 8.23 USD ใช้รันไทม์ในการประมาณตัววัด 11 นาที โดยมีค่าใช้จ่าย 2.66 USD และใช้รันไทม์ในการดำเนินงาน FindingMatches 32 นาที โดยมีค่าใช้จ่าย 7.75 USD
-
แค็ตตาล็อกข้อมูล
-
ตัวอย่างราคา
Free Tier ของแค็ตตาล็อกข้อมูลของ AWS Glue: สมมติว่าคุณจัดเก็บหนึ่งล้านตารางในแค็ตตาล็อกข้อมูลภายในเดือนที่กำหนดและส่ง 1 ล้านคำขอเพื่อเข้าถึงตารางเหล่านี้ คุณจะต้องชำระค่าบริการ 0 USD เนื่องจากการใช้งานของคุณครอบคลุมอยู่ในช่วง Free Tier ของแค็ตตาล็อกข้อมูลของ AWS Glue คุณสามารถจัดเก็บหนึ่งล้านอ็อบเจ็กต์แรกและส่งหนึ่งล้านคำขอต่อเดือนได้ฟรี
แค็ตตาล็อกข้อมูลของ AWS Glue: ตอนนี้สมมติว่าการใช้งานพื้นที่จัดเก็บของคุณยังคงเท่าเดิมที่ 1 ล้านตารางต่อเดือน แต่คำขอเพิ่มขึ้นสองเท่าเป็น 2 ล้านคำขอต่อเดือน สมมติว่าคุณยังใช้โปรแกรมรวบรวมข้อมูลเพื่อค้นหาตารางใหม่และรันโปรแกรมเป็นเวลา 30 นาทีและใช้ไป 2 DPU
ค่าใช้จ่ายของพื้นที่จัดเก็บของคุณก็จะยังคงเป็น 0 USD เนื่องจากพื้นที่จัดเก็บสำหรับหนึ่งล้านตารางแรกไม่เสียค่าบริการ หนึ่งล้านคำขอแรกก็ไม่เสียค่าบริการเช่นกัน จะมีการเรียกเก็บค่าบริการคุณสำหรับ 1 ล้านคำขอนอกเหนือช่วง Free Tier ซึ่งก็คือ 1 USD โปรแกรมรวบรวมข้อมูลมีค่าบริการที่ 0.44 USD ต่อ DPU-ชั่วโมง ดังนั้นคุณจะชำระสำหรับ 2 DPU * 1/2 ชั่วโมงที่ 0.44 USD ต่อ DPU-ชั่วโมงหรือ 0.44 USD
หากคุณสร้างสถิติบนตาราง Glue และการรันสถิติใช้เวลา 10 นาทีและใช้ DPU 1 ตัว คุณจะถูกเรียกเก็บเงิน DPU 1 ตัว* 1/6 ชั่วโมง * 0.44 USD/DPU-ชั่วโมง ซึ่งเท่ากับ 0.07 USD
หากคุณบีบอัดตาราง Apache Iceberg และการบีบอัดทำงานเป็นเวลา 30 นาทีและใช้ DPU 2 ตัว คุณจะถูกเรียกเก็บเงิน DPU 2 ตัว* 1/2 ชั่วโมง * 0.44 USD/DPU-ชั่วโมง ซึ่งเท่ากับ 0.44 USD -
โปรแกรมรวบรวมข้อมูล
-
-
เซสชันแบบอินเทอร์แอคทีฟ DataBrew
-
ตัวอย่างราคา
AWS Glue DataBrew: ราคาสำหรับเซสชันแบบอินเทอร์แอคทีฟ 30 นาทีแต่ละเซสชันคือ 1.00 USD หากคุณเริ่มเซสชันในเวลา 9.00 น. แล้วออกจากคอนโซลทันที และกลับมาในเวลา 9.20 น. - 9.30 น. การดำเนินการนี้จะใช้ 1 เซสชันโดยมีมูลค่ารวมที่ 1.00 USD
หากคุณเริ่มเซสชันเวลา 9.00 น. และโต้ตอบกับคอนโซล DataBrew จนถึงเวลา 9.50 น. ให้ออกจากพื้นที่โปรเจกต์ DataBrew และกลับมาดำเนินการโต้ตอบครั้งสุดท้ายเวลา 10.15 น. การดำเนินการนี้จะใช้ 3 เซสชันและระบบจะเรียกเก็บค่าบริการคุณ 1.00 USD ต่อเซสชัน รวมเป็นเงิน 3.00 USD
-
งาน DataBrew
-
ตัวอย่างราคา
DataBrew: หากงาน AWS Glue DataBrew รันเป็นเวลา 10 นาทีและใช้โหนด DataBrew 5 โหนด ราคาจะอยู่ที่ 0.40 USD เนื่องจากงานทำงานเป็นเวลา 1/6 ชั่วโมงและใช้ไปแล้ว 5 โหนด ระบบจึงจะเรียกเก็บค่าบริการสำหรับ 5 โหนด * 1/6 ชั่วโมง * 0.48 USD ต่อชั่วโมงทำงานของโหนด รวมเป็นเงิน 0.40 USD
-
คุณภาพข้อมูล
-
การตรวจคุณภาพข้อมูลของ AWS Glue จะมอบความมั่นใจในด้านของข้อมูลให้กับคุณ โดยการช่วยให้คุณได้รับข้อมูลที่มีคุณภาพสูง ซึ่งจะวัด ตรวจสอบ และจัดการคุณภาพข้อมูลใน Data Lake และไปป์ไลน์ของคุณโดยอัตโนมัติ ทำให้สามารถระบุข้อมูลที่ขาดหายไป ที่ไม่ได้อัปเดต หรือเป็นข้อมูลที่ไม่ดีได้ง่ายยิ่งขึ้น
คุณสามารถเข้าถึงคุณสมบัติคุณภาพของข้อมูลได้จากแค็ตตาล็อกข้อมูลและ AWS Glue Studio และผ่านทาง API ของ AWS Glue
การราคาสำหรับการจัดการคุณภาพข้อมูลของชุดข้อมูลที่จัดทำแค็ตตาล็อกไว้ในแค็ตตาล็อกข้อมูล:คุณสามารถเลือกชุดข้อมูลจากแคตตาล็อกข้อมูล และสร้างคำแนะนำได้ การดำเนินการนี้จะเป็นการสร้างงานคำแนะนำสำหรับคุณในการจัดเตรียมหน่วยประมวลผลข้อมูล (DPU) หลังจากที่คุณได้รับคำแนะนำแล้ว คุณจะสามารถแก้ไขหรือเพิ่มกฎใหม่ และกำหนดเวลาให้กับกฎเหล่านั้นได้ งานเหล่านี้เรียกว่างานคุณภาพข้อมูล ซึ่งคุณจะสามารถจัดเตรียม DPU เอาไว้ได้ คุณจะต้องมี DPU ขั้นต่ำ 2 รายการ พร้อมระยะเวลาการเรียกเก็บเงินขั้นต่ำ 1 นาที
การราคาสำหรับการจัดการคุณภาพข้อมูลของชุดข้อมูลที่ประมวลผลบน AWS Glue ETL:คุณสามารถเพิ่มการตรวจสอบคุณภาพข้อมูลให้กับงาน ETL ของคุณ เพื่อป้องกันไม่ให้ข้อมูลที่ไม่ดีเข้าสู่ Data Lake ได้ กฎคุณภาพข้อมูลเหล่านี้จะอยู่ในงาน ETL ของคุณ ซึ่งจะส่งผลให้มีรันไทม์เพิ่มขึ้น หรือมีการใช้ DPU ที่เพิ่มขึ้นด้วย นอกจากนี้คุณยังสามารถใช้การดำเนินการแบบยืดหยุ่นสำหรับเวิร์กโหลดที่ไม่ไวต่อ SLA ได้
การกำหนดราคาสำหรับการตรวจจับความผิดปกติใน AWS Glue ETL:
การตรวจจับความผิดปกติ:
คุณจะต้องเสีย 1 DPU ต่อสถิติ นอกเหนือจาก DPU ของงาน ETL ของคุณ สำหรับระยะเวลาที่ใช้ในการตรวจจับความผิดปกติ โดยเฉลี่ยแล้วจะใช้เวลาประมาณ 10 -20 วินาทีในการตรวจจับความผิดปกติสำหรับ 1 สถิติ ลองสมมติว่าคุณได้กำหนดค่ากฎสองข้อ (กฎข้อที่ 1: ปริมาณข้อมูลต้องมากกว่า 1,000 บันทึก กฎข้อที่ 2: จำนวนคอลัมน์ต้องมากกว่า 10) และตัววิเคราะห์หนึ่งตัว (ตัววิเคราะห์ 1: ตรวจสอบความสมบูรณ์ของคอลัมน์) การกำหนดค่านี้จะสร้างสถิติสามอย่าง: จำนวนแถว จำนวนคอลัมน์ และเปอร์เซ็นต์ความสมบูรณ์ของคอลัมน์ คุณจะถูกเรียกเก็บเงินจำนวน DPU เพิ่มเติม 3 DPU สำหรับเวลาที่ใช้ในการตรวจจับความผิดปกติที่มีระยะเวลาขั้นต่ำ 1 วินาที ดูตัวอย่าง - 4 สำหรับรายละเอียดเพิ่มเติม
การฝึกซ้ำ:
คุณอาจต้องการแยกการทำงานของงานที่ผิดปกติหรือสถิติออกไป เพื่อให้อัลกอริธึมการตรวจจับความผิดปกติสามารถทำนายความผิดปกติที่ตามมาได้อย่างแม่นยำ ในการดำเนินการนี้ AWS Glue ช่วยให้คุณสามารถไม่รวมหรือรวมสถิติได้ คุณจะต้องเสีย 1 DPU ในการฝึกโมเดลซ้ำตามระยะเวลาที่ใช้ในการฝึกซ้ำ โดยเฉลี่ยแล้ว การฝึกซ้ำจะใช้เวลา 10 วินาทีถึง 20 นาทีต่อสถิติ ดูตัวอย่างที่ 5 สำหรับรายละเอียดเพิ่มเติม
การจัดเก็บสถิติ:
ไม่มีค่าใช้จ่ายในการจัดเก็บสถิติที่รวบรวมไว้ มีการจำกัดสถิติอยู่ที่ 100K ต่อบัญชีและจะถูกจัดเก็บไว้เป็นเวลา 2 ปี
ค่าบริการเพิ่มเติม:
AWS Glue จะประมวลผลข้อมูลโดยตรงจาก Amazon Simple Storage Service (Amazon S3) ไม่มีค่าบริการพื้นที่จัดเก็บเพิ่มเติมสำหรับการอ่านข้อมูลของคุณด้วย AWS Glue คุณจะเสียค่าบริการ Amazon S3 ในอัตรามาตรฐานสำหรับพื้นที่จัดเก็บ คำขอ และการโอนถ่ายข้อมูล ตามการกำหนดค่าของคุณ ไฟล์ชั่วคราว ผลลัพธ์ด้านคุณภาพข้อมูล และไฟล์สับเปลี่ยนจะถูกจัดเก็บเอาไว้ในบัคเก็ต S3 ที่คุณเลือก และจะเรียกเก็บค่าบริการตามอัตรา S3 มาตรฐานอีกด้วย
หากคุณใช้แค็ตตาล็อกข้อมูล คุณจะถูกเรียกเก็บค่าบริการแค็ตตาล็อกข้อมูลตามอัตรามาตรฐาน สำหรับรายละเอียดเพิ่มเติม ให้เลือกแท็บพื้นที่จัดเก็บและคำขอแค็ตตาล็อกข้อมูล
ตัวอย่างราคา
ตัวอย่างที่ 1 – รับคำแนะนำสำหรับตารางในแค็ตตาล็อกข้อมูลตัวอย่างเช่น ลองพิจารณางานคำแนะนำที่มี 5 DPU ที่มีการดำเนินการเสร็จสิ้นภายใน 10 นาที คุณจะจ่าย 5 DPU * 1/6 ชั่วโมง * 0.44 USD ซึ่งคิดเป็น 0.37 USD
ตัวอย่างที่ 2 – ประเมินคุณภาพข้อมูลของตารางในแค็ตตาล็อกข้อมูลหลังจากที่คุณตรวจทานคำแนะนำแล้ว คุณจะสามารถแก้ไขคำแนะนำเหล่านั้นได้หากจำเป็น จากนั้นให้ตั้งกำหนดการของงานคุณภาพข้อมูลโดยการเตรียมใช้งาน DPU ตัวอย่างเช่น ลองพิจารณางานประเมินคุณภาพข้อมูลด้วย 5 DPU ที่มีการดำเนินการเสร็จสิ้นภายใน 20 นาที
คุณจะจ่าย 5 DPU * 1/3 ชั่วโมง * 0.44 USD ซึ่งคิดเป็น 0.73 USD
ตัวอย่างที่ 3 – ประเมินคุณภาพข้อมูลในงาน ETL ของ AWS Glueนอกจากนี้ คุณยังสามารถเพิ่มการตรวจสอบคุณภาพข้อมูลเหล่านี้ได้ในงาน ETL ของ AWS Glue เพื่อป้องกันไม่ให้ข้อมูลที่ไม่ดีเข้าสู่ Data Lake ของคุณ คุณสามารถทำเช่นนี้ได้โดยการเพิ่มการแปลงคุณภาพข้อมูลบน AWS Glue Studio หรือใช้ API ของ AWS Glue ภายในโค้ดที่คุณเขียนในโน๊ตบุ๊กของ AWS Glue Studio ลองพิจารณาถึงงานของ AWS Glue ที่ทำงานโดยมีการกำหนดค่ากฎคุณภาพข้อมูลภายในไปป์ไลน์ที่มีการดำเนินการ 20 นาที (1/3 ชั่วโมง) โดยใช้ 6 DPU คุณจะถูกเรียกเก็บค่าบริการ 6 DPU * 1/3 ชั่วโมง * 0.44 USD ซึ่งคิดเป็น 0.88 USD หรือคุณสามารถใช้ Flex ซึ่งคุณจะถูกเรียกเก็บค่าบริการ 6 DPU * 1/3 ชั่วโมง * 0.29 USD ซึ่งคิดเป็น 0.58 USD
ตัวอย่างที่ 4 — ประเมินคุณภาพข้อมูลในงาน AWS Glue ETL ด้วยการตรวจจับความผิดปกติ
พิจารณางาน AWS Glue ที่อ่านข้อมูลจาก Amazon S3 แปลงข้อมูล และรันการตรวจสอบคุณภาพข้อมูลก่อนที่จะโหลดไปยัง Amazon Redshift ถือว่าไปป์ไลน์นี้มีกฎ 10 ข้อและตัววิเคราะห์ 10 ตัวซึ่งส่งผลให้มีการรวบรวมสถิติ 20 รายการ นอกจากนี้ ให้ถือว่าการสกัด การแปลง การโหลด การรวบรวมสถิติ และการประเมินคุณภาพข้อมูลจะใช้เวลา 20 นาที หากไม่ได้เปิดใช้การตรวจจับความผิดปกติ ลูกค้าจะถูกเรียกเก็บเงิน 6 DPU * 1/3 ชั่วโมง (20 นาที) * 0.44 USD ซึ่งเท่ากับ 0.88 USD (A) หากเปิดการตรวจจับความผิดปกติ เราจะเพิ่ม 1 DPU ให้กับทุกสถิติ และจะใช้เวลาเฉลี่ย 15 วินาทีในการตรวจจับความผิดปกติ ในตัวอย่างนี้ ลูกค้าจะเสียค่าใช้จ่าย 20 สถิติ * 1 DPU * 15/3600 (0.0041 ชั่วโมง/สถิติ) * 0.44 USD (ต้นทุนต่อ DPU/ชั่วโมง) = 0.037 USD (B) ค่าใช้จ่ายทั้งหมดของงานจะอยู่ที่ 0.88 USD (A) + 0.037 USD (B) = 0.917 USD
ตัวอย่างที่ 5 - การฝึกซ้ำพิจารณาว่างาน Glue ของคุณตรวจพบความผิดปกติ คุณตัดสินใจที่จะแยกความผิดปกติออกจากโมเดลเพื่อให้อัลกอริธึมการตรวจจับความผิดปกติทำนายความผิดปกติในอนาคตได้อย่างแม่นยำ ในการดำเนินการนี้ คุณสามารถฝึกโมเดลซ้ำได้โดยการยกเว้นค่าสถิติที่ผิดปกตินี้ คุณจะต้องเสีย 1 DPU ต่อสถิติตลอดระยะเวลาที่ใช้ในการฝึกโมเดลซ้ำ โดยเฉลี่ยอาจใช้เวลา 15 วินาที ในตัวอย่างนี้ หากคุณถือว่าคุณยกเว้นจุดข้อมูล 1 จุด คุณจะเสีย 1 สถิติ * 1 DPU * 15/3600 (0.0041 ชั่วโมง / สถิติ) * 0.44 USD = 0.00185 USD
หมายเหตุ: ราคาอาจแตกต่างกันออกไปในแต่ละ Region
ดูตาราง Region ทั่วโลกเพื่อเรียนรู้เพิ่มเติมเกี่ยวกับความพร้อมใช้งานของ AWS Glue