Dịch vụ nào hỗ trợ tích hợp không ETL với Amazon Redshift?

Phiên bản Amazon Aurora tương thích với MySQL, Phiên bản Amazon Aurora tương thích với PostgreSQL (Xem trước), Amazon RDS dành cho MySQL và Amazon DynamoDB ( Xem trước giới hạn ) hỗ trợ tích hợp không ETL với Amazon Redshift.

Chia sẻ dữ liệu có những trường hợp sử dụng nào?

Các trường hợp sử dụng chính bao gồm: Một cụm ETL trung tâm chia sẻ dữ liệu với nhiều cụm BI/phân tích để cung cấp khả năng cô lập khối lượng công việc đọc và phí tùy chọn. Nhà cung cấp dữ liệu chia sẻ dữ liệu với người tiêu dùng bên ngoài. Chia sẻ các tập dữ liệu chung như khách hàng, sản phẩm trên nhiều nhóm kinh doanh khác nhau và hợp tác cho mục đích phân tích và khoa học dữ liệu rộng hơn. Phân cấp kho dữ liệu để đơn giản hóa việc quản lý. Chia sẻ dữ liệu giữa các môi trường phát triển, thử nghiệm và sản xuất. Truy cập dữ liệu Redshift từ dịch vụ phân tích AWS khác.

Khi nào tôi nên sử dụng tích hợp không ETL giữa Amazon Aurora với Amazon Redshift?

Bạn nên sử dụng tích hợp không ETL giữa Aurora với Amazon Redshift khi cần truy cập dữ liệu giao dịch gần như trong thời gian thực. Khi sử dụng tích hợp không ETL, bạn có thể tận dụng ML của Amazon Redshift với các lệnh SQL đơn giản.

Những công cụ và phiên bản nào của Amazon Aurora hỗ trợ tích hợp không ETL? Dịch vụ này được cung cấp ở những Khu vực AWS nào?

Tích hợp tích hợp không ETL trên Aurora với Amazon Redshift được cung cấp trên Phiên bản Aurora tương thích với MySQL cho phiên bản Aurora MySQL từ 3.05 (tương thích với MySQL 8.0.32) trở lên trong các Khu vực AWS được hỗ trợ. Tích hợp không ETL giữa Aurora và Amazon Redshift được cung cấp trên Phiên bản Aurora tương thích với PostgreSQL dành cho phiên bản Aurora PostgreSQL 15.4 ở Khu vực Miền Đông Hoa Kỳ (Ohio).

Tích hợp không ETL có tương thích với Amazon Redshift phi máy chủ không?

Tích hợp không ETL giữa Aurora với Amazon Redshift tương thích với Amazon Redshift phi máy chủ và Amazon Aurora phi máy chủ phiên bản 2. Khi sử dụng cả Aurora phi máy chủ phiên bản 2 và Amazon Redshift phi máy chủ, bạn có thể tạo phân tích gần theo thời gian thực trên dữ liệu giao dịch mà không cần phải quản lý bất kỳ cơ sở hạ tầng nào cho các quy trình dữ liệu.

Câu hỏi thường gặp về Amazon Redshift

Bắt đầu với Amazon Redshift

Thông tin chung

Mở tất cả

Amazon Redshift là gì?

Hàng chục nghìn khách hàng đang sử dụng Amazon Redshift mỗi ngày để chạy phân tích SQL trên đám mây, xử lý hàng exabyte dữ liệu để có được thông tin chuyên sâu về kinh doanh. Cho dù dữ liệu ngày càng tăng của bạn được lưu trữ trong kho lưu trữ dữ liệu hoạt động, hồ dữ liệu, dịch vụ dữ liệu truyền phát hay tập dữ liệu của bên thứ ba, Amazon Redshift đều giúp bạn truy cập, kết hợp và chia sẻ dữ liệu một cách bảo mật mà chỉ cần di chuyển hoặc sao chép ở mức tối thiểu. Amazon Redshift được tích hợp sâu với các dịch vụ máy học, phân tích và cơ sở dữ liệu AWS để sử dụng các phương pháp tiếp cận Zero-ETL hoặc giúp bạn truy cập dữ liệu tại chỗ nhằm phân tích gần theo thời gian thực, xây dựng các mô hình máy học trên SQL, đồng thời cho phép phân tích Apache Spark bằng cách sử dụng dữ liệu trong Redshift. Amazon Redshift phi máy chủ cho phép các kỹ sư, nhà phát triển, nhà khoa học dữ liệu và nhà phân tích của bạn bắt đầu dễ dàng và điều chỉnh quy mô phân tích nhanh chóng trong môi trường không cần quản trị. Với công cụ và kiến trúc Xử lý song song hàng loạt (MPP) tách biệt điện toán và lưu trữ để điều chỉnh quy mô hiệu quả, với những đổi mới về hiệu năng dựa trên máy học (ví dụ: Chế độ xem cụ thể hóa tự động), Amazon Redshift được xây dựng để điều chỉnh quy mô và mang lại tỷ lệ giá/hiệu năng tốt hơn tới gấp 5 lần so với các kho dữ liệu đám mây khác.

Đâu là những lý do quan trọng nhất để khách hàng chọn Amazon Redshift?

Hàng nghìn khách hàng chọn Amazon Redshift để đẩy nhanh thời gian có được thông tin chuyên sâu vì đây là một hệ thống phân tích mạnh mẽ, tích hợp tốt với các dịch vụ cơ sở dữ liệu và máy học, được sắp xếp hợp lý để sử dụng và có thể trở thành dịch vụ trung tâm đáp ứng mọi nhu cầu phân tích của khách hàng. Amazon Redshift phi máy chủ tự động cung cấp và điều chỉnh quy mô công suất kho dữ liệu để mang lại hiệu năng cao cho các khối lượng công việc yêu cầu lớn và khó dự đoán. Amazon Redshift mang lại tỷ lệ giá/hiệu năng hàng đầu cho các khối lượng công việc phân tích đa dạng, cho dù đó là tác vụ khai thác bảng thông tin, phát triển ứng dụng, chia sẻ dữ liệu, ETL (Trích xuất, Chuyển đổi và Tải) hay nhiều tác vụ khác. Với hàng chục nghìn khách hàng đang chạy phân tích trên hàng terabyte đến hàng petabyte dữ liệu, Amazon Redshift tối ưu hóa hiệu năng khối lượng công việc của khách hàng trong đời thực, dựa trên phép đo từ xa hiệu năng nhóm, đồng thời mang lại hiệu năng có thể điều chỉnh quy mô tỷ lệ tuyến tính với khối lượng công việc, trong khi vẫn giữ mức chi phí thấp. Các đổi mới về hiệu năng được cung cấp cho khách hàng mà không mất thêm phí. Với Amazon Redshift, bạn có thể nhận thông tin chuyên sâu từ việc chạy phân tích dự đoán và theo thời gian thực trên mọi dữ liệu của bạn trong các cơ sở dữ liệu hoạt động, hồ dữ liệu, kho dữ liệu, dữ liệu truyền phát và tập dữ liệu của bên thứ ba. Amazon Redshift hỗ trợ khả năng bảo mật đầu ngành với tích hợp quản lý và liên kết danh tính cho đăng nhập đơn (SSO), xác thực nhiều yếu tố, kiểm soát truy cập theo cấp độ cột, bảo mật theo cấp độ hàng, kiểm soát truy cập dựa trên vai trò, Đám mây riêng ảo của Amazon (Amazon VPC) và điều chỉnh kích thước cụm nhanh hơn.

Amazon Redshift tinh giản việc quản lý kho dữ liệu và phân tích như thế nào?

Amazon Redshift được AWS quản lý hoàn toàn nên bạn không còn cần phải lo lắng về các tác vụ quản lý kho dữ liệu như cung cấp phần cứng, vá lỗi phần mềm, thiết lập, cấu hình, giám sát nút và ổ đĩa để khôi phục sau thảm họa hoặc sao lưu. AWS quản lý công việc cần để thay bạn thiết lập, vận hành và điều chỉnh quy mô kho dữ liệu, giúp bạn có thời gian tập trung vào xây dựng ứng dụng. Amazon Redshift phi máy chủ tự động cung cấp và điều chỉnh quy mô công suất kho dữ liệu để mang lại hiệu quả cao cho các khối lượng công việc yêu cầu lớn và khó dự đoán, và bạn chỉ phải trả tiền cho tài nguyên mà bạn sử dụng. Amazon Redshift cũng có khả năng điều chỉnh tự động và hiển thị các đề xuất để quản lý kho dữ liệu của bạn trong Redshift Advisor. Với Redshift Spectrum, Amazon Redshift quản lý toàn bộ cơ sở hạ tầng điện toán, cân bằng tải, lập kế hoạch, lên lịch và thực thi truy vấn của bạn trên dữ liệu được lưu trữ trong Amazon S3. Amazon Redshift cho phép phân tích trên tất cả dữ liệu của bạn với khả năng tích hợp sâu vào dịch vụ cơ sở dữ liệu bằng các tính năng như tích hợp Zero-ETL trên Amazon Aurora với Amazon Redshift và truy vấn liên kết để truy cập dữ liệu tại chỗ từ cơ sở dữ liệu hoạt động như Amazon RDS và hồ dữ liệu Amazon S3 của bạn. Redshift cho phép quá trình tải nhập dữ liệu được hợp lý hóa bằng quy trình dữ liệu tự động, không cần mã. Việc tải nhập dữ liệu truyền phát hoặc tệp Amazon S3 sẽ được diễn ra tự động. Redshift cũng được tích hợp với Trao đổi dữ liệu trên AWS cho phép người dùng tìm, đăng ký, cũng như truy vấn tập dữ liệu của bên thứ ba và kết hợp với dữ liệu của họ để có được thông tin chuyên sâu toàn diện. Với khả năng tích hợp gốc vào Amazon SageMaker, khách hàng có thể vẫn ở trong kho dữ liệu của mình và thực hiện tạo, đào tạo cũng như xây dựng các mô hình máy học trên SQL. Amazon Redshift đáp ứng mọi nhu cầu phân tích SQL của bạn với tỷ lệ giá/hiệu năng tốt hơn tới gấp 5 lần so với các kho dữ liệu đám mây khác.

Có các tùy chọn triển khai nào cho Amazon Redshift?

Amazon Redshift là dịch vụ được quản lý toàn phần và cung cấp cả tùy chọn được cung cấp lẫn phi máy chủ, giúp bạn chạy và điều chỉnh quy mô phân tích hiệu quả hơn mà không cần quản lý kho dữ liệu của bạn. Bạn có thể thiết lập một điểm cuối Amazon Redshift phi máy chủ mới để tự động cung cấp kho dữ liệu trong vài giây hoặc bạn có thể chọn tùy chọn được cung cấp cho khối lượng công việc dự đoán được.

Làm thế nào để bắt đầu sử dụng Amazon Redshift?

Bạn có thể bắt đầu truy vấn dữ liệu chỉ với vài bước trong Bảng điều khiển quản lý AWS. Bạn có thể tận dụng các tập dữ liệu mẫu tải sẵn, bao gồm các tập dữ liệu điểm quy chuẩn TPC-H, TPC-DS cùng những truy vấn mẫu khác để bắt đầu phân tích ngay lập tức. Để bắt đầu sử dụng Amazon Redshift phi máy chủ, chọn “Try Amazon Redshift Serverless” (Dùng thử Amazon Redshift phi máy chủ) và bắt đầu truy vấn dữ liệu. Bắt đầu tại đây.

Amazon Redshift có hiệu năng ra sao so với các kho dữ liệu khác?

Kết quả kiểm tra điểm quy chuẩn TPC-DS cho thấy Amazon Redshift mang lại hiệu năng giá tốt nhất khi dùng ngay, ngay cả với một tập dữ liệu tương đối nhỏ là 3 TB. Amazon Redshift mang đến tỷ lệ giá/hiệu năng tốt hơn tới gấp 5 lần so với các kho dữ liệu đám mây khác. Điều này tức là bạn có thể hưởng lợi từ hiệu năng giá hàng đầu của Amazon Redshift ngay từ đầu mà không cần hiệu chỉnh thủ công. Dựa trên phép đo từ xa nhóm hiệu năng, chúng tôi cũng biết rằng hầu hết khối lượng công việc là khối lượng công việc truy vấn ngắn (khối lượng công việc chạy trong chưa đầy 1 giây). Đối với những khối lượng công việc này, điểm quy chuẩn mới nhất chứng minh rằng Amazon Redshift mang lại tỷ lệ giá/hiệu năng tốt hơn tới gấp 7 lần đối với khối lượng công việc có tính đồng thời cao, độ trễ thấp so với các kho dữ liệu đám mây khác. Tìm hiểu thêm ở đây.

Tôi có thể nhận trợ giúp để tìm hiểu thêm và biết cách bắt đầu sử dụng Amazon Redshift không?

Có, các chuyên gia Amazon Redshift luôn sẵn sàng trả lời câu hỏi và hỗ trợ bạn. Hãy liên hệ với chúng tôi và chúng tôi sẽ có phản hồi sau một ngày làm việc để thảo luận về khả năng AWS có thể trợ giúp tổ chức của bạn như thế nào.

Bộ lưu trữ được Amazon Redshift quản lý là gì?

Bộ lưu trữ được Amazon Redshift quản lý có sẵn với các loại nút phi máy chủ và RA3, dịch vụ này cho phép bạn thay đổi quy mô và trả tiền cho các chức năng điện toán và lưu trữ riêng biệt, để bạn có thể điều chỉnh quy mô cụm theo đúng nhu cầu điện toán của mình. Dịch vụ này sử dụng bộ lưu trữ cục bộ, hiệu suất cao, dựa trên SSD làm bộ nhớ đệm bậc 1 và tận dụng các phần tối ưu hóa, như: nhiệt độ của khối dữ liệu, tuổi thọ của khối dữ liệu và dạng thức khối lượng công việc, để vừa mang đến hiệu suất cao vừa tự động điều chỉnh bộ lưu trữ sang Amazon S3 khi cần mà bạn không phải làm gì cả.

Làm thế nào để sử dụng bộ lưu trữ được quản lý của Amazon Redshift?

Nếu bạn đang sử dụng nút Amazon Redshift Lưu trữ mật độ cao hoặc điện toán mật độ cao, thì bạn có thể dùng tính năng Điều chỉnh kích thước linh hoạt nâng cấp các cụm hiện có lên phiên bản điện toán mới RA3. Amazon Redshift Serverless và các cụm dùng phiên bản RA3 tự động sử dụng bộ lưu trữ được Redshift quản lý để lưu trữ dữ liệu. Để sử dụng tính năng này, bạn không cần thực hiện hành động nào khác ngoài việc sử dụng Amazon Redshift phi máy chủ hoặc các phiên bản RA3.

Làm thế nào để chạy truy vấn từ Redshift cho dữ liệu được lưu trữ trong Hồ dữ liệu AWS?

Amazon Redshift Spectrum là một tính năng của Amazon Redshift cho phép bạn chạy các truy vấn đối với hồ dữ liệu của mình trên Amazon S3 nhưng không cần tải dữ liệu hoặc ETL. Khi bạn phát hành một truy vấn SQL, truy vấn đó chuyển tới điểm cuối Amazon Redshift để tạo và tối ưu hóa một kế hoạch truy vấn. Amazon Redshift xác định đâu là dữ liệu cục bộ và đâu là dữ liệu trên Amazon S3, tạo một kế hoạch để giảm thiểu lượng dữ liệu trên S3 phải đọc, đồng thời yêu cầu các công nhân Amazon Redshift Spectrum ngoài phạm vi của một nhóm tài nguyên chia sẻ đọc và xử lý dữ liệu từ Amazon S3.

Khi nào tôi nên cân nhắc sử dụng các phiên bản RA3?

Hãy cân nhắc chọn loại nút RA3 trong các trường hợp sau đây:

Bạn cần sự linh hoạt để thay đổi quy mô và trả phí điện toán riêng rẽ với phí lưu trữ.
Bạn truy vấn một phần trong tổng dữ liệu.
Số lượng dữ liệu của bạn tăng nhanh chóng hoặc dự kiến sẽ tăng nhanh.
Bạn muốn có sự linh hoạt để điều chỉnh quy mô cụm chỉ dựa trên nhu cầu hiệu suất của mình.

Khi quy mô dữ liệu của bạn tiếp tục tăng lên đến hàng petabyte, lượng dữ liệu bạn thu nạp vào kho dữ liệu Amazon Redshift cũng sẽ tăng theo. Bạn có thể đang tìm cách phân tích mọi dữ liệu của mình một cách tiết kiệm.

Với các phiên bản Amazon Redshift RA3 mới cùng bộ lưu trữ được quản lý, bạn có thể chọn số lượng nút dựa trên yêu cầu hiệu năng của mình và chỉ thanh toán cho dung lượng lưu trữ được quản lý mà bạn sử dụng. Điều này giúp bạn linh hoạt thay đổi kích thước cụm RA3 dựa trên lượng dữ liệu bạn xử lý hàng ngày mà không cần tăng chi phí lưu trữ. Được xây dựng trên Hệ thống AWS Nitro mới, các phiên bản RA3 với bộ lưu trữ được quản lý sử dụng ổ cứng SSD có hiệu suất cao để lưu trữ dữ liệu nóng và Amazon S3 để lưu trữ dữ liệu nguội, đem đến sự tiện dụng, lưu trữ tiết kiệm và hiệu suất truy vấn nhanh.

Tôi có thể sử dụng tính năng nào để phân tích dựa trên vị trí?

Amazon Redshift Spatial mang lại khả năng phân tích dựa trên vị trí để nắm thông tin chuyên sâu đa dạng về dữ liệu của bạn. Dịch vụ này tích hợp liền mạch dữ liệu kinh doanh và không gian để cung cấp nội dung phân tích phục vụ việc ra quyết định. Amazon Redshift ra mắt tính năng hỗ trợ xử lý dữ liệu không gian tự nhiên vào tháng 11/2019, với loại dữ liệu đa hình GEOMETRY cùng một số tính năng không gian SQL quan trọng. Hiện chúng tôi hỗ trợ loại dữ liệu GEOGRAPHY và số chức năng không gian SQL của chúng tôi đã lên con số 80. Chúng tôi hỗ trợ tất cả các loại dữ liệu và tiêu chuẩn không gian thông thường, bao gồm Shapefiles, GeoJSON, WKT, WKB, eWKT và eWKB. Để tìm hiểu thêm, hãy xem trang tài liệu hoặc trang hướng dẫn sử dụng Amazon Redshift Spatial.

Hỗ trợ SQL của Athena có khác biệt gì so với Redshift và làm thế nào để chọn giữa hai dịch vụ?

Amazon Athena và Amazon Redshift phi máy chủ đáp ứng những nhu cầu và trường hợp sử dụng khác nhau, ngay cả khi cả hai dịch vụ này đều là dạng phi máy chủ và hỗ trợ người dùng SQL.

Với kiến trúc Xử lý song song hàng loạt (MPP) tách biệt lưu trữ và điện toán cùng khả năng tối ưu hóa tự động dựa trên máy học, thì một kho dữ liệu như Amazon Redshift, dù là phi máy chủ hay được cung cấp, đều là lựa chọn tuyệt vời cho những khách hàng cần tỷ lệ giá/hiệu năng tốt nhất ở mọi quy mô cho khối lượng công việc BI và phân tích phức tạp. Khách hàng có thể sử dụng Amazon Redshift làm thành phần trung tâm trong kiến trúc dữ liệu của họ với khả năng tích hợp sâu có sẵn để truy cập dữ liệu tại chỗ, hoặc tải nhập hay di chuyển dữ liệu dễ dàng vào kho nhằm phân tích đạt hiệu năng cao, thông qua ZeroETL và các phương pháp không cần mã. Khách hàng có thể truy cập dữ liệu được lưu trữ trong Amazon S3, cơ sở dữ liệu hoạt động như Aurora và Amazon RDS, kho dữ liệu của bên thứ ba thông qua tích hợp với Trao đổi dữ liệu trên AWS và kết hợp với dữ liệu được lưu trữ trong kho dữ liệu Amazon Redshift để phân tích. Khách hàng có thể dễ dàng bắt đầu lưu kho dữ liệu và tiến hành máy học trên tất cả dữ liệu này.

Amazon Athena đặc biệt phù hợp để phân tích tương tác và khám phá dữ liệu đối với dữ liệu trong hồ dữ liệu của bạn hoặc bất kỳ nguồn dữ liệu nào thông qua khung bộ kết nối có thể mở rộng (bao gồm hơn 30 bộ kết nối sẵn dùng cho các ứng dụng và tại chỗ hoặc các hệ thống phân tích đám mây khác) mà không phải lo lắng về việc tải nhập hay xử lý dữ liệu. Amazon Athena được xây dựng trên các công cụ và khung nguồn mở như Spark, Presto và Apache Iceberg, giúp khách hàng linh hoạt sử dụng Python hay SQL, cũng như làm việc trên các định dạng dữ liệu mở. Nếu khách hàng muốn thực hiện phân tích tương tác bằng cách sử dụng định dạng dữ liệu và khung nguồn mở, thì nên bắt đầu với Amazon Athena.

Tính linh hoạt về kích thước có áp dụng cho nút Phiên bản đặt trước Redshift không?

Không, phiên bản đặt trước Redshift không linh hoạt và chỉ áp dụng cho đúng loại nút mà bạn đặt trước.

Phân tích SQL của Amazon SageMaker

Mở tất cả

Lợi ích của việc sử dụng Redshift trong SageMaker để phân tích SQL là gì?

SageMaker đơn giản hóa phân tích SQL bằng cách cung cấp một nền tảng toàn diện, thân thiện với người dùng kết nối nhiều nguồn dữ liệu và hợp lý hóa việc khám phá dữ liệu. Với giao diện sổ tay linh hoạt, bạn có thể truy cập dữ liệu từ Amazon Simple Storage Service (Amazon S3), Amazon Redshift và các nguồn dữ liệu khác, viết và chạy truy vấn trên các công cụ khác nhau và trực tiếp tạo hình ảnh trực quan trong công cụ. Nền tảng này tự động quản lý siêu dữ liệu của bạn, giúp bạn dễ hiểu và khám phá thông tin hơn. Nền tảng này cho phép bạn vượt xa phân tích SQL truyền thống, biến dữ liệu của bạn thành những hiểu biết có thể hành động được với độ phức tạp kỹ thuật tối thiểu, bằng cách tích hợp liền mạch với các dịch vụ AWS khác.

Tôi có phải di chuyển dữ liệu từ Amazon S3 hoặc kho dữ liệu Amazon Redshift hiện có để sử dụng SageMaker cho phân tích SQL không?

Không, bạn không cần phải di chuyển dữ liệu của mình để sử dụng SageMaker cho phân tích SQL. Bạn có thể trực tiếp khám phá và truy vấn dữ liệu từ nhiều nguồn, bao gồm Amazon S3 (Danh mục dữ liệu AWS Glue và vùng lưu trữ bảng Amazon S3), Amazon Redshift (phi máy chủ và được cung cấp) và 13 nguồn dữ liệu liên kết bổ sung tương thích với quy trình công việc kỹ thuật SQL. Hồ dữ liệu Amazon SageMaker kết nối liền mạch với dữ liệu hiện tại của bạn, vì vậy bạn có thể tập trung vào thông tin chuyên sâu thay vì dành thời gian chuyển thông tin xung quanh. Chỉ trong một vài bước nhanh chóng, bạn sẽ có thể khám phá dữ liệu của mình, chạy truy vấn và khám phá thông tin kinh doanh có giá trị mà không gặp phải rắc rối kỹ thuật nào.

Làm cách nào để tải dữ liệu và bắt đầu sử dụng SageMaker cho phân tích SQL?

Để bắt đầu, SageMaker cung cấp hai cách để đưa dữ liệu của bạn vào nền tảng phân tích SQL. Nếu bạn lưu trữ thông tin của mình trong Amazon S3, SageMaker SQL cho phép bạn chạy truy vấn trực tiếp trên dữ liệu đó bằng hồ dữ liệu. Ngoài ra, bạn có thể tải dữ liệu lên kho dữ liệu của mình bằng cách chạy các lệnh COPY. Nếu bạn có dữ liệu cục bộ trên máy tính để bàn của mình, SageMaker cho phép bạn tải lên các tệp dữ liệu trực tiếp từ máy tính của riêng bạn bằng cách kéo và thả các tệp dữ liệu vào nền tảng SageMaker. Ngoài ra, bạn có thể sử dụng tích hợp không ETL để nhập dữ liệu từ kho dữ liệu vận hành của mình. Toàn bộ quá trình được thiết kế để loại bỏ các rào cản kỹ thuật, cho phép bạn tập trung vào việc khám phá những thông tin chuyên sâu thay vì vật lộn với các quy trình tải dữ liệu phức tạp.

Trải nghiệm khi sử dụng SageMaker query books như thế nào?

Studio Hợp nhất Amazon SageMaker (bản xem trước), cung cấp giao diện sổ tay mạnh mẽ, thân thiện với người dùng để phân tích SQL toàn diện. Bạn có thể viết và chạy mã SQL trong các ô riêng biệt, tạo biểu đồ và hình ảnh trực quan và khám phá dữ liệu thống nhất từ các nguồn khác nhau như Amazon S3, Amazon Redshift và các nguồn liên kết khác nhau thông qua Hồ dữ liệu SageMaker. Nền tảng này cũng cung cấp các tính năng hữu ích như tự động hoàn thành và kiểm tra cú pháp để hỗ trợ việc viết SQL của bạn. Bạn cũng có thể sử dụng chức năng AI tạo sinh với Amazon Q SQL tạo sinh, cung cấp các đề xuất mã SQL bằng ngôn ngữ tự nhiên. SageMaker được thiết kế để làm cho phân tích SQL trực quan hơn, linh hoạt và dễ truy cập hơn cho tất cả người dùng dữ liệu.

Làm cách nào để chia sẻ các truy vấn SQL hoặc mô hình dữ liệu của mình trong SageMaker?

Studio hợp nhất Amazon SageMaker (bản xem trước) cung cấp các “dự án” – đây là không gian làm việc kỹ thuật số có tính cộng tác giúp các đội ngũ tổ chức và quản lý công việc phân tích dữ liệu của mình. Hãy nghĩ về nó giống như một thư mục được chia sẻ – nơi bạn có thể lưu trữ các truy vấn SQL, mô hình dữ liệu, mã và các tài nguyên khác trong một nơi an toàn. Bằng cách tạo một Dự án, bạn thiết lập một môi trường tập trung nơi các thành viên trong nhóm có thể được mời, cấp quyền truy cập cụ thể và làm việc cùng nhau một cách liền mạch. Trong không gian này, bạn có thể dễ dàng phân phối Querybooks, nơi chứa các truy vấn và mô hình dữ liệu của bạn, đồng thời cấp quyền truy cập vào các nguồn dữ liệu như Amazon S3 và Redshift, đồng thời cung cấp tài nguyên tính toán được chia sẻ. Nền tảng hỗ trợ kiểm soát phiên bản thông qua tích hợp Git, cho phép đội ngũ của bạn theo dõi các thay đổi, cộng tác trên mã và duy trì lịch sử rõ ràng về công việc phân tích SQL của bạn. Cách tiếp cận này đảm bảo rằng tất cả các thành viên trong nhóm có thể xem, chỉnh sửa và chạy truy vấn trong khi vẫn duy trì tính bảo mật và nhất quán trên các khối lượng công việc phân tích SQL của bạn.

Mô hình định giá cho phân tích SQL trong SageMaker là như thế nào?

Không tốn phí bổ sung để sử dụng trình soạn thảo SQL trong SageMaker. Bạn chỉ trả phí sử dụng các công cụ tính toán có sẵn như Amazon Athena và Amazon Redshift.

SLA cho Phân tích SQL trong Amazon SageMaker là gì?

Thỏa thuận cấp dịch vụ (SLA) cho phân tích SQL trong Amazon SageMaker được liên kết trực tiếp với SLA của các công cụ SQL cơ bản: Amazon Redshift và Amazon Athena. Khách hàng có thể tìm thấy thông tin cam kết dịch vụ chi tiết trên các trang thỏa thuận cấp độ dịch vụ tương ứng cho Amazon Redshift và Amazon Athena.

Serverless

Mở tất cả

Amazon Redshift phi máy chủ là gì?

Amazon Redshift phi máy chủ là một tùy chọn phi máy chủ của Amazon Redshift giúp việc chạy và điều chỉnh quy mô phân tích chỉ trong vài giây trở nên hiểu quả hơn mà không cần thiết lập và quản lý cơ sở hạ tầng kho dữ liệu. Với Redshift phi máy chủ, bất kỳ người dùng nào – bao gồm cả nhà phân tích dữ liệu, nhà phát triển, chuyên gia kinh doanh và nhà khoa học dữ liệu – đều có thể lấy thông tin chuyên sâu từ dữ liệu mà chỉ cần tải và truy vấn dữ liệu trong kho dữ liệu.

Làm thế nào để bắt đầu sử dụng Amazon Redshift phi máy chủ

Chỉ với vài bước trong Bảng điều khiển quản lý AWS, bạn có thể chọn "configure Amazon Redshift Serverless" (cấu hình Amazon Redshift phi máy chủ) và bắt đầu truy vấn dữ liệu. Bạn có thể tận dụng tập dữ liệu mẫu tải sẵn như dữ liệu về thời tiết, điều tra dân số và tập dữ liệu điểm tiêu chuẩn cùng với truy vấn mẫu để bắt đầu phân tích ngay. Bạn có thể tạo cơ sở dữ liệu, sơ đồ, bảng và tải dữ liệu từ Amazon S3, Amazon Redshift Datashares hoặc khôi phục từ bản kết xuất cụm Redshift hiện có được cung cấp. Bạn cũng có thể trực tiếp truy vấn dữ liệu ở định dạng mở (chẳng hạn như Parquet hay ORC) trong hồ dữ liệu Amazon S3 hoặc truy vấn dữ liệu trong cơ sở dữ liệu hoạt động như Amazon Aurora, Amazon RDS PostgreSQL và MySQL. Xem Hướng dẫn bắt đầu.

Việc sử dụng Amazon Redshift phi máy chủ có những lợi ích gì?

Nếu bạn không có kinh nghiệm quản lý kho dữ liệu thì bạn cũng không cần lo lắng về việc thiết lập, cấu hình, quản lý cụm hoặc điều chỉnh kho dữ liệu. Bạn có thể tập trung vào việc rút ra thông tin chuyên sâu có ý nghĩa từ dữ liệu của bạn hoặc đạt kết quả kinh doanh cối lõi thông qua dữ liệu. Bạn chỉ phải trả tiền cho những gì mình sử dụng, giữ chi phí ở mức có thể quản lý. Bạn tiếp tục được hưởng mọi lợi ích từ hiệu suất hàng đầu, tính năng SQL phong phú, khả năng tích hợp liền mạch với hồ dữ liệu và kho dữ liệu hoạt động, cùng khả năng phân tích và chia sẻ dữ liệu tích hợp của Amazon Redshift. Nếu bạn cần kiểm soát chi tiết kho dữ liệu của mình, bạn có thể cung cấp các cụm Redshift.

Amazon Redshift phi máy chủ phối hợp với các dịch vụ AWS khác như thế nào?

Bạn có thể tiếp tục sử dụng tất cả chức năng phân tích phong phú của Amazon Redshift như các hoạt động kết hợp phức tạp, truy vấn trực tiếp đến dữ liệu trong hồ dữ liệu và cơ sở dữ liệu hoạt động Amazon S3, chế độ xem cụ thể hóa, quy trình được lưu trữ, hỗ trợ dữ liệu bán cấu trúc và ML, cũng như là hiệu năng cao trên quy mô lớn. Mọi dịch vụ liên quan tích hợp với Amazon Redshift (như Amazon Kinesis, AWS Lambda, Amazon QuickSight, Amazon SageMaker, Amazon EMR, AWS Lake Formation và AWS Glue) vẫn tiếp tục hoạt động với Amazon Redshift phi máy chủ.

Tôi có thể xử lý trường hợp sử dụng nào với Amazon Redshift phi máy chủ?

Bạn có thể tiếp tục chạy mọi trường hợp sử dụng phân tích. Với quy trình công việc bắt đầu đơn giản, tự động điều chỉnh quy mô cùng khả năng trả phí theo mức sử dụng, trải nghiệm Amazon Redshift phi máy chủ hiện càng trở nên hiệu quả và tiết kiệm hơn khi chạy các môi trường kiểm thử và phát triển yêu cầu phải bắt đầu nhanh chóng, phân tích kinh doanh tùy biến, khối lượng công việc có nhu cầu điện toán đa dạng và khó dự đoán, cũng như khối lượng công việc ngắt quãng hoặc không đều đặn.

Tải nhập và tải dữ liệu

Mở tất cả

Làm thế nào để tải dữ liệu vào kho dữ liệu Amazon Redshift?

Bạn có thể tải dữ liệu vào Amazon Redshift từ nhiều nguồn dữ liệu khác nhau, như Amazon S3, Amazon RDS, Amazon DynamoDB, Amazon EMR, AWS Glue, Quy trình dữ liệu của AWS và/hoặc bất kỳ máy chủ nào có hỗ trợ SSH trên Amazon EC2 hoặc tại chỗ. Amazon Redshift cố gắng tải dữ liệu song song vào từng nút điện toán nhằm tăng tối đa tốc độ thu nạp dữ liệu của bạn vào cụm kho dữ liệu. Khách hàng có thể kết nối với Amazon Redshift bằng ODBC hoặc JDBC rồi phát hành lệnh 'chèn' SQL để chèn dữ liệu. Xin lưu ý quá trình này chậm hơn so với khi sử dụng S3 hoặc DynamoDB, vì các phương thức đó tải dữ liệu song song vào từng nút điện toán, còn lệnh chèn SQL chỉ tải thông qua một nút chính. Để biết thêm chi tiết về tải dữ liệu lên Amazon Redshift, vui lòng xem Hướng dẫn bắt đầu của chúng tôi.

Tự động sao chép của Redshift có gì khác với lệnh sao chép?

Tính năng tự động sao chép của Redshift cung cấp khả năng tự động hóa các câu lệnh sao chép bằng cách theo dõi các thư mục Amazon S3 và tải nhập các tệp mới mà không cần khách hàng can thiệp. Nếu không có tính năng tự động sao chép, một câu lệnh sao chép sẽ ngay lập tức bắt đầu quá trình tải nhập tệp cho các tệp hiện có. Tính năng tự động sao chép mở rộng lệnh sao chép hiện có và cung cấp khả năng 1/ tự động hóa quy trình tải nhập tệp bằng cách theo dõi đường dẫn Amazon S3 được chỉ định cho các tệp mới, 2/ sử dụng lại cấu hình sao chép, giảm nhu cầu tạo và chạy các câu lệnh sao chép mới cho các tác vụ tải nhập lặp lại và 3/ theo dõi các tệp đã tải để tránh trùng lặp dữ liệu.

Làm thế nào để bắt đầu sử dụng tính năng tự động sao chép của Redshift?

Để bắt đầu sử dụng, khách hàng cần có một thư mục Amazon S3 mà điểm cuối của cụm/phi máy chủ Redshift của họ có thể truy cập được thư mục này, bằng cách sử dụng các vai trò IAM được liên kết và tạo một bảng Redshift để sử dụng làm đích. Khi đường dẫn Amazon S3 và bảng Redshift đã sẵn sàng, khách hàng có thể tạo tác vụ sao chép bằng cách sử dụng lệnh sao chép. Sau khi tác vụ sao chép được tạo, Redshift bắt đầu ngầm theo dõi những đường dẫn Amazon S3 đã chỉ định và khởi tạo các câu lệnh sao chép do người dùng xác định để tự động sao chép các tệp mới vào bảng đích.

Tích hợp Amazon Redshift cho Apache Spark có những trường hợp sử dụng nào?

Các trường hợp sử dụng chính bao gồm: 1/ Khách hàng sử dụng Amazon EMR và AWS Glue để chạy các tác vụ Apache Spark truy cập và tải dữ liệu vào Amazon Redshift như một phần của quy trình tải nhập và chuyển đổi dữ liệu (hàng loạt và truyền phát) 2/ Khách hàng sử dụng Amazon SageMaker để thực hiện máy học bằng Apache Spark và phải truy cập dữ liệu được lưu trữ trong Amazon Redshift để chuyển đổi và thiết kế tính năng. 3/ Khách hàng Amazon Athena sử dụng Apache Spark để thực hiện phân tích tương tác trên dữ liệu trong Amazon Redshift.

Tích hợp Amazon Redshift cho Apache Spark mang lại những lợi ích gì?

Baikal cung cấp những lợi ích sau:

Dễ sử dụng để bắt đầu và chạy các ứng dụng Apache Spark trên dữ liệu trong Amazon Redshift mà không phải lo lắng về các bước thủ công liên quan đến việc thiết lập và duy trì các phiên bản chưa được chứng nhận của Spark
Thuận tiện khi sử dụng Apache Spark từ các dịch vụ AWS khác nhau như Amazon EMR, AWS Glue, Amazon Athena và Amazon SageMaker với Amazon Redshift cùng cấu hình tối thiểu
Cải thiện hiệu suất khi chạy các ứng dụng Apache Spark trên Amazon Redshift

Khi nào tôi nên sử dụng tích hợp Zero-ETL trên Amazon Aurora với Amazon Redshift thay vì Truy vấn liên kết?

Tích hợp Zero-ETL trên Amazon Aurora với Amazon Redshift cho phép khách hàng của Amazon Aurora và Amazon Redshift chạy phân tích gần theo thời gian thực và máy học trên hàng petabyte dữ liệu giao dịch bằng cách cung cấp giải pháp được quản lý toàn phần để đưa dữ liệu giao dịch từ Amazon Aurora vào Amazon Redshift trong vòng vài giây kể từ khi được ghi. Với tích hợp Zero-ETL trên Amazon Aurora với Amazon Redshift, khách hàng chỉ cần chọn các bảng Amazon Aurora chứa dữ liệu họ muốn phân tích với Amazon Redshift, sau đó tính năng này sẽ sao chép liền mạch lược đồ và dữ liệu vào Amazon Redshift. Tính năng này giúp khách hàng giảm nhu cầu xây dựng và quản lý quy trình dữ liệu phức tạp, thay vào đó, họ có thể tập trung vào việc cải thiện các ứng dụng của mình. Với tích hợp Zero-ETL trên Amazon Aurora với Amazon Redshift, khách hàng có thể sao chép dữ liệu từ nhiều cụm cơ sở dữ liệu Amazon Aurora vào cùng một phiên bản Amazon Redshift để có được thông tin chuyên sâu toàn diện về một số ứng dụng, đồng thời hợp nhất các tài sản phân tích cốt lõi của họ, giúp tiết kiệm đáng kể chi phí và tăng hiệu quả hoạt động. Với tích hợp Zero-ETL trên Amazon Aurora với Amazon Redshift, khách hàng cũng có thể truy cập các khả năng máy học và phân tích cốt lõi của Amazon Redshift, như chế độ xem cụ thể hóa, chia sẻ dữ liệu và truy cập liên kết vào nhiều kho lưu trữ dữ liệu và hồ dữ liệu. Điều này cho phép khách hàng kết hợp phân tích cốt lõi và gần theo thời gian thực để có được thông tin chuyên sâu nhạy cảm về thời gian một cách hiệu quả nhằm cung cấp thông tin cho các quyết định kinh doanh. Hơn nữa, khách hàng sử dụng Amazon Aurora để giao dịch và Amazon Redshift để phân tích, cho nên không có tài nguyên điện toán dùng chung, điều này giúp mang lại giải pháp hiệu quả và hoạt động ổn định.

Tích hợp Zero-ETL trên Amazon Aurora với Amazon Redshift liên quan/hoạt động như thế nào với các dịch vụ AWS khác?

Tính năng Tích hợp không ETL của Amazon Aurora nhờ Amazon Redshift cung cấp khả năng tích hợp liền mạch giữa hai dịch vụ để phân tích giao dịch.

Tải nhập truyền phát hoạt động như thế nào?

Dữ liệu truyền phát khác với các bảng cơ sở dữ liệu truyền thống ở chỗ khi bạn truy vấn một luồng, bạn đang ghi lại quá trình phát triển của một mối quan hệ thay đổi theo thời gian. Mặt khác, các bảng sẽ ghi lại bản kết xuất nhanh tại một thời điểm của mối quan hệ thay đổi theo thời gian này. Khách hàng của Amazon Redshift đã quen với việc vận hành trên các bảng thông thường và thực hiện xử lý hạ nguồn (tức là chuyển đổi) dữ liệu bằng cách sử dụng mô hình hàng loạt truyền thống, ví dụ như “ELT”. Chúng tôi cung cấp phương pháp sử dụng Chế độ xem cụ thể hóa (MV) Redshift để khách hàng có thể dễ dàng cụ thể hóa chế độ xem tại một thời điểm của luồng, như được tích lũy cho đến thời điểm được truy vấn, với tốc độ nhanh nhất có thể để hỗ trợ quy trình công việc ELT.

Chia sẻ dữ liệu

Mở tất cả

Truy vấn cơ sở dữ liệu chéo trong Amazon Redshift là gì?

Với truy vấn cơ sở dữ liệu chéo, bạn có thể truy vấn và kết nối dữ liệu liền mạch từ bất kỳ cơ sở dữ liệu Redshift nào mà bạn có quyền truy cập, bất kể bạn kết nối với cơ sở dữ liệu nào. Cơ sở dữ liệu này có thể bao gồm các cơ sở dữ liệu cục bộ trên cụm và cả các bộ dữ liệu dùng chung có sẵn trên các cụm từ xa. Truy vấn cơ sở dữ liệu chéo cung cấp cho bạn tính linh hoạt để sắp xếp dữ liệu dưới dạng cơ sở dữ liệu riêng biệt nhằm hỗ trợ cấu hình nhiều đối tượng thuê.

Đối tượng nào chủ yếu sử dụng Trao đổi dữ liệu trên AWS?

Trao đổi dữ liệu trên AWS giúp tăng độ hiệu quả cho các khách hàng AWS trao đổi và sử dụng dữ liệu bên thứ ba trong AWS một cách bảo mật. Nhà phân tích dữ liệu, nhà quản lý sản phẩm, nhà quản lý danh mục đầu tư, nhà khoa học dữ liệu, kỹ thuật viên thử nghiệm lâm sàng và nhà phát triển trong gần như mọi lĩnh vực cần truy cập vào nhiều dữ liệu hơn để đẩy nhanh phân tích, đào tạo mô hình ML và đưa ra các quyết định dựa trên dữ liệu. Tuy nhiên, họ không thể tìm dữ liệu từ nhiều nhà cung cấp ở một nơi duy nhất và cũng không có sự nhất quán về cách nhà cung cấp phân phối dữ liệu, khiến họ phải ôm đồm nhiều hình thức như phương tiện truyền thông vật lý được gửi đến, thông tin đăng nhập FTP và lệnh gọi API. Trái lại, nhiều tổ chức muốn cung cấp dữ liệu của họ cho mục đích nghiên cứu hoặc thương mại nhưng việc xây dựng và duy trì công nghệ phân phối, cấp quyền và tính phí cho dữ liệu lại quá khó và đắt đỏ; từ đó càng khiến nguồn cung dữ liệu quý giá trở nên khan hiếm.

Khả năng điều chỉnh quy mô và tính đồng thời

Mở tất cả

Làm thế nào để điều chỉnh kích thước và hiệu năng của cụm kho dữ liệu Amazon Redshift?

Amazon Redshift phi máy chủ tự động cung cấp dung lượng kho dữ liệu và điều chỉnh quy mô tài nguyên cơ sở một cách thông minh. Amazon Redshift phi máy chủ điều chỉnh dung lượng chỉ trong vài giây giúp mang lại hiệu năng cao ổn định và đơn giản hóa hoạt động vận hành cho cả những khối lượng công việc dễ biến động và yêu cầu khắt khe nhất. Với tính năng Điều chỉnh quy mô đồng thời, bạn có thể hỗ trợ số lượng người dùng đồng thời và truy vấn đồng thời không giới hạn với hiệu năng truy vấn luôn cực nhanh. Khi kích hoạt tính năng điều chỉnh quy mô đồng thời, Amazon Redshift tự động thêm dung lượng cụm khi cụm của bạn gặp phải tình trạng tăng hàng chờ truy vấn.

Đối với điều chỉnh quy mô thủ công, nếu muốn tăng hiệu năng truy vấn hoặc đáp ứng mức sử dụng CPU, bộ nhớ hoặc I/O tăng cao, bạn có thể tăng số nút trên cụm kho dữ liệu bằng cách sử dụng Điều chỉnh kích thước linh hoạt thông qua Bảng điều khiển quản lý AWS hoặc API ModifyCluster. Khi bạn điều chỉnh cụm kho dữ liệu, yêu cầu thay đổi của bạn sẽ được thực thi ngay lập tức. Các chỉ số về mức sử dụng điện toán, mức sử dụng dung lượng lưu trữ và lưu lượng đọc/ghi lên cụm kho dữ liệu Redshift được cung cấp miễn phí thông qua Bảng điều khiển quản lý AWS hoặc các API Amazon CloudWatch. Bạn cũng có thể thêm các chỉ số do người dùng xác định thông qua chức năng chỉ số tùy chỉnh Amazon CloudWatch.

Với Amazon Redshift Spectrum, bạn có thể chạy nhiều cụm Redshift truy cập đến dữ liệu giống nhau trên Amazon S3. Bạn có thể sử dụng nhiều cụm khác nhau cho nhiều trường hợp sử dụng khác nhau. Ví dụ: bạn có thể sử dụng một cụm cho báo cáo tiêu chuẩn và một cụm khác cho truy vấn khoa học dữ liệu. Nhóm tiếp thị của bạn có thể sử dụng các cụm riêng, khác với nhóm vận hành. Redshift Spectrum tự động phân phối hoạt động thực thi truy vấn cho một vài trình xử lý Redshift Spectrum trong một nhóm tài nguyên dùng chung để đọc và xử lý dữ liệu từ Amazon S3, rồi kéo kết quả trở về cụm Redshift của bạn để tiếp tục xử lý phần còn lại.

Trong khi điều chỉnh quy mô, cụm kho dữ liệu của tôi có sẵn dùng không?

Điều này còn nhiều yếu tố phụ thuộc. Khi sử dụng tính năng Thay đổi quy mô đồng thời, bạn hoàn toàn có thể đọc và ghi trên cụm trong suốt quá trình thay đổi quy mô đồng thời. Với chức năng Thay đổi kích thước linh hoạt, cụm sẽ không sẵn dùng trong 4 đến 8 phút điều chỉnh. Với khả năng lưu trữ linh hoạt của Redshift RA3 trong dung lượng lưu trữ được quản lý, cụm sẽ hoàn toàn sẵn, dữ liệu sẽ tự động được di chuyển giữa dung lượng lưu trữ được quản lý và các nút điện toán.

Điều chỉnh kích thước linh hoạt là gì và tính năng này có gì khác với Điều chỉnh quy mô đồng thời?

Tính năng Điều chỉnh kích thước linh hoạt sẽ bổ sung hoặc loại bỏ các nút khỏi một cụm Redshift đơn trong vòng vài phút để quản lý thông lượng truy vấn của cụm đó. Ví dụ: khối lượng công việc ETL cho các giờ nhất định trong ngày hoặc báo cáo cuối tháng có thể cần thêm tài nguyên Amazon Redshift để hoàn thành đúng hạn. Điều chỉnh quy mô đồng thời bổ sung thêm tài nguyên cụm để tăng lượng truy vấn đồng thời tổng thể.

Tôi có thể truy cập trực tiếp các cụm Thay đổi quy mô đồng thời không?

Không. Điều chỉnh quy mô đồng thời là nhóm tài nguyên Amazon Redshift có quy mô linh hoạt lớn và khách hàng không có quyền truy cập trực tiếp vào đó.

Bảo mật

Mở tất cả

Amazon Redshift bảo mật dữ liệu của tôi như thế nào?

Amazon Redshift hỗ trợ khả năng bảo mật đầu ngành với tích hợp quản lý và liên kết danh tính cho đăng nhập đơn (SSO), xác thực nhiều yếu tố, kiểm soát truy cập theo cấp độ cột, bảo mật theo cấp độ hàng, kiểm soát truy cập dựa trên vai trò và Đám mây riêng ảo của Amazon (Amazon VPC). Với Amazon Redshift, dữ liệu của bạn được mã hóa khi đang được truyền và đang được lưu trữ. Tất cả các tính năng bảo mật của Amazon Redshift đều được cung cấp sẵn mà không mất thêm phí nhằm đáp ứng các yêu cầu khắt khe nhất về bảo mật, quyền riêng tư và tuân thủ. Bạn hưởng lợi từ việc AWS hỗ trợ nhiều tiêu chuẩn bảo mật và chứng nhận tuân thủ hơn bất kỳ nhà cung cấp nào khác, bao gồm ISO 27001, SOC, HIPAA/HITECH và FedRAMP.

Redshift có hỗ trợ kiểm soát quyền truy cập ở mức độ chi tiết không?

Amazon Redshift hỗ trợ khả năng kiểm soát quyền truy cập dựa trên vai trò. Kiểm soát quyền truy cập theo cấp độ hàng cho phép bạn chỉ định một hoặc nhiều vai trò cho một người dùng, cũng như chỉ định hệ thống và các quyền đối tượng theo vai trò. Bạn có thể áp dụng các vai trò trong hệ thống dùng ngay như người dùng gốc, dba, người vận hành và quản trị viên bảo mật, hoặc bạn có thể tạo các vai trò của riêng mình.

Amazon Redshift có hỗ trợ che mặt nạ dữ liệu hoặc token hóa dữ liệu không?

Các hàm do người dùng xác định (UDF) của AWS Lambda cho phép bạn sử dụng hàm AWS Lambda làm UDF trong Amazon Redshift và gọi hàm từ các truy vấn Redshift SQL. Chức năng này cho phép bạn ghi các phần mở rộng tùy chỉnh cho truy vấn SQL của mình để đạt được sự tích hợp chặt chẽ hơn với các dịch vụ khác hoặc các sản phẩm của bên thứ ba. Bạn có thể ghi UDF Lambda để kích hoạt token hóa bên ngoài, che chắn dữ liệu, nhận dạng hoặc khử nhận dạng dữ liệu bằng cách tích hợp với các nhà cung cấp như Protegrity và bảo vệ hoặc ngừng bảo vệ dữ liệu nhạy cảm dựa trên quyền và nhóm của người dùng, trong thời gian truy vấn.

Với sự hỗ trợ tính năng che chắn dữ liệu động, khách hàng có thể dễ dàng bảo vệ dữ liệu nhạy cảm của mình và kiểm soát quyền truy cập ở mức độ chi tiết bằng cách quản lý các chính sách Che chắn dữ liệu. Giả sử bạn có các ứng dụng gồm nhiều người dùng và đối tượng có dữ liệu nhạy cảm không thể hiển thị cho tất cả người dùng. Bạn có các yêu cầu để cung cấp mức bảo mật ở cấp độ chi tiết khác mà bạn muốn áp dụng cho các nhóm người dùng khác nhau. Tính năng Che chắn dữ liệu động của Redshift có khả năng đặt cấu hình để cho phép khách hàng xác định các giá trị dữ liệu được che chắn nhất quán, giữ nguyên định dạng và không thể đảo ngược. Khi tính năng này được cung cấp rộng rãi, bạn có thể bắt đầu sử dụng ngay lập tức. Quản trị viên bảo mật có thể tạo và áp dụng các chính sách chỉ với một vài lệnh.

Amazon Redshift có hỗ trợ khả năng đăng nhập đơn không?

Có. Những khách hàng muốn dùng công cụ cung cấp thông tin nhận dạng của doanh nghiệp, như Microsoft Azure Active Directory, Active Directory Federation Services, Okta, Ping Federate hay các công cụ cung cấp thông tin nhận dạng khác tuân thủ SAML, đều có thể đặt cấu hình để Amazon Redshift cung cấp khả năng đăng nhập đơn. Bạn có thể đăng nhập vào cụm Amazon Redshift bằng thông tin nhận dạng trên Microsoft Azure Active Directory (AD). Điều này cho phép bạn có được khả năng đăng nhập vào Redshift mà không cần sao chép thông tin nhận dạng Azure Active Directory trong Redshift.

Amazon Redshift có hỗ trợ chức năng xác thực nhiều yếu tố (MFA) không?

Có. Bạn có thể sử dụng chức năng xác thực nhiều yếu tố (MFA) để tăng mức độ bảo mật khi xác thực cho cụm Amazon Redshift.

Độ khả dụng và độ bền cao

Mở tất cả

Điều gì xảy ra với khả năng sẵn sàng của cụm kho dữ liệu của tôi và độ bền dữ liệu nếu một nút gặp sự cố?

Amazon Redshift sẽ tự động phát hiện và thay thế nút gặp sự cố trong cụm kho dữ liệu của bạn. Trên các cụm Điện toán mật độ cao (DC) và Lưu trữ mật độ cao (DS2), dữ liệu được lưu trữ trên các cụm điện toán để đảm bảo độ bền dữ liệu cao. Khi một nút được thay thế, dữ liệu được làm mới từ bản sao phản chiếu trên một cụm khác. Các cụm RA3 và Redshift phi máy chủ không chịu tác động tương tự như vậy vì dữ liệu được lưu trữ trong Amazon S3 và ổ cứng cục bộ chỉ được dùng làm bộ nhớ đệm dữ liệu. Cụm kho dữ liệu sẽ không sẵn sàng cho truy vấn và cập nhật đến khi nút thay thế được cung cấp và thêm vào CSDL. Amazon Redshift làm cho nút thay thế của bạn sẵn sàng ngay lập tức và ưu tiên tải dữ liệu thường xuyên truy cập nhất của bạn từ Amazon S3 trước để cho phép bạn tiếp tục truy vấn dữ liệu nhanh nhất có thể. Các cụm một nút không hỗ trợ sao chép dữ liệu. Trong trường hợp sự cố ổ đĩa, bạn phải khôi phục cụm từ bản kết xuất nhanh trên S3. Chúng tôi khuyến cáo nên sử dụng tối thiểu hai nút cho môi trường sản xuất.

Điều gì xảy ra với khả năng sẵn sàng của cụm kho dữ liệu của tôi và độ bền dữ liệu nếu Vùng sẵn sàng (AZ) của cụm kho dữ liệu của tôi ngừng hoạt động?

Nếu kho dữ liệu Amazon Redshift của bạn là triển khai Một vùng sẵn sàng và Vùng sẵn sàng của cụm không khả dụng, thì Amazon Redshift sẽ tự động di chuyển cụm của bạn sang Vùng sẵn sàng (AZ) AWS khác mà không có bất kỳ tình trạng mất dữ liệu hay thay đổi ứng dụng nào. Để kích hoạt tính năng này, bạn phải bật khả năng chuyển vị trí trong mục cài đặt cấu hình cụm của mình.

Tại sao tôi nên sử dụng triển khai Nhiều vùng sẵn sàng của Redshift?

Không giống như triển khai một vùng sẵn sàng, giờ đây khách hàng có thể cải thiện khả năng sẵn sàng của Redshift bằng cách chạy kho dữ liệu của họ trong triển khai nhiều vùng sẵn sàng. Triển khai nhiều vùng sẵn sàng cho phép bạn chạy đồng thời kho dữ liệu của mình trong nhiều Vùng sẵn sàng (AZ) AWS và tiếp tục hoạt động trong các tình huống bất ngờ xảy ra lỗi. Không cần thay đổi ứng dụng để duy trì tính liên tục cho việc kinh doanh do triển khai Nhiều vùng sẵn sàng được quản lý dưới dạng một kho dữ liệu đơn với một điểm cuối. Triển khai Nhiều vùng sẵn sàng giúp giảm thời gian phục hồi bằng cách đảm bảo công suất tự động phục hồi và dành cho những khách hàng có các ứng dụng phân tích trọng yếu đối với doanh nghiệp yêu cầu mức độ sẵn sàng và khả năng phục hồi cao nhất khi AZ xảy ra lỗi. Điều này cũng cho phép khách hàng triển khai một giải pháp phù hợp hơn với các đề xuất của Trụ cột độ tin cậy của Khung AWS Well-Architected. Để tìm hiểu thêm về Nhiều vùng sẵn sàng của Amazon Redshift, tham khảo tại đây.

RPO và RTO là gì? RPO và RTO nào được hỗ trợ với triển khai Nhiều vùng sẵn sàng?

RPO là từ viết tắt của Điểm phục hồi mục tiêu và là một thuật ngữ để mô tả việc đảm bảo về tính chất mới gần đây của dữ liệu trong trường hợp xảy ra lỗi. RPO là lượng thời gian tối đa có thể chấp nhận được kể từ điểm phục hồi dữ liệu gần nhất. Điều này xác định thế nào được coi là mất dữ liệu có thể chấp nhận được giữa điểm phục hồi gần nhất và khi dịch vụ bị gián đoạn. Nhiều vùng sẵn sàng của Redshift hỗ trợ RPO = 0 nghĩa là dữ liệu được đảm bảo là đang ở thời điểm hiện tại và được cập nhật mới nhất trong trường hợp xảy ra lỗi. Các kiểm thử trước khi ra mắt của chúng tôi cho thấy RTO có triển khai nhiều vùng sẵn sàng của Amazon Redshift ít hơn 60 giây trở xuống, trong trường hợp khó xảy ra lỗi AZ.

Nhiều vùng sẵn sàng của Redshift có gì khác biệt so với tính năng Chuyển vị trí Redshift hiện có?

Chuyển vị trí Redshift được bật theo mặc định trên tất cả các cụm RA3 mới và điểm cuối phi máy chủ, cho phép khởi động lại kho dữ liệu ở Vùng sẵn sàng khác trong trường hợp ngừng hoạt động trên quy mô lớn mà không mất dữ liệu hoặc mất thêm phí. Mặc dù tính năng Chuyển vị trí được sử dụng miễn phí, còn có những hạn chế như đây là cách tiếp cận trên cơ sở theo khả năng tối đa tùy thuộc vào tính sẵn sàng của tài nguyên trong Vùng sẵn sàng được phục hồi và Thời gian phục hồi mục tiêu (RTO) có thể bị ảnh hưởng bởi các vấn đề khác liên quan đến quá trình khởi động một cụm mới. Điều này có thể khiến thời gian phục hồi kéo dài từ 10 đến 60 phút. Nhiều vùng sẵn sàng của Redshift hỗ trợ các yêu cầu về tính sẵn sàng cao bằng cách cung cấp một RTO được đo bằng hàng chục giây và đảm bảo khả năng hoạt động liên tục vì không bị giới hạn về dung lượng hoặc các vấn đề tiềm ẩn khác khi tạo một cụm mới.

Truy vấn và phân tích

Mở tất cả

Amazon Redshift và Redshift Spectrum có tương thích với gói phần mềm nghiệp vụ thông minh và công cụ ETL ưa thích của tôi không?

Có, Amazon Redshift sử dụng SQL theo tiêu chuẩn ngành và được truy cập bằng cách sử dụng trình điều khiển JDBC và ODBC tiêu chuẩn. Bạn có thể tải xuống trình điều khiển JDBC và ODBC tùy chỉnh theo Amazon Redshift từ tab Kết nối máy khách của Bảng điều khiển Redshift. Chúng tôi đã chứng thực các tích hợp với nhà cung cấp BI và ETL thông dụng, một số nhà cung cấp đang cho phép dùng thử miễn phí để giúp bạn bắt đầu tải và phân tích dữ liệu. Bạn cũng có thể truy cập Chợ điện tử AWS để triển khai và định cấu hình các giải pháp được thiết kế tương thích với Amazon Redshift trong vài phút.

Amazon Redshift Spectrum hỗ trợ tất cả các công cụ máy khách Amazon Redshift. Công cụ máy khách có thể tiếp tục kết nối với điểm cuối của cụm Amazon Redshift bằng kết nối ODBC hoặc JDBC. Không yêu cầu thay đổi gì.

Bạn sử dụng cú pháp truy vấn giống hệt và có các tính năng truy vấn tương tự để truy cập bảng trên Redshift Spectrum như các tính năng bạn có cho bảng trên bộ lưu trữ cục bộ của cụm Redshift. Bảng bên ngoài được tham chiếu bằng cách sử dụng tên schema xác định theo lệnh CREATE EXTERNAL SCHEMA, nơi chúng đã được đăng ký.

Amazon Redshift Spectrum hỗ trợ những định dạng dữ liệu và định dạng nén nào?

Amazon Redshift Spectrum hiện hỗ trợ nhiều định dạng dữ liệu nguồn mở, như: Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text và TSV.<br>Amazon Redshift Spectrum hiện hỗ trợ dạng nén Gzip và Snappy.

Điều gì xảy ra nếu một bảng trên kho lưu trữ cục bộ của tôi có tên giống với bảng bên ngoài?

Giống như bảng cục bộ, bạn có thể sử dụng tên quy ước để chọn chính xác bảng mong muốn bằng cách sử dụng schema_name.table_name trong truy vấn của bạn.

Tôi sử dụng Hive Metastore để lưu trữ siêu dữ liệu về hồ dữ liệu S3. Tôi có thể sử dụng Redshift Spectrum không?

Có. Lệnh CREATE EXTERNAL SCHEMA hỗ trợ Hive Metastores. Chúng tôi hiện không hỗ trợ DDL cho Hive Metastore.

Làm thế nào để lấy danh sách toàn bộ các bảng cơ sở dữ liệu bên ngoài được tạo trên cụm của tôi?

Bạn có thể truy vấn bảng hệ thống SVV_EXTERNAL_TABLES để xem thông tin đó.

Redshift có hỗ trợ khả năng sử dụng Máy học với SQL không?

Có, tính năng Amazon Redshift ML giúp người dùng SQL dễ dàng tạo, đào tạo và triển khai các mô hình máy học (ML) bằng cách sử dụng các lệnh SQL quen thuộc. Amazon Redshift ML cho phép bạn tận dụng dữ liệu của mình trong Amazon Redshift với Amazon SageMaker, một dịch vụ ML được quản lý hoàn toàn. Amazon Redshift hỗ trợ cả quá trình học không giám sát (K-Means) và có giám sát (các thuật toán Autopilot, XGBoost, MLP). Bạn cũng có thể sử dụng dịch vụ AI ngôn ngữ AWS để dịch, biên tập và phân tích các trường văn bản trong truy vấn SQL bằng các hàm UDF Lambda dựng sẵn - xem bài đăng trên blog.

Amazon Redshift có cung cấp API để truy vấn dữ liệu không?

Amazon Redshift cung cấp API Dữ liệu mà bạn có thể sử dụng để dễ dàng truy cập dữ liệu từ Amazon Redshift bằng tất cả các loại ứng dụng theo sự kiện và ứng dụng dựa trên dịch vụ web phi máy chủ, nằm trong bộ chứa và truyền thống, hoạt động trên đám mây. API Dữ liệu đơn giản hóa việc truy cập vào Amazon Redshift vì bạn không cần đặt cấu hình trình điều khiển và quản lý kết nối cơ sở dữ liệu. Thay vào đó, bạn có thể chạy các lệnh SQL tới cụm Amazon Redshift đơn giản bằng cách gọi điểm cuối API bảo mật do API Dữ liệu cung cấp. API dữ liệu quản lý các kết nối cơ sở dữ liệu và dữ liệu đệm. API dữ liệu không đồng bộ, do đó bạn có thể truy xuất kết quả sau này. Kết quả truy vấn của bạn được lưu trữ trong 24 giờ.

Tôi có thể sử dụng những loại thông tin chứng thực nào với API dữ liệu của Amazon Redshift?

API dữ liệu hỗ trợ thông tin chứng thực IAM và sử dụng khóa bí mật từ Trình quản lý thông tin bí mật của AWS. API dữ liệu liên kết thông tin chứng thực Quản lý danh tính và truy cập (IAM) trong AWS để bạn có thể sử dụng các nhà cung cấp danh tính như Okta hoặc Azure Active Directory hãy thông tin xác thực cơ sở dữ liệu được lưu trữ trong Trình quản lý thông tin bí mật mà không cần chuyển thông tin xác thực cơ sở dữ liệu trong lệnh gọi API.

Tôi có thể sử dụng API dữ liệu Amazon Redshift từ AWS CLI không?

Có, bạn có thể sử dụng API dữ liệu từ AWS CLI bằng tùy chọn dòng lệnh aws redshift-data.

API dữ liệu của Redshift có được tích hợp với các dịch vụ AWS khác không?

Bạn có thể sử dụng API dữ liệu từ các dịch vụ khác như AWS Lambda, AWS Cloud9, AWS AppSync và Amazon EventBridge.

Tôi có phải trả phí riêng cho việc sử dụng API dữ liệu của Amazon Redshift không?

Không, chúng tôi không tính phí riêng cho việc sử dụng API dữ liệu.

Tích hợp không ETL

Mở tất cả

Tích hợp không ETL là gì?

Zero-ETL là một tập hợp các tích hợp được quản lý hoàn toàn bởi AWS giúp loại bỏ hoặc giảm thiểu nhu cầu xây dựng các đường dẫn dữ liệu trích xuất, chuyển đổi và tải (ETL). Zero-ETL cung cấp dữ liệu vàoHồ dữ liệu SageMaker và Amazon Redshift từ nhiều nguồn hoạt động, nguồn giao dịch và ứng dụng doanh nghiệp. ETL là quá trình kết hợp, làm sạch và chuẩn hóa dữ liệu từ các nguồn khác nhau để sẵn sàng cho khối lượng công việc phân tích, AI,và ML. Các quy trình ETL truyền thống tốn nhiều thời gian và phức tạp để phát triển, duy trì và điều chỉnh quy mô. Thay vào đó, tích hợp không ETL tạo điều kiện thuận lợi cho việc di chuyển dữ liệu point-to-point (điểm nối điểm) mà không cần tạo và vận hành quy trình dữ liệu ETL.

Truy cập Zero-ETL là gì? để tìm hiểu thêm.

Tích hợp không ETL giải quyết những thách thức ETL nào?

Tích hợp không ETL giải quyết nhiều thách thức khi di chuyển dữ liệu hiện có trong các quy trình ETL truyền thống, bao gồm:

Độ phức tạp tăng cao của hệ thống do các quy tắc ánh xạ dữ liệu, quá trình xử lý lỗi và những yêu cầu bảo mật phức tạp
Chi phí bổ sung do khối lượng dữ liệu ngày càng tăng, nâng cấp cơ sở hạ tầng và bảo trì
Sự chậm trễ trong việc phân tích, AI và ML do phát triển và triển khai mã tùy chỉnh, dẫn đến mất cơ hội cho các trường hợp sử dụng thời gian thực.

Tích hợp không ETL mang lại những lợi ích gì?

Tăng tính linh hoạt: Tích hợp không ETL đơn giản hóa kiến trúc dữ liệu và giảm các nỗ lực thu thập cũng như sử dụng dữ liệu. Giải pháp này cho phép bao gồm các nguồn dữ liệu mới mà không cần phải xử lý lại lượng lớn dữ liệu. Điều này giúp tăng tính linh hoạt, hỗ trợ việc ra quyết định dựa trên dữ liệu và đổi mới nhanh chóng.
Tiết kiệm chi phí: Tích hợp không ETL sử dụng các công nghệ tích hợp dữ liệu hoạt động trên đám mây và có thể điều chỉnh quy mô, cho phép các doanh nghiệp tối ưu hóa chi phí dựa trên nhu cầu sử dụng và xử lý dữ liệu thực tế. Các tổ chức giảm được chi phí cơ sở hạ tầng, nỗ lực phát triển và chi phí bảo trì
Thời gian nhận thông tin chuyên sâu nhanh chóng: Các quy trình ETL truyền thống thường bao gồm các bản cập nhật hàng loạt định kỳ, dẫn đến sự trì hoãn truy cập dữ liệu. Mặt khác, tích hợp không ETL cung cấp quyền truy cập dữ liệu gần theo thời gian thực, để giúp cung cấp dữ liệu mới hơn cho việc phân tích, thực hành AI/ML và báo cáo. Bạn nhận được thông tin chuyên sâu chính xác và kịp thời hơn cho các trường hợp sử dụng như bảng điều khiển theo thời gian thực, trải nghiệm chơi game được tối ưu hóa, giám sát chất lượng dữ liệu và phân tích hành vi của khách hàng. Các tổ chức có thể đưa ra các dự đoán dựa trên dữ liệu một cách tự tin hơn, cải thiện trải nghiệm của khách hàng và thúc đẩy thông tin chuyên sâu dựa trên dữ liệu trong toàn bộ doanh nghiệp.

Những tích hợp không ETL nào có sẵn từ AWS hiện nay?

Tại re:Invent 2024, chúng tôi sẽ công bố bốn tích hợp không ETL sau đây:

Hồ dữ liệu Amazon SageMaker và Amazon Redshift hỗ trợ tích hợp không ETL từ các ứng dụng
Tích hợp không ETL trên Amazon DynamoDB với Hồ dữ liệu Amazon SageMaker
Tích hợp không ETL Dịch vụ OpenSearch của Amazon với Bản ghi Amazon CloudWatch
Phần tích hợp không ETL của Dịch vụ OpenSearch của Amazon với Amazon Security Lake

Kể từ khi ra mắt tích hợp không ETL, chúng tôi đã giới thiệu bảy tích hợp:

Mô hình định giá cho Không ETL là gì?

Để tìm hiểu thêm về giá cả, hãy truy cập trang định giá Amazon Redshift, AWS Glue và Hồ dữ liệu SageMaker.

Tôi có thể tìm hiểu thêm về zero-ETL và tính năng mới này ở đâu?

Để tìm hiểu thêm về zero-ETL, hãy truy cậpZero-ETL là gì?

Thay đổi lược đồ được xử lý như thế nào với tích hợp không ETL?

Dưới đây là một số điểm chính về cách xử lý các thay đổi lược đồ:

Các lệnh DDL, chẳng hạn như CREATE TABLE, ALTER TABLE, DROP TABLE, v.v. sẽ được tự động sao chép từ Aurora sang Amazon Redshift.
Việc tích hợp thực hiện các bước kiểm tra và điều chỉnh cần thiết trong bảng Amazon Redshift đối với các thay đổi lược đồ được sao chép. Ví dụ: thêm một cột trong Aurora cũng sẽ thêm cột trong Amazon Redshift.
Quá trình sao chép và thay đổi lược đồ sẽ tự động diễn ra theo thời gian thực với độ trễ tối thiểu giữa cơ sở dữ liệu nguồn và đích.
Tính nhất quán trong lược đồ được duy trì ngay cả khi các thay đổi DML xảy ra song song với các thay đổi DDL.

Làm thế nào để chạy các thao tác chuyển đổi trên dữ liệu của tôi bằng tích hợp không ETL?

Bạn có thể tạo các chế độ xem cụ thể hóa trong cơ sở dữ liệu Amazon Redshift cục bộ của mình để chuyển đổi dữ liệu được sao chép thông qua tích hợp không ETL. Kết nối với cơ sở dữ liệu cục bộ và sử dụng truy vấn cơ sở dữ liệu chéo để truy cập vào cơ sở dữ liệu đích. Bạn có thể sử dụng tên đối tượng đủ điều kiện toàn phần có ký hiệu ba phần (destination-database-name.schema-name.table-name) hoặc tạo lược đồ bên ngoài tham chiếu cơ sở dữ liệu đích và cặp lược đồ và sử dụng ký hiệu hai phần (external-schema-name.table-name).

Sao lưu và phục hồi

Mở tất cả

Amazon Redshift sao lưu dữ liệu của tôi như thế nào? Làm thế nào để khôi phục cụm từ bản sao lưu?

Các cụm Amazon Redshift RA3 và Amazon Redshift phi máy chủ sử dụng Kho lưu trữ được quản lý của Redshift luôn cung cấp bản sao dữ liệu mới nhất. Các cụm DS2 và DC2 phản chiếu dữ liệu trên cụm để đảm bảo bản sao mới nhất được cung cấp trong trường hợp xảy ra lỗi. Các bản sao lưu được tự động tạo trên tất cả các loại cụm Redshift và được lưu giữ trong 24 giờ, và trên các điểm khôi phục phi máy chủ được cung cấp trong 24 giờ qua

Bạn cũng có thể tạo bản sao lưu của riêng mình để lưu giữ lâu dài. Những bản sao lưu này có thể được tạo vào bất kỳ lúc nào và Amazon Redshift tự động tạo bản sao lưu hoặc các điểm phục hồi Amazon Redshift phi máy chủ có thể được chuyển thành một bản sao lưu của người dùng để lưu giữ lâu hơn.

Amazon Redshift cũng có thể sao chép không đồng bộ các bản kết xuất nhanh của bạn hoặc các điểm khôi phục lên Amazon S3 ở Khu vực khác để phục hồi sau thảm họa.

Trên một cụm DS2 hoặc DC2, lưu trữ sao lưu miễn phí chỉ giới hạn theo tổng dung lượng lưu trữ trên các nút của cụm kho dữ liệu và chỉ áp dụng với cụm kho dữ liệu hiện hoạt.

Ví dụ: nếu bạn có tổng dung lượng lưu trữ kho dữ liệu bằng 8 TB, chúng tôi sẽ cung cấp tối đa 8 TB dung lượng lưu trữ sao lưu và không tính thêm phí. Nếu bạn muốn tăng thời gian lưu giữ bản sao lưu lên nhiều ngày, bạn có thể làm việc này bằng Bảng điều khiển quản lý AWS hoặc API Amazon Redshift. Để biết thêm thông tin về tự động kết xuất nhanh, vui lòng tham khảo Hướng dẫn quản lý Amazon Redshift.

Amazon Redshift chỉ sao lưu dữ liệu có sự thay đổi để hầu hết các ảnh chụp nhanh chỉ chiếm một phần nhỏ dung lượng lưu trữ sao lưu khả dụng của bạn. Khi bạn cần khôi phục bản sao lưu, bạn có thể truy cập tất cả các bản sao lưu tự động trong khoảng thời gian lưu giữ sao lưu của bạn. Sau khi bạn chọn bản sao lưu để khôi phục, chúng tôi sẽ cung cấp một cụm kho dữ liệu mới và khôi phục dữ liệu của bạn lên cụm đó.

Làm thế nào để quản lý việc lưu giữ bản sao lưu và bản kết xuất nhanh tự động của tôi?

Bạn có thể sử dụng Bảng điều khiển quản lý AWS hoặc API ModifyCluster để quản lý khoảng thời gian giữ lại bản sao lưu tự động của bạn bằng cách điều chỉnh thông số RetentionPeriod. Nếu muốn tắt tự động sao lưu, bạn có thể thiết lập thời gian giữ lại bằng 0 (không khuyến cáo).

Điều gì xảy ra với bản sao lưu nếu tôi xóa cụm kho dữ liệu của mình?

Khi xóa cụm kho dữ liệu, bạn có khả năng chỉ định có tạo bản kết xuất nhanh cuối cùng sau khi xóa hay không. Thao tác này cho phép khôi phục cụm kho dữ liệu đã bị xóa trong tương lai. Toàn bộ các bản kết xuất nhanh thủ công tạo ra trước đó của cụm kho dữ liệu sẽ được giữ lại và tính phí theo mức phí tiêu chuẩn của Amazon S3, trừ phi bạn chọn xóa chúng.

Giám sát và bảo trì

Mở tất cả

Làm thế nào để giám sát hiệu năng của cụm kho dữ liệu Amazon Redshift?

Các chỉ số về mức sử dụng điện toán, mức sử dụng dung lượng lưu trữ và lưu lượng đọc/ghi lên cụm kho dữ liệu Amazon Redshift được cung cấp miễn phí thông qua Bảng điều khiển quản lý AWS hoặc các API Amazon CloudWatch. Bạn cũng có thể thêm các chỉ số khác do người dùng xác định thông qua chức năng chỉ số tùy chỉnh của Amazon CloudWatch. Bảng điều khiển quản lý AWS cung cấp một bảng thông tin giám sát giúp bạn giám sát tình trạng và hiệu năng ở tất cả các cụm của bạn. Amazon Redshift cũng cung cấp thông tin về hiệu năng truy vấn và cụm thông qua Bảng điều khiển quản lý AWS. Thông tin này cho phép bạn xem người dùng và truy vấn nào sử dụng nhiều tài nguyên hệ thống nhất để chẩn đoán các vấn đề về hiệu suất thông qua việc quan sát các kế hoạch truy vấn và số liệu thống kê thực hiện. Ngoài ra, bạn có thể xem mức sử dụng tài nguyên trên mỗi nút điện toán để bảo đảm bạn có dữ liệu và truy vấn được cân bằng phù hợp giữa tất cả các nút.

Thế nào là một khoảng thời gian bảo trì? Cụm kho dữ liệu của tôi có sẵn sàng trong quá trình bảo trì phần mềm không?

Amazon Redshift định kỳ thực hiện bảo trì để áp dụng các bản sửa lỗi, tăng cường và tính năng mới cho cụm của bạn. Bạn có thể thay đổi khung thời gian bảo trì theo lịch này bằng cách điều chỉnh cụm, qua phương thức lập trình hoặc sử dụng Bảng điều khiển Redshift. Trong khoảng thời gian bảo trì này, cụm Amazon Redshift của bạn không còn sẵn sàng để phục vụ các thao tác thông thường nữa. Để biết thêm thông tin về khung thời gian bảo trì và lịch theo Khu vực, xem Khung thời gian bảo trì trong Hướng dẫn quản lý Amazon Redshift.

Bắt đầu với Amazon Redshift

Tìm hiểu thêm về giá Amazon Redshift

Truy cập trang giá

Bạn đã sẵn sàng xây dựng chưa?

Bắt đầu sử dụng Amazon Redshift

Bạn có thêm thắc mắc?

Liên hệ với chúng tôi

Chọn tùy chọn cookie của bạn

Câu hỏi thường gặp về Amazon Redshift

Chủ đề trang

Thông tin chung

Amazon Redshift là gì?

Đâu là những lý do quan trọng nhất để khách hàng chọn Amazon Redshift?

Amazon Redshift tinh giản việc quản lý kho dữ liệu và phân tích như thế nào?

Có các tùy chọn triển khai nào cho Amazon Redshift?

Làm thế nào để bắt đầu sử dụng Amazon Redshift?

Amazon Redshift có hiệu năng ra sao so với các kho dữ liệu khác?

Tôi có thể nhận trợ giúp để tìm hiểu thêm và biết cách bắt đầu sử dụng Amazon Redshift không?

Bộ lưu trữ được Amazon Redshift quản lý là gì?

Làm thế nào để sử dụng bộ lưu trữ được quản lý của Amazon Redshift?

Làm thế nào để chạy truy vấn từ Redshift cho dữ liệu được lưu trữ trong Hồ dữ liệu AWS?

Khi nào tôi nên cân nhắc sử dụng các phiên bản RA3?

Tôi có thể sử dụng tính năng nào để phân tích dựa trên vị trí?

Hỗ trợ SQL của Athena có khác biệt gì so với Redshift và làm thế nào để chọn giữa hai dịch vụ?

Tính linh hoạt về kích thước có áp dụng cho nút Phiên bản đặt trước Redshift không?

Phân tích SQL của Amazon SageMaker

Lợi ích của việc sử dụng Redshift trong SageMaker để phân tích SQL là gì?

Tôi có phải di chuyển dữ liệu từ Amazon S3 hoặc kho dữ liệu Amazon Redshift hiện có để sử dụng SageMaker cho phân tích SQL không?

Làm cách nào để tải dữ liệu và bắt đầu sử dụng SageMaker cho phân tích SQL?

Trải nghiệm khi sử dụng SageMaker query books như thế nào?

Làm cách nào để chia sẻ các truy vấn SQL hoặc mô hình dữ liệu của mình trong SageMaker?

Mô hình định giá cho phân tích SQL trong SageMaker là như thế nào?

SLA cho Phân tích SQL trong Amazon SageMaker là gì?

Serverless

Amazon Redshift phi máy chủ là gì?

Làm thế nào để bắt đầu sử dụng Amazon Redshift phi máy chủ

Việc sử dụng Amazon Redshift phi máy chủ có những lợi ích gì?

Amazon Redshift phi máy chủ phối hợp với các dịch vụ AWS khác như thế nào?

Tôi có thể xử lý trường hợp sử dụng nào với Amazon Redshift phi máy chủ?

Tải nhập và tải dữ liệu

Làm thế nào để tải dữ liệu vào kho dữ liệu Amazon Redshift?

Tự động sao chép của Redshift có gì khác với lệnh sao chép?

Làm thế nào để bắt đầu sử dụng tính năng tự động sao chép của Redshift?

Tích hợp Amazon Redshift cho Apache Spark có những trường hợp sử dụng nào?

Tích hợp Amazon Redshift cho Apache Spark mang lại những lợi ích gì?

Khi nào tôi nên sử dụng tích hợp Zero-ETL trên Amazon Aurora với Amazon Redshift thay vì Truy vấn liên kết?

Tích hợp Zero-ETL trên Amazon Aurora với Amazon Redshift liên quan/hoạt động như thế nào với các dịch vụ AWS khác?

Tải nhập truyền phát hoạt động như thế nào?

Chia sẻ dữ liệu

Chia sẻ dữ liệu có những trường hợp sử dụng nào?

Truy vấn cơ sở dữ liệu chéo trong Amazon Redshift là gì?

Đối tượng nào chủ yếu sử dụng Trao đổi dữ liệu trên AWS?

Khả năng điều chỉnh quy mô và tính đồng thời

Làm thế nào để điều chỉnh kích thước và hiệu năng của cụm kho dữ liệu Amazon Redshift?

Trong khi điều chỉnh quy mô, cụm kho dữ liệu của tôi có sẵn dùng không?

Điều chỉnh kích thước linh hoạt là gì và tính năng này có gì khác với Điều chỉnh quy mô đồng thời?

Tôi có thể truy cập trực tiếp các cụm Thay đổi quy mô đồng thời không?

Bảo mật

Amazon Redshift bảo mật dữ liệu của tôi như thế nào?

Redshift có hỗ trợ kiểm soát quyền truy cập ở mức độ chi tiết không?

Amazon Redshift có hỗ trợ che mặt nạ dữ liệu hoặc token hóa dữ liệu không?

Amazon Redshift có hỗ trợ khả năng đăng nhập đơn không?

Amazon Redshift có hỗ trợ chức năng xác thực nhiều yếu tố (MFA) không?

Độ khả dụng và độ bền cao

Điều gì xảy ra với khả năng sẵn sàng của cụm kho dữ liệu của tôi và độ bền dữ liệu nếu một nút gặp sự cố?

Điều gì xảy ra với khả năng sẵn sàng của cụm kho dữ liệu của tôi và độ bền dữ liệu nếu Vùng sẵn sàng (AZ) của cụm kho dữ liệu của tôi ngừng hoạt động?

Tại sao tôi nên sử dụng triển khai Nhiều vùng sẵn sàng của Redshift?

RPO và RTO là gì? RPO và RTO nào được hỗ trợ với triển khai Nhiều vùng sẵn sàng?

Nhiều vùng sẵn sàng của Redshift có gì khác biệt so với tính năng Chuyển vị trí Redshift hiện có?

Truy vấn và phân tích

Amazon Redshift và Redshift Spectrum có tương thích với gói phần mềm nghiệp vụ thông minh và công cụ ETL ưa thích của tôi không?

Amazon Redshift Spectrum hỗ trợ những định dạng dữ liệu và định dạng nén nào?

Điều gì xảy ra nếu một bảng trên kho lưu trữ cục bộ của tôi có tên giống với bảng bên ngoài?

Tôi sử dụng Hive Metastore để lưu trữ siêu dữ liệu về hồ dữ liệu S3. Tôi có thể sử dụng Redshift Spectrum không?

Làm thế nào để lấy danh sách toàn bộ các bảng cơ sở dữ liệu bên ngoài được tạo trên cụm của tôi?

Redshift có hỗ trợ khả năng sử dụng Máy học với SQL không?

Amazon Redshift có cung cấp API để truy vấn dữ liệu không?

Tôi có thể sử dụng những loại thông tin chứng thực nào với API dữ liệu của Amazon Redshift?

Tôi có thể sử dụng API dữ liệu Amazon Redshift từ AWS CLI không?

API dữ liệu của Redshift có được tích hợp với các dịch vụ AWS khác không?

Tôi có phải trả phí riêng cho việc sử dụng API dữ liệu của Amazon Redshift không?

Tích hợp không ETL

Tích hợp không ETL là gì?

Tích hợp không ETL giải quyết những thách thức ETL nào?

Tích hợp không ETL mang lại những lợi ích gì?

Những tích hợp không ETL nào có sẵn từ AWS hiện nay?

Mô hình định giá cho Không ETL là gì?