Blog de Amazon Web Services (AWS)
Category: AWS Big Data
Construyendo un Data Lake para Universidades con AWS
Por Joseph Rodríguez, Arquitecto de Soluciones en Amazon Web Services para Sector Público en Chile. Introducción En la era digital, las universidades están cada vez más conscientes del poder de los datos para mejorar la experiencia educativa y la eficiencia operativa. Sin embargo, muchas instituciones se enfrentan al desafío de manejar y analizar grandes volúmenes […]
Cree un patrón de arquitectura de Data Mesh usando Amazon DataZone
Escrito por Maddyzeth Ariza, Data Architect; Diego Valencia, Data Architect y Lesly Reyes, Telco Solutions Architect Las organizaciones buscan constantemente optimizar el uso de sus datos. A menudo, enfrentan desafíos como el acceso fragmentado y la capacidad limitada para descubrir datos valiosos. La arquitectura de Data Mesh surge como una solución convincente, que promueve un […]
Anonimice sus datos usando una máquina de estados
Por Lesly Reyes, Telco Solutions Architect y Maddyzeth Ariza, Data Architect En el desarrollo de software los clientes suelen buscar apoyo para el despliegue o desarrollo de nuevas características de sus productores en un tercero como un partner de desarrollo en la nube o servicios profesionales. En el desarrollo de software es necesario probar […]
Gestión de datos aumentada – Utilizando Glue Databrew para la limpieza automatizada de datos
Por: Janete Ribeiro Especialista en Analítica en Amazon Web Services (AWS) para América Latina y Branko Straub Arquitecto de Soluciones en Amazon Web Services (AWS) para Sector Público en Chile. “Augmented Data Management” (ADM), ¿sería solo otra palabra de moda del momento, en el mundo de la tecnología? Lo que llamamos “Augmented Data Management” o […]
Cree tableros en Microsoft Power BI utilizando el conector de Amazon Athena
Por Lesly Reyes, Telco Specialist Solutions Architect Amazon Athena permite realizar consultas interactivas sobre datos almacenados en Amazon S3 mediante el estándar SQL. Una de las características de Athena es que solo se paga por las consultas que ejecuta, debido a que no utiliza servidor por lo que no es necesario desplegar infraestructura para visualizar sus datos. […]
Mejores prácticas para ejecutar Apache Kafka en AWS
Por Prasad Alle, Consultor Senior de Big Data de AWS. NOTA: Esta publicación en el blog fue escrita antes del lanzamiento de Amazon MSK, un servicio totalmente administrado, de alta disponibilidad y seguro para Apache Kafka. Te recomendamos usar Amazon MSK en lugar de ejecutar tu propio clúster Apache Kafka en Amazon EC2. Si necesitas […]
Ahorra dinero y tiempo en tus consultas con Amazon Athena
Amazon Athena permite consultar datos en Amazon S3 mediante SQL, sin tener que gestionar servidores y pagando en función de cuántos datos leemos en cada consulta. Utilizando técnicas como la compresión de ficheros, el particionado de los datos, o los formatos de fichero especialmente diseñados para analítica de datos, reduciremos significativamente la cantidad de datos que escaneamos, ahorrando así tanto en nuestra factura como en el tiempo de respuesta.
En este artículo demostraremos cómo diferentes optimizaciones en nuestros ficheros en S3 afectan al rendimiento y al coste de nuestras consultas en Athena. Estas técnicas también nos ayudarían si estamos analizando datos con Amazon Redshift Spectrum o con Amazon EMR.
El camino hacia lo administrado: el caso de Amazon Elasticsearch Service
Por Kevin Fallis, Arquitecto Especialista en Búsqueda de Soluciones de AWS Antes de unirme a AWS, lideré un equipo de desarrollo que creaba soluciones de publicidad móvil con Elasticsearch. Elasticsearch es un popular motor de búsqueda y análisis de código abierto para análisis de registros, monitoreo de aplicaciones en tiempo real, análisis de flujos […]
Cómo Verizon Media Group migró de Apache Hadoop y Spark de su centro de datos a Amazon EMR
Este es un artículo de los autores invitados por Verizon Media Group En Verizon Media Group (VMG), uno de los principales problemas a los que nos enfrentábamos era la dificultad de ampliar la capacidad de informática en el tiempo que se requiere para adquirir hardware, lo que a menudo llevaba meses. No era rentable […]
Usando Python shell y Pandas en AWS Glue para procesar conjuntos de datos pequeños y medianos
Angelo Carvalho es Arquitecto de Big Data Solutions Architect para Amazon Web Services AWS Glue es un servicio de ETL totalmente administrado. Entre muchos recursos, este ofrece un ambiente de ejecución sin servidor para ejecutar sus trabajos de ETL. Muchos clientes de AWS están usando el ambiente Spark de AWS Glue para ejecutar tales tareas, […]