AWS anuncia nuevas capacidades de base de datos y analytics

AWS anunció cinco nuevas capacidades en su portafolio de bases de datos (BDD) y analítica que hacen que sea más rápido y fácil para los clientes administrar y analizar datos a escala de petabytes.

Redacción T21 / 16.12.2022 / 3:50 pm

Durante el AWS re: Invent, Amazon Web Services, Inc. (AWS), una empresa de Amazon.com, Inc. (NASDAQ: AMZN), anunció cinco nuevas capacidades en su portafolio de bases de datos (BDD) y analítica que hacen que sea más rápido y fácil para los clientes administrar y analizar datos a escala de petabytes. Estas nuevas capacidades de Amazon DocumentDB (con compatibilidad con MongoDB), Amazon OpenSearch Service y Amazon Athena facilitan a los clientes la ejecución de workloads de analítica y bases de datos de alto rendimiento a escala. Además, la compañía anunció una nueva capacidad para que AWS Glue administre automáticamente la calidad de los datos en data lakes y pipelines de datos. Por último, Amazon Redshift ahora ofrece compatibilidad con una configuración de alta disponibilidad entre varias AWS Availability Zones (AZ). Estos anuncios ayudarán a los clientes a aprovechar al máximo sus datos en AWS al permitirles tener acceso a las herramientas adecuadas para sus workloads de datos, operar a escala y aumentar la disponibilidad.

“Los datos son intrínsecamente dinámicos y aprovechar todo su potencial requiere una estrategia de datos end-to-end que se pueda escalar en función de las necesidades de un cliente y adaptarse a todo tipo de casos de uso, tanto ahora como en el futuro”, dice Swami Sivasubramanian, vicepresidente de bases de datos, Analytics y Machine Learning de AWS. “Para ayudar a los clientes a aprovechar al máximo su creciente volumen y variedad de datos, nos comprometemos a ofrecer el conjunto más amplio y profundo de servicios de analytics y BDD. Las nuevas capacidades anunciadas hoy hacen que sea aún más fácil para los clientes consultar, administrar y escalar sus datos y así tomar decisiones más rápido”.

Las organizaciones de hoy crean y almacenan petabytes, o incluso exabytes, de datos de un número creciente de fuentes (por ejemplo, medios digitales, transacciones online o dispositivos conectados). Para maximizar el valor de estos datos, los clientes necesitan una estrategia end-to-end que brinde acceso a las herramientas adecuadas para todos los workloads y aplicaciones, junto con la capacidad de funcionar de manera confiable a escala a medida que aumenta el volumen y la velocidad de los datos.

Para ayudar a los clientes a diseñar sus propias estrategias end-to-end, AWS ofrece el conjunto de servicios y soluciones de datos más completo del sector. Esto incluye BDD totalmente administradas y optimizadas para los casos de uso más importantes, como Amazon Aurora, para bases de datos relacionales, y Amazon DocumentDB, para bases de datos de documentos. También incluye una amplia gama de servicios de analítica para ayudar a los clientes a obtener información valiosa a partir de sus datos, incluidos Amazon OpenSearch Service para workloadsde analítica y búsqueda (por ejemplo, monitoreo de aplicaciones en tiempo real, analytics de logs y búsqueda de sitios web), Amazon Athena para analytics interactivos, AWS Glue para integración de datos y Amazon Redshift para almacenamiento. El anuncio de la compañía durante re: Invent presenta estos servicios con capacidades avanzadas:

Amazon DocumentDB Elastic Clusters impulsa aplicaciones a escala de petabytes con millones de escrituras por segundo: Decenas de miles de clientes utilizan este servicio para ejecutar sus workloads de documentos porque es rápido, escalable, altamente disponible y completamente administrado. Si bien cada nodo de Amazon DocumentDB puede escalar hasta 64 tebibytes de datos y admitir millones de solicitudes de lectura por segundo, un subconjunto de clientes con workloads extremadamente exigentes necesita la capacidad de escalar más allá de estos límites para admitir millones de escrituras por segundo y almacenar petabytes de datos. Anteriormente, estos clientes tenían que distribuir manualmente los datos y administrar la capacidad en varios nodos de Amazon DocumentDB.

Con Amazon DocumentDB Elastic Clusters los clientes podrán escalar más allá de los límites de un solo nodo de base de datos en cuestión de minutos, admitiendo millones de lecturas y escrituras por segundo y almacenando hasta 2 petabytes de datos. A medida que aumentan las demandas de workloads, Amazon DocumentDB Elastic Clusters aprovecha un sistema de almacenamiento distribuido para dividir automáticamente grandes conjuntos de datos en varios nodos. Esto elimina la necesidad de que los clientes escriban código personalizado para distribuir conjuntos de datos y administrar manualmente la capacidad entre los nodos.

Asimismo, la infraestructura subyacente se administra automáticamente, por lo que los clientes pueden escalar fácilmente la capacidad en función de sus necesidades sin necesidad de aprovisionar, escalar o administrar clústeres de bases de datos.

Amazon OpenSearch Serverless escala automáticamente los workloads de analítica y búsqueda: Para impulsar casos de uso como la búsqueda de sitios web y el monitoreo de aplicaciones en tiempo real, decenas de miles de clientes utilizan Amazon OpenSearch Service. Muchos de estos workloads son propensos a picos de uso repentinos e intermitentes, lo que dificulta la planificación de la capacidad. Amazon OpenSearch Serverless aprovisiona, configura y escala automáticamente la infraestructura para ofrecer una ingesta de datos rápida y respuestas a consultas en milisegundos, incluso para workloads impredecibles e intermitentes. Con este servicio, la ingesta de datos y los recursos de búsqueda se escalan de forma independiente, lo que permite que estas operaciones se ejecuten simultáneamente sin ningún impacto en el rendimiento.

Los clientes que utilizan Amazon OpenSearch Serverless obtienen acceso a beneficios sin servidor (aprovisionamiento automático, escalada on-demand y precios de pago por uso), junto con funciones de Amazon OpenSearch Service, como visualizaciones de datos integradas, que les ayudan a comprender los logs de datos, identificar anomalías y ver clasificaciones de relevancia de búsqueda.

Amazon Athena para Apache Spark acelera el inicio de los analytics interactivos a menos de un segundo: Los clientes utilizan Amazon Athena, un servicio de consulta interactivo sin servidor, porque es una de las formas más fáciles y rápidas de consultar petabytes de datos en Amazon Simple Storage Service (Amazon S3) mediante una interfaz SQL estándar. Muchos clientes buscan la misma facilidad de uso cuando se trata de usar Apache Spark, un marco de procesamiento de código abierto para grandes workloads de datos que admite marcos de lenguaje populares (Java, Scala, Python y R). Si bien los desarrolladores disfrutan de la rápida velocidad de consulta y la facilidad de uso de Apache Spark, no desean invertir tiempo en configurar, administrar y escalar su propia infraestructura de Apache Spark cada vez que desean ejecutar una consulta.

Ahora, con Amazon Athena para Apache Spark, los clientes no tienen que aprovisionar, configurar y escalar los recursos por sí mismos. Las aplicaciones interactivas de Apache Spark se inician en menos de un segundo y se ejecutan más rápido que el código abierto utilizando el tiempo de ejecución Spark optimizado de AWS. Debido a que Amazon Athena está integrado con otros servicios de AWS, los clientes pueden consultar datos de múltiples fuentes, encadenar cálculos para realizar análisis complejos y visualizar los resultados. De esta forma, Amazon Athena para Apache Spark determina automáticamente los recursos necesarios en función de la demanda de la aplicación y escala según sea necesario, para que los clientes solo paguen por las consultas que ejecutan.

AWS Glue Data Quality monitorea y administra automáticamente la calidad, la precisión y la integridad de los datos: Cientos de miles de clientes utilizan AWS Glue para crear y administrar canales de datos modernos de forma rápida, fácil y rentable. Las organizaciones necesitan monitorear la calidad, precisión e integridad de los datos, de la información en sus data lakes y pipelines de datos para garantizar que sean de alta calidad antes de usarlos para potenciar sus aplicaciones de análisis o Machine Learning. Pero la gestión eficaz de la calidad de los datos es un proceso complejo que requiere mucho tiempo, lo que hace que los ingenieros de datos pasen días reuniendo estadísticas detalladas, identificando manualmente las reglas de calidad de los datos basadas en esas estadísticas y aplicándolas a miles de conjuntos y pipeline de datos. Una vez que se implementan estas reglas, los ingenieros de datos deben monitorear continuamente los errores o cambios en los datos para ajustar las reglas en consecuencia.

AWS Glue Data Quality mide, monitorea y administra automáticamente la calidad de los datos de los data lakes de Amazon S3 y los pipelines de AWS Glue, lo que reduce el tiempo de análisis de datos y la identificación de las reglas de días a horas. AWS Glue Data Quality calcula estadísticas para conjuntos de datos de clientes (mínimos, máximos, histogramas y correlaciones) y las usa para recomendar automáticamente reglas. Los clientes pueden programar AWS Glue Data Quality para que se ejecute periódicamente a medida que cambian los datos para que los analice automáticamente y proponga cambios en las reglas de calidad para garantizar la relevancia. Los ingenieros de datos pueden configurar acciones para alertar a los usuarios o detener las canalizaciones de datos cuando ocurren problemas de calidad, sin tener que escribir código.

Amazon Redshift ahora admite implementaciones multi-AZ: varios clientes de AWS procesan colectivamente exabytes de datos con Amazon Redshift todos los días. Para respaldar los workloads de misión crítica de estos clientes, este servicio ofrece capacidades que aumentan la disponibilidad y la confiabilidad, como hacer copias de seguridad automáticas o reubicar clústeres a otra AZ en minutos. En la actualidad, muchas bases de datos utilizan un modo de replicación de standby primario para admitir una alta disponibilidad en la que una sola base de datos atiende el tráfico en vivo y las copias de standby replican los datos de la versión en vivo en caso de que necesiten reemplazarla.

Mejorando estas capacidades, Amazon Redshift ahora ofrece una configuración de alta disponibilidad para permitir una recuperación rápida y minimizar el riesgo de pérdida de datos. Con Amazon Redshift Multi-AZ, los clústeres se implementan en múltiples AZ y utilizan todos los recursos para procesar consultas de lectura y escritura, lo que elimina la necesidad de copias de standby infrautilizadas y maximiza el rendimiento de precios para los clientes. Dado que un data warehouse multi-AZ todavía se administra como un único data warehouse de Amazon Redshift con un punto de enlace, no se requieren cambios en la aplicación para mantener la continuidad del negocio.

Algunos clientes que utilizarán estas nuevas características de los servicios son:

United Airlines, la aerolínea que opera una gran red de rutas nacionales e internacionales, que abarca ciudades grandes y pequeñas en los EE. UU. y los seis continentes. “United Airlines está creando cientos de herramientas basadas en datos y analytics para nuestros clientes y empleados, lo que hace que la gestión y el mantenimiento de la calidad de los datos sean fundamentales para nuestras operaciones”, dijo Sarang Bapat, director de ingeniería de datos de United Airlines. “Estamos entusiasmados con AWS Glue Data Quality, que nos permitirá identificar, analizar y actuar automáticamente sobre problemas de calidad de datos en cuestión de minutos. Esto nos ayudará a tomar decisiones informadas, oportunas y precisas ahorrando innumerables horas en la identificación y solución manual de todos los problemas con datos”.

Janssen Pharmaceuticals, una subsidiaria de Johnson & Johnson, se dedica a la investigación y fabricación de medicamentos con enfoque en las necesidades cambiantes de los pacientes y la industria de la salud. “Janssen Pharmaceutical utiliza Amazon Redshift para habilitar insights críticos que impulsan decisiones comerciales importantes para nuestros científicos de datos, administradores de datos, usuarios comerciales y partes interesadas externas”, cuenta Shyam Mohapatra, director de tecnología de la información de Janssen Pharmaceutical Companies de Johnson & Johnson. “Con Amazon Redshift Multi-AZ, podemos estar seguros de que nuestro data warehouse estará disponible sin interrupciones que puedan retrasar o afectar nuestra capacidad para tomar decisiones comerciales importantes”.

Compartir noticia