Mujer mirando datos

¿Qué es un almacén de datos?

Un almacén de datos (DW) es un sistema de almacenamiento digital que conecta y armoniza grandes cantidades de datos de muchas fuentes diferentes.

Un almacén de datos (DW) es un sistema de almacenamiento digital que conecta y armoniza grandes cantidades de datos de muchas fuentes diferentes. Su propósito es alimentar business intelligence (BI), informes y analíticas, y dar soporte a los requisitos regulatorios –de manera que las empresas puedan convertir sus datos en información estratégica y tomar decisiones inteligentes basadas en datos–. Los almacenes de datos guardan datos actuales e históricos en un solo lugar y actúan como la única fuente de verdad para una organización.

 

Los datos fluyen a un almacén de datos desde sistemas operativos (como ERP y CRM), bases de datos y fuentes externas, como sistemas de partners, dispositivos de internet de las cosas (IoT), apps meteorológicas, y redes sociales –generalmente con cadencia regular–. El surgimiento de la computación en la nube ha causado un cambio en el panorama. En los últimos años, las ubicaciones de los almacenes de datos se han alejado de la infraestructura on-premise tradicional hacia múltiples ubicaciones, incluyendo on-premise, nube privada y nube pública.

 

Los almacenes de datos modernos están diseñados para manejar datos estructurados y no estructurados, como videos, archivos de imágenes y datos de sensores. Algunos aprovechan analíticas integradas y tecnología de base de datos in-memory (que mantiene el data set en la memoria de la computadora en lugar de en el almacenamiento en disco) para brindar acceso en tiempo real a datos confiables e impulsar la toma de decisiones con confianza. Sin almacenamiento de datos, es muy difícil combinar datos de fuentes heterogéneas, garantizar que estén en el formato correcto para las analíticas, y obtener una visión actual y de largo alcance de los datos a lo largo del tiempo.

¿Qué es un almacén de datos?

placeholder

Presentamos SAP Datasphere

SAP Datasphere es la próxima generación de SAP Data Warehouse Cloud.

Beneficios del almacenamiento de datos

Un almacén de datos bien diseñado es la base para cualquier programa de BI o de analíticas. Su principal labor es potenciar los informes, dashboards y herramientas analíticas que hoy se han vuelto indispensables para los negocios. Un almacén de datos brinda información para sus decisiones basadas en datos –y lo ayuda a tomar la decisión correcta en todo, desde el desarrollo de nuevos productos hasta los niveles de inventario–. Hay muchos beneficios en un almacén de datos. Estos son solo algunos: 

  • Mejores analíticas de negocio: con el almacenamiento de datos, los responsables de la toma de decisiones tienen acceso a datos de múltiples fuentes y ya no deben tomar decisiones basadas en información incompleta.  

  • Consultas más rápidas: los almacenes de datos se crean específicamente para captar y analizar datos rápido. Con un DW, usted puede consultar rápido grandes cantidades de datos consolidados con poco o ningún soporte de TI.  

  • Mejor calidad de datos: antes de cargarse en el DW, el sistema crea casos de depuración de datos y los introduce en una lista de trabajo para su posterior procesamiento, asegurándose de que los datos se transformen en un formato consistente para dar soporte a analíticas –y decisiones– basadas en datos precisos de alta calidad.

  • Información histórica: almacenando datos históricos enriquecidos, un almacén de datos les permite a los responsables de la toma de decisiones aprender de tendencias y desafíos pasados, realizar proyecciones, e impulsar la mejora continua del negocio.

placeholder

Captura de pantalla de un almacén de datos mostrando linaje de datos.

¿Qué puede guardar un almacén de datos?

Cuando los almacenes de datos se hicieron populares a finales de la década de 1980, estaban diseñados para almacenar información sobre personas, productos y transacciones. Estos datos –llamados datos estructurados – estaban bien organizados y formateados para facilitar el acceso. Sin embargo, las empresas pronto quisieron almacenar, recuperar y analizar datos no estructurados  –como documentos, imágenes, videos, correos electrónicos, publicaciones en redes sociales, y datos sin procesar de sensores de máquinas–.

 

Un almacén de datos moderno puede alojar datos estructurados y no estructurados. Fusionando estos tipos de datos y eliminando los silos entre ambos, las empresas pueden obtener una completa imagen integral de la información estratégica más valiosa.

Algunos términos clave

Hay muchos términos para definir en el mundo del DW. Estos son algunos de los más importantes. Explore otros términos y preguntas frecuentes en nuestro glosario.

 

Almacén de datos versus base de datos

 

Las bases de datos y los almacenes de datos son sistemas de almacenamiento de datos; sin embargo, sirven para diferentes propósitos.  Una base de datos almacena datos, por lo general, para una determinada área de negocio. Un almacén de datos almacena datos actuales e históricos para toda la empresa y alimenta BI y analíticas. Los almacenes de datos usan un servidor de base de datos para extraer datos de las bases de datos de una organización y tienen funcionalidades adicionales para modelado de datos, gestión de ciclo de vida de los datos, integración de fuentes de datos, y más.

 

Almacén de datos versus lago de datos

 

Tanto los almacenes de datos como los lagos de datos se utilizan para almacenar Big Data, pero son sistemas de almacenamiento muy diferentes. Un almacén de datos almacena datos que se han formateado para un propósito específico, mientras que un lago de datos almacena datos en su estado bruto sin procesar –cuyo propósito aún no se ha definido–. Los almacenes de datos y los lagos a menudo se complementan. Por ejemplo, cuando se necesitan datos brutos almacenados en un lago para responder a una pregunta de negocios, se pueden extraer, limpiar, transformar y utilizar en un almacén de datos para el análisis. El volumen de datos, el rendimiento de la base de datos y la determinación de precios de almacenamiento desempeñan un papel importante a la hora de ayudarle a elegir la solución de almacenamiento adecuada.

Diagrama de un almacén de datos comparado con un lago de datos.

Almacén de datos versus mercado de datos 

 

Un mercado de datos es una subsección de un almacén de datos, particionada específicamente para un departamento o línea de negocios –tales como Ventas, Marketing o Finanzas–. Algunos mercados de datos también se crean para fines operativos independientes. Mientras que un almacén de datos sirve como almacén de datos central para toda una empresa, un mercado de datos brinda datos relevantes a un grupo selecto de usuarios. Esto simplifica el acceso a los datos, acelera el análisis, y les da control sobre sus propios datos. A menudo, se implementan múltiples mercados de datos dentro de un almacén de datos.

Diagrama de un mercado de datos y cómo funciona.

¿Cuáles son los componentes clave de un almacén de datos?

Un almacén de datos típico tiene cuatro componentes principales: una base de datos central, herramientas de ETL (extraer, transformar, cargar), metadatos, y herramientas de acceso. Todos estos componentes están diseñados para ser rápidos, de modo que usted pueda obtener resultados en seguida y analizar los datos sobre la marcha.

Diagrama mostrando los componentes de un almacén de datos.

  1. Base de datos central: una base de datos sirve como cimiento de su almacén de datos. Tradicionalmente, han sido bases de datos relacionales estándar que operan on-premise o en la nube. Pero debido a los Big Data, la necesidad de un rendimiento verdaderamente en tiempo real y una drástica reducción en el costo de la RAM, las bases de datos in-memory están ganando popularidad rápido.
  2. Integración de datos: los datos se extraen de los sistemas fuente y se modifican a fin de alinear la información para un consumo analítico rápido usando una variedad de enfoques de integración de datos, como ETL (extraer, transformar, cargar) y ELT, así como replicación de datos en tiempo real, procesamiento de carga por lotes, transformación de datos, y servicios de calidad y enriquecimiento de datos.
  3. Metadatos: los metadatos son datos sobre sus datos. Especifican fuente, uso, valores, y otras características de los data sets en su almacén de datos. Hay metadatos de negocio, que añaden contexto a sus datos, y metadatos técnicos, que describen cómo acceder a los datos –incluyendo dónde residen y cómo están estructurados–.
  4. Herramientas de acceso al almacén de datos: las herramientas de acceso permiten a los usuarios interactuar con los datos de su almacén de datos. Ejemplos de herramientas de acceso incluyen: herramientas de consulta y generación de informes, herramientas de desarrollo de aplicaciones, herramientas de minería de datos, y herramientas OLAP.

Arquitectura de un almacén de datos

En el pasado, los almacenes de datos operaban en capas que coincidían con el flujo de los datos de negocio.

Diagrama de arquitectura de un almacén de datos. Un almacén de datos típico incluye las tres capas separadas anteriores. Hoy, los almacenes de datos modernos combinan OLTP y OLAP en un único sistema.

 

  • Capa de datos:  los datos se extraen de sus fuentes y luego se transforman y cargan en el nivel inferior mediante herramientas de ETL. El nivel inferior consiste en el servidor de base de datos, los mercados de datos, y los lagos de datos de su negocio. Los metadatos se crean en este nivel –y las herramientas para integración de datos, como la virtualización de datos, se usan para combinar y agregar datos de modo fluido–.

  • Capa semántica:  en el nivel medio, los servidores de procesamiento analítico on-line (OLAP) y procesamiento transaccional on-line (OLTP) reestructuran los datos para resolver consultas y analíticas rápidas y complejas.

  • Capa de analíticas:  el nivel superior es la capa front-end para el cliente. Posee las herramientas de acceso al almacén de datos que les permiten a los usuarios interactuar con los datos, crear dashboards e informes, supervisar KPI, extraer y analizar datos, crear apps, y más. Este nivel a suele incluir un workbench o un área de experimentación para la exploración de datos y el desarrollo de un nuevo modelo de datos.

 

Los almacenes de datos fueron diseñados para dar soporte a la toma de decisiones, y eran construidos y mantenidos principalmente por equipos de TI, pero en los últimos años han evolucionado para empoderar a los usuarios de negocio –reduciendo así la dependencia de TI para acceder a los datos y obtener información estratégica accionable–. Algunas capacidades clave de almacenamiento de datos que han empoderado a los usuarios de negocio son:

  1. La capa semántica o de negocios, que brinda frases en lenguaje natural y les permite a todos comprender los datos al instante, definir relaciones entre los elementos del modelo de datos, y enriquecer los campos de datos con nueva información de negocios.
  2. Las áreas de trabajo virtuales permiten a los equipos aportar modelos de datos y conexiones a un lugar seguro y controlado, lo cual permite colaborar mejor con colegas a través de un único espacio en común y un único data set en común.
  3. La nube ha mejorado aun más la toma de decisiones empoderando globalmente a los empleados con un rico conjunto de herramientas y características para realizar tareas de análisis de datos fácilmente. Pueden conectar nuevas apps y fuentes de datos sin mucho soporte de TI.
placeholder

Comience

Pruebe nuestro almacén de datos en la nube hoy mismo.

Los siete beneficios principales de un almacén de datos en la nube

Los almacenes de datos basados en la nube están aumentando en popularidad –por una buena razón–. Estos almacenes modernos ofrecen varias ventajas sobre las versiones on-premise tradicionales. Estos son los siete beneficios principales de un almacén de datos en la nube:  

  1. Rápido de implementar: Con el almacenamiento de datos en la nube, usted puede comprar poder de computación y almacenamiento de datos casi ilimitados en unos pocos clics –y puede construir su propio almacén de datos, mercados de datos y sistemas sandbox desde cualquier lugar, en minutos–.
  2. Costo total de propiedad (TCO) bajo: los modelos de precios del almacenamiento de datos como servicio (DWaaS) se configuran para que usted solo pague por los recursos que necesita, cuando los necesita. No debe pronosticar sus necesidades a largo plazo ni pagar más cómputo de lo necesario a lo largo del año. También puede evitar costos iniciales como hardware costoso, salas de servidores, y personal de mantenimiento. Separar los precios de almacenamiento de los precios de computación también le ofrece una manera de reducir costos.
  3. Elasticidad: con un almacén de datos en la nube, usted puede escalar dinámicamente hacia arriba o hacia abajo según sea necesario. La nube nos brinda un entorno virtualizado y altamente distribuido que puede gestionar grandes volúmenes de datos que pueden escalar hacia arriba y hacia abajo.
  4. Seguridad y recuperación ante desastres: en muchos casos, los almacenes de datos en la nube brindan mayor seguridad de datos y un cifrado de datos más sólido que los DW on-premise. Los datos también se duplican y se hacen copias de seguridad automáticas, de modo que usted puede minimizar el riesgo de pérdida de datos.
  5. Tecnologías en tiempo real: los almacenes de datos en la nube construidos con tecnología de base de datos in-memory pueden brindar velocidades de procesamiento de datos extremadamente rápidas para entregar datos en tiempo real a fin de tener una conciencia situacional instantánea.
  6. Nuevas tecnologías: los almacenes de datos en la nube le permiten integrar fácilmente nuevas tecnologías, tal como machine learning, que puede brindar una experiencia guiada a los usuarios de negocio y soporte para la toma de decisiones en forma de preguntas recomendadas, por ejemplo.
  7. Empodere a los usuarios de negocio:  los almacenes de datos en la nube empoderan a los empleados de manera equitativa y global con una única vista de datos de numerosas fuentes y un rico conjunto de herramientas y características para realizar fácilmente tareas de análisis de datos. Pueden conectar nuevas apps y fuentes de datos sin TI.
placeholder

El almacenamiento de datos brinda soporte para analíticas integrales de gastos de la empresa por departamento, proveedor, región y estado, por nombrar algunos.

Mejores prácticas de almacenamiento de datos

Cuando usted crea un nuevo almacén de datos o añade nuevas aplicaciones a un almacén existente, hay pasos probados para que alcance sus objetivos a la vez que ahorra tiempo y dinero. Algunos se enfocan en el uso de su negocio, y otras prácticas son parte de su programa de TI general. La siguiente lista es un buen punto de partida, y usted incorporará mejores prácticas adicionales a medida que trabaje con sus socios de tecnología y servicio. 

Mejores prácticas de negocio

  • Defina la información que necesita. Una vez que tenga una buena comprensión de sus necesidades iniciales, puede encontrar las fuentes de datos para les darán soporte . A menudo, los grupos comerciales, clientes y proveedores tendrán para usted recomendaciones sobre los datos. 

  • Documente la ubicación, estructura y calidad de sus datos actuales. Luego, puede identificar brechas de datos y reglas de negocio para transformar los datos a fin de cumplir con los requisitos de su almacén.

  • Construya un equipo. Esto incluye patrocinadores ejecutivos, gerentes y personal que usará y brindará la información. Por ejemplo, identifique los informes y KPI estándar que necesitan para hacer su trabajo.

  • Priorice sus aplicaciones de almacenamiento de datos. Elija uno o dos proyectos piloto que tengan requisitos razonables y un buen valor de negocio. 

  • Elija un socio tecnológico sólido para el almacenamiento de datos. Debe tener los servicios de implementación y la experiencia necesarios para sus proyectos. Asegúrese de que de soporte a sus necesidades de implementación, incluyendo tanto servicios en la nube como opciones on-premise. 

  • Desarrolle un buen plan de proyecto. Trabaje con su equipo en un plan y un cronograma realistas que den soporte a comunicaciones e informes de estado. 

Mejores prácticas de TI

  • Monitoree el rendimiento y la seguridad. La información de su almacén de datos es valiosa, aunque debe ser fácilmente accesible para brindar valor a la organización. Monitoree cuidadosamente el uso del sistema para garantizar que los niveles de rendimiento sean altos. 

  • Mantenga los estándares de calidad de datos, metadatos, estructura, y gobernanza. Se ponen a disposición nuevas fuentes de datos valiosos de modo rutinario, pero requieren una gestión consistente como parte de un almacén de datos. Siga los procedimientos de limpieza de datos, definición de metadatos, y cumplimiento de los estándares de gobernanza.

  • Brinde una arquitectura ágil. A medida que aumente el uso por parte de su corporación o unidad de negocios, usted descubrirá una amplia gama de necesidades relacionadas con almacenes y mercados de datos. Una plataforma flexible brindará mejor soporte que un producto limitado y restrictivo. 

  • Automatice procesos como el mantenimiento. Además de añadir valor a business intelligence, el machine learning puede automatizar las funciones de gestión técnica del almacén de datos para mantener la velocidad y reducir los costos operativos. 

  • Use la nube de manera estratégica. Las unidades de negocio y los departamentos tienen distintas necesidades de implementación. Use sistemas on-premise cuando sea necesario y capitalice los almacenes de datos en la nube para obtener escalabilidad, costos reducidos y acceso por teléfono y tablet.  

En resumen

Los almacenes de datos modernos, y cada vez más los almacenes de datos en la nube, serán una parte clave de cualquier iniciativa de transformación digital para las empresas matrices y sus unidades de negocio. Capitalizan los sistemas de negocio actuales, especialmente cuando al combinar datos de múltiples sistemas internos con información nueva e importante de organizaciones externas. 

 

Los dashboards, KPI, alertas e informes dan soporte a los requisitos de ejecutivos, gerentes y personal, así como a las necesidades importantes de clientes y proveedores. Los almacenes de datos también brindan analíticas y minería de datos rápidas y complejas, y no alteran el rendimiento de otros sistemas de negocio. 

 

Dada la flexibilidad para empezar de a poco y expandirse según sea necesario, tanto las sedes corporativas como las unidades de negocio pueden mejorar la toma de decisiones y el rendimiento de los resultados finales con la tecnología moderna para almacenamiento de datos.

Más en esta serie

Preguntas frecuentes sobre almacenes de datos

Un lago de datos es un lugar para almacenar todo tipo de Big Data, ya sean datos estructurados de aplicaciones de negocio o datos no estructurados de apps móviles, redes sociales, o dispositivos de internet de las cosas (IoT) . Dado que los datos se almacenan en su formato natural –estructurado, no estructurado, semiestructurado o binario–, puede ser necesario convertir, normalizar o realizar otro tipo de procesamiento para habilitar analíticas en múltiples tipos de datos. La mayoría de los lagos de datos están basados en la nube debido a los grandes volúmenes de datos que almacenan, la necesidad de conexiones de alta velocidad a fuentes distribuidas, y la necesidad de escalabilidad.

ETL significa “extraer, transformar y cargar”. Estas actividades juntas conforman el proceso usado para tomar datos desde la fuente y convertirlos a un formato utilizable –y luego trasladarlos a un almacén de datos u otra forma de almacenamiento de datos–. El ETL es especialmente útil con los datos transaccionales, pero las herramientas más avanzadas también pueden gestionar una variedad de tipos de datos no estructurados.

Un mercado de datos es un segmento particionado de un almacén de datos que está orientado a un área o equipo de negocios específico, como Finanzas o Marketing. Los mercados de datos facilitan a los departamentos el acceso rápido a los datos y la información que son relevantes para ellos, y también controlan sus propios data sets dentro del almacén de datos más grande.

Los modelos de datos son un elemento fundamental del desarrollo de software y analíticas. Un modelo de datos es una descripción de cómo se estructuran los datos y la forma en que los datos se almacenarán en la base de datos. Un modelo de datos brinda un marco de relaciones entre elementos de datos dentro de una base de datos, así como una guía para el uso de los datos.

 

El modelado de datos es el proceso de creación de modelos de datos. Al crear una base de datos o una estructura de almacén de datos, el diseñador comienza con un diagrama de cómo los datos fluirán dentro y fuera de la base de datos o del almacén de datos. Este diagrama de flujo se usa para definir las características de los formatos y estructuras de los datos, y las funciones de la gestión de la base de datos a fin de dar soporte de forma eficiente a los requisitos del flujo de datos. El modelado brinda un método estandarizado para definir y formatear los contenidos de la base de datos de forma consistente en todos los sistemas, lo cual permite que diferentes aplicaciones compartan los mismos datos. 

Un almacén de datos empresariales (EDW) almacena todos los datos de negocio actuales e históricos en un solo lugar –integrando la gestión de datos maestros, el almacenamiento de datos, y una estrategia de datos basada en un enfoque holístico de la gestión de datos–. Los EDW brindan un entorno acogedor para el software de analíticas y el mantenimiento de KPI e informes precisos en toda la empresa. Muchos EDW están basados en la nube para ofrecer escalabilidad, acceso y facilidad de uso.

SAP Insights Newsletter

placeholder

Ideas que no encontrarás en ningún otro lugar

Regístrese para recibir una dosis de business intelligence directamente en su bandeja de entrada.

Lectura adicional