- Barajar
ActivarDesactivar
- Alphabetizar
ActivarDesactivar
- Frente Primero
ActivarDesactivar
- Ambos lados
ActivarDesactivar
- Leer
ActivarDesactivar
Leyendo...
Cómo estudiar sus tarjetas
Teclas de Derecha/Izquierda: Navegar entre tarjetas.tecla derechatecla izquierda
Teclas Arriba/Abajo: Colvea la carta entre frente y dorso.tecla abajotecla arriba
Tecla H: Muestra pista (3er lado).tecla h
Tecla N: Lea el texto en voz.tecla n
Boton play
Boton play
30 Cartas en este set
- Frente
- Atrás
Que es una base de datos relacional y cuáles son sus principales características?
|
Es una base de datos que organiza datos en tablas relacionadas, sus principales características son las relaciones entre tablas, el uso de SQL y la integridad de los datos.
|
Explica la diferencia entre bases de datos SQL y NoSQL
|
las bases de datos SQL son estructuradas y usan un esquema fijo, ideales para transacciones complejas. las NoSQL son más flexibles y se utilizan para mejorar grandes volúmenes de datos no estructurados.
|
Como se realiza una normalización en una base de datos?
|
Es el proceso de organizar datos para reducir la redundancia y mejorar la integridad. se hace dividiendo tablas y estableciendo relaciones entre ellas.
|
Que es una clave primaria y una clave foránea ?
|
Una clave primaria es un identificador único para una tabla. Una clave foránea es un campo en una tabla que se refiere a la clave primaria de otra tabla.
|
Que son las transacciones en una base de datos y cuáles son sus propiedades ACID ?
|
Una transacción es una serie de operaciones que se ejecutan como una unidad. Las propiedades ACID son: Atomicidad, Consistencia, Aislamiento y Durabilidad.
|
Describe el proceso ETL y su importancia en la ingeniería de datos.
|
Etl es el proceso de extraer datos de varias fuentes, transformarlos para análisis y cargarlos en un sistema de almacenamiento. Es crucial para integrar y preparar datos para el análisis.
|
¿Qué herramientas ETL has utilizado y cuál prefieres? ¿Por qué?
|
He utilizado herramientas como Apache NiFi, Talend y Informatica. Prefiero Apache NiFi por su flexibilidad y fácil integración con otras tecnologías.
|
¿Cómo manejarías grandes volúmenes de datos durante el proceso de transformación?
|
Usaría procesamiento distribuido con herramientas como Apache Spark para manejar y transformar grandes volúmenes de datos eficientemente.
|
¿Qué estrategias empleas para optimizar las cargas de datos?
|
Uso particionamiento, paralelización y pipelines incrementales para optimizar la carga de datos.
|
¿Cuál es tu lenguaje de programación preferido para el procesamiento de datos y por qué?
|
Python, por su simplicidad, versatilidad y amplio ecosistema de bibliotecas para el procesamiento de datos.
|
¿Cómo manejarías excepciones y errores en tus scripts de procesamiento de datos?
|
Usaría bloques try-except para capturar y manejar errores, y registraría errores con logging para seguimiento.
|
¿Qué tecnologías y herramientas de Big Data has utilizado?
|
He usado Apache Hadoop, Apache Spark, y HDFS.
|
Explica la diferencia entre Hadoop y Spark.
|
Hadoop es una plataforma de almacenamiento y procesamiento de datos distribuido, mientras que Spark es un motor de procesamiento de datos más rápido y eficiente en memoria.
|
¿Qué es un sistema de archivos distribuido (HDFS) y cómo funciona?
|
HDFS es un sistema de archivos distribuido que almacena datos en múltiples máquinas para proporcionar alta disponibilidad y fiabilidad.
|
Describe una situación en la que utilizaste una tecnología de Big Data para resolver un problema.
|
Implementé un pipeline de datos con Apache Spark para procesar grandes volúmenes de logs de servidores, mejorando el tiempo de procesamiento de horas a minutos.
|
¿Qué es el modelado de datos y por qué es importante?
|
El modelado de datos es el proceso de crear una estructura para los datos. Es importante porque asegura que los datos se almacenen y gestionen de manera eficiente y coherente.
|
Describe los diferentes tipos de esquemas de bases de datos (estrella, copo de nieve, etc.).
|
Esquema estrella: tiene una tabla central (hechos) conectada a varias tablas de dimensiones.
Esquema copo de nieve: similar al esquema estrella, pero las tablas de dimensiones están normalizadas. |
¿Cómo decides la estructura de una base de datos para un nuevo proyecto?
|
Analizo los requisitos del proyecto, los tipos de datos y las relaciones entre ellos, y elijo un esquema que optimice el rendimiento y la integridad de los datos.
|
¿Qué es un pipeline de datos y cuál es su importancia?
|
Un pipeline de datos es un conjunto de procesos automatizados para mover y transformar datos entre sistemas. Es importante para asegurar que los datos sean consistentes y estén disponibles para análisis en tiempo real.
|
Describe una situación en la que diseñaste e implementaste un pipeline de datos completo.
|
Diseñé un pipeline ETL usando Apache NiFi para integrar datos de múltiples fuentes, transformarlos y cargarlos en un data warehouse, mejorando la disponibilidad de datos para análisis.
|
¿Qué herramientas y frameworks prefieres para la creación de pipelines de datos?
|
Prefiero Apache NiFi para la integración de datos y Apache Airflow para la orquestación de pipelines complejos.
|
¿Qué es un data warehouse y en qué se diferencia de una base de datos tradicional?
|
Un data warehouse es un sistema diseñado para análisis y reporting de datos históricos. Se diferencia de una base de datos tradicional en su estructura optimizada para consultas complejas y análisis.
|
¿Qué es OLAP y en qué se diferencia de OLTP?
|
OLAP (Online Analytical Processing) se utiliza para análisis y consultas complejas, mientras que OLTP (Online Transaction Processing) se usa para transacciones rápidas y consistentes.
|
Describe una arquitectura de data warehouse que hayas implementado.
|
Implementé un data warehouse con una arquitectura de esquema estrella, utilizando ETL para cargar datos desde múltiples fuentes en tablas de hechos y dimensiones.
|
¿Cómo abordas la limpieza y la preparación de los datos?
|
Utilizo técnicas como eliminación de duplicados, manejo de valores faltantes y normalización de datos para asegurar su calidad.
|
¿Qué técnicas utilizas para asegurar la calidad y consistencia de los datos?
|
Implemento validaciones de datos, auditorías periódicas y monitoreo de calidad de datos para mantener su consistencia.
|
¿Cómo manejas los valores faltantes y las duplicaciones en los datos?
|
Los valores faltantes los trato con imputación (media, mediana, etc.) o eliminación, y las duplicaciones las elimino asegurando la unicidad de los registros.
|
¿Qué medidas tomas para asegurar la seguridad y privacidad de los datos?
|
Uso encriptación, control de acceso basado en roles, y políticas de privacidad para proteger los datos.
|
¿Qué entiendes por gobernanza de datos y por qué es importante?
|
La gobernanza de datos es la gestión de la disponibilidad, usabilidad, integridad y seguridad de los datos. Es importante para asegurar la calidad y cumplimiento normativo.
|
¿Cómo manejas el acceso y los permisos en los sistemas de datos?
|
Implemento controles de acceso basados en roles y permisos específicos, y uso autenticación y autorización adecuadas.
|