• Barajar
    Activar
    Desactivar
  • Alphabetizar
    Activar
    Desactivar
  • Frente Primero
    Activar
    Desactivar
  • Ambos lados
    Activar
    Desactivar
  • Leer
    Activar
    Desactivar
Leyendo...
Frente

Cómo estudiar sus tarjetas

Teclas de Derecha/Izquierda: Navegar entre tarjetas.tecla derechatecla izquierda

Teclas Arriba/Abajo: Colvea la carta entre frente y dorso.tecla abajotecla arriba

Tecla H: Muestra pista (3er lado).tecla h

Tecla N: Lea el texto en voz.tecla n

image

Boton play

image

Boton play

image

Progreso

1/30

Click para voltear

30 Cartas en este set

  • Frente
  • Atrás
Que es una base de datos relacional y cuáles son sus principales características?
Es una base de datos que organiza datos en tablas relacionadas, sus principales características son las relaciones entre tablas, el uso de SQL y la integridad de los datos.
Explica la diferencia entre bases de datos SQL y NoSQL
las bases de datos SQL son estructuradas y usan un esquema fijo, ideales para transacciones complejas. las NoSQL son más flexibles y se utilizan para mejorar grandes volúmenes de datos no estructurados.
Como se realiza una normalización en una base de datos?
Es el proceso de organizar datos para reducir la redundancia y mejorar la integridad. se hace dividiendo tablas y estableciendo relaciones entre ellas.
Que es una clave primaria y una clave foránea ?
Una clave primaria es un identificador único para una tabla. Una clave foránea es un campo en una tabla que se refiere a la clave primaria de otra tabla.
Que son las transacciones en una base de datos y cuáles son sus propiedades ACID ?
Una transacción es una serie de operaciones que se ejecutan como una unidad. Las propiedades ACID son: Atomicidad, Consistencia, Aislamiento y Durabilidad.
Describe el proceso ETL y su importancia en la ingeniería de datos.
Etl es el proceso de extraer datos de varias fuentes, transformarlos para análisis y cargarlos en un sistema de almacenamiento. Es crucial para integrar y preparar datos para el análisis.
¿Qué herramientas ETL has utilizado y cuál prefieres? ¿Por qué?
He utilizado herramientas como Apache NiFi, Talend y Informatica. Prefiero Apache NiFi por su flexibilidad y fácil integración con otras tecnologías.
¿Cómo manejarías grandes volúmenes de datos durante el proceso de transformación?
Usaría procesamiento distribuido con herramientas como Apache Spark para manejar y transformar grandes volúmenes de datos eficientemente.
¿Qué estrategias empleas para optimizar las cargas de datos?
Uso particionamiento, paralelización y pipelines incrementales para optimizar la carga de datos.
¿Cuál es tu lenguaje de programación preferido para el procesamiento de datos y por qué?
Python, por su simplicidad, versatilidad y amplio ecosistema de bibliotecas para el procesamiento de datos.
¿Cómo manejarías excepciones y errores en tus scripts de procesamiento de datos?
Usaría bloques try-except para capturar y manejar errores, y registraría errores con logging para seguimiento.
¿Qué tecnologías y herramientas de Big Data has utilizado?
He usado Apache Hadoop, Apache Spark, y HDFS.
Explica la diferencia entre Hadoop y Spark.
Hadoop es una plataforma de almacenamiento y procesamiento de datos distribuido, mientras que Spark es un motor de procesamiento de datos más rápido y eficiente en memoria.
¿Qué es un sistema de archivos distribuido (HDFS) y cómo funciona?
HDFS es un sistema de archivos distribuido que almacena datos en múltiples máquinas para proporcionar alta disponibilidad y fiabilidad.
Describe una situación en la que utilizaste una tecnología de Big Data para resolver un problema.
Implementé un pipeline de datos con Apache Spark para procesar grandes volúmenes de logs de servidores, mejorando el tiempo de procesamiento de horas a minutos.
¿Qué es el modelado de datos y por qué es importante?
El modelado de datos es el proceso de crear una estructura para los datos. Es importante porque asegura que los datos se almacenen y gestionen de manera eficiente y coherente.
Describe los diferentes tipos de esquemas de bases de datos (estrella, copo de nieve, etc.).
Esquema estrella: tiene una tabla central (hechos) conectada a varias tablas de dimensiones.
Esquema copo de nieve: similar al esquema estrella, pero las tablas de dimensiones están normalizadas.
¿Cómo decides la estructura de una base de datos para un nuevo proyecto?
Analizo los requisitos del proyecto, los tipos de datos y las relaciones entre ellos, y elijo un esquema que optimice el rendimiento y la integridad de los datos.
¿Qué es un pipeline de datos y cuál es su importancia?
Un pipeline de datos es un conjunto de procesos automatizados para mover y transformar datos entre sistemas. Es importante para asegurar que los datos sean consistentes y estén disponibles para análisis en tiempo real.
Describe una situación en la que diseñaste e implementaste un pipeline de datos completo.
Diseñé un pipeline ETL usando Apache NiFi para integrar datos de múltiples fuentes, transformarlos y cargarlos en un data warehouse, mejorando la disponibilidad de datos para análisis.
¿Qué herramientas y frameworks prefieres para la creación de pipelines de datos?
Prefiero Apache NiFi para la integración de datos y Apache Airflow para la orquestación de pipelines complejos.
¿Qué es un data warehouse y en qué se diferencia de una base de datos tradicional?
Un data warehouse es un sistema diseñado para análisis y reporting de datos históricos. Se diferencia de una base de datos tradicional en su estructura optimizada para consultas complejas y análisis.
¿Qué es OLAP y en qué se diferencia de OLTP?
OLAP (Online Analytical Processing) se utiliza para análisis y consultas complejas, mientras que OLTP (Online Transaction Processing) se usa para transacciones rápidas y consistentes.
Describe una arquitectura de data warehouse que hayas implementado.
Implementé un data warehouse con una arquitectura de esquema estrella, utilizando ETL para cargar datos desde múltiples fuentes en tablas de hechos y dimensiones.
¿Cómo abordas la limpieza y la preparación de los datos?
Utilizo técnicas como eliminación de duplicados, manejo de valores faltantes y normalización de datos para asegurar su calidad.
¿Qué técnicas utilizas para asegurar la calidad y consistencia de los datos?
Implemento validaciones de datos, auditorías periódicas y monitoreo de calidad de datos para mantener su consistencia.
¿Cómo manejas los valores faltantes y las duplicaciones en los datos?
Los valores faltantes los trato con imputación (media, mediana, etc.) o eliminación, y las duplicaciones las elimino asegurando la unicidad de los registros.
¿Qué medidas tomas para asegurar la seguridad y privacidad de los datos?
Uso encriptación, control de acceso basado en roles, y políticas de privacidad para proteger los datos.
¿Qué entiendes por gobernanza de datos y por qué es importante?
La gobernanza de datos es la gestión de la disponibilidad, usabilidad, integridad y seguridad de los datos. Es importante para asegurar la calidad y cumplimiento normativo.
¿Cómo manejas el acceso y los permisos en los sistemas de datos?
Implemento controles de acceso basados en roles y permisos específicos, y uso autenticación y autorización adecuadas.