- Barajar
ActivarDesactivar
- Alphabetizar
ActivarDesactivar
- Frente Primero
ActivarDesactivar
- Ambos lados
ActivarDesactivar
- Leer
ActivarDesactivar
Leyendo...
Cómo estudiar sus tarjetas
Teclas de Derecha/Izquierda: Navegar entre tarjetas.tecla derechatecla izquierda
Teclas Arriba/Abajo: Colvea la carta entre frente y dorso.tecla abajotecla arriba
Tecla H: Muestra pista (3er lado).tecla h
Tecla N: Lea el texto en voz.tecla n
Boton play
Boton play
75 Cartas en este set
- Frente
- Atrás
Definición del problema:
|
en esta etapa se define el objetivo general del
proyecto y se establecen las preguntas que se buscan responder a través del análisis de datos. Se determinan los requerimientos del proyecto y se elabora el plan de trabajo. |
Preprocesamiento de datos:
|
en esta etapa se realiza la limpieza de los
datos, la selección de variables relevantes, la transformación de datos y la integración de diferentes fuentes de datos. También se pueden realizar técnicas de reducción de ruido y eliminación de datos atípicos. |
Recopilación de datos:
|
en esta etapa se recopilan los datos necesarios
para llevar a cabo el análisis. Esto puede implicar la recolección de datos desde diversas fuentes, como bases de datos, archivos de texto, formularios en línea, encuestas, entre otros. |
Análisis de datos:
|
en esta etapa se aplican técnicas de minería de datos
para descubrir patrones, relaciones y tendencias en los datos. Esto puede incluir técnicas de clasificación, regresión, agrupamiento, asociación, entre otras. |
Evaluación de resultados:
|
en esta etapa se evalúan los resultados del
análisis y se determina la eficacia de los modelos y técnicas utilizados en el proyecto. Se pueden realizar pruebas y validaciones para medir el desempeño de los modelos |
Implementación:
|
en esta etapa se implementa el modelo y se desarrolla
el producto final del proyecto. Esto puede incluir el desarrollo de una aplicación, un informe, un sitio web o una herramienta de análisis. |
Mantenimiento:
|
en esta etapa se realiza el mantenimiento del modelo y el
producto final para asegurar que sigan funcionando correctamente a lo largo del tiempo. También se pueden realizar actualizaciones y mejoras para mantener la relevancia y efectividad del modelo |
Regresión:
|
se utiliza para analizar la relación entre una variable
dependiente y una o más variables independientes. La regresión lineal y la regresión logística son técnicas comunes utilizadas en la minería de datos |
Clasificación:
|
se utiliza para asignar una categoría a un objeto en función
de sus características. Las técnicas de clasificación, como los árboles de decisión, la regresión logística, las redes neuronales y el análisis discriminante, se utilizan comúnmente en DM |
Agrupamiento:
|
se utiliza para identificar grupos de objetos que comparten
características similares. Las técnicas de agrupamiento, como el k-means, la agrupación jerárquica y la agrupación basada en densidad, se utilizan comúnmente en DM |
Análisis de asociación:
|
se utiliza para identificar patrones de asociación
entre variables en un conjunto de datos. Las técnicas de análisis de asociación, como la regla de asociación, se utilizan comúnmente en DM. |
Análisis de series temporales:
|
se utiliza para analizar patrones y
tendencias en los datos a lo largo del tiempo. Las técnicas de análisis de series temporales, como los modelos ARIMA, se utilizan comúnmente en DM |
Distancia euclidiana:
|
se utiliza para medir la distancia entre dos puntos en
un espacio n-dimensional. Es la medida de distancia más común en DM. |
Distancia Manhattan:
|
se utiliza para medir la distancia entre dos puntos
en un espacio n-dimensional, pero en lugar de la distancia recta, se mide la distancia a través de las coordenadas de cada dimensión. |
Coeficiente de correlación:
|
se utiliza para medir la similitud entre dos
variables. Cuanto más cercano sea el coeficiente de correlación a 1, mayor será la similitud entre las variables |
Similitud del coseno:
|
se utiliza para medir la similitud entre dos vectores.
Se mide el ángulo entre los dos vectores y cuanto más cercano sea el ángulo a 0, mayor será la similitud entre los vectores. |
Distancia de Hamming:
|
se utiliza para medir la distancia entre dos cadenas
de caracteres. Se mide la cantidad de posiciones en las que las cadenas difieren. |
Distancia de Levenshtein:
|
se utiliza para medir la distancia entre dos
cadenas de caracteres. Se mide el número mínimo de ediciones (inserciones, eliminaciones o sustituciones) necesarias para convertir una cadena en la otra |
Entropía y ganancia de información
|
La Entropía es una medida de incertidumbre en un conjunto de datos. Se puede calcular utilizando la fórmula de la Entropía de Shannon:
H(S) = -Σ p(i) log2 p(i) donde H(S) es la Entropía del conjunto de datos S, p(i) es la probabilidad de que un objeto en S pertenezca a la clase i, y log2 es el logaritmo en base 2. La Ganancia de Información es una medida de la reducción de la Entropía que se logra al dividir un conjunto de datos en subconjuntos más pequeños. Se puede calcular utilizando la fórmula de Ganancia de Información: G(S, A) = H(S) - Σ (|Sv| / |S|) * H(Sv) donde G(S, A) es la Ganancia de Información de dividir el conjunto de datos S en función de la característica A, Sv es el subconjunto de S que contiene objetos con el valor v de la característica A, y |S| y |Sv| son los tamaños de los conjuntos S y Sv, respectivamente La Ganancia de Información se utiliza comúnmente en la minería de datos para seleccionar características relevantes en la construcción de modelos de aprendizaje |
Entrenamiento y test
|
el entrenamiento y la prueba son etapas importantes en el proceso de
modelado y validación de un modelo. En términos generales, el proceso de entrenamiento y prueba se divide en dos conjuntos de datos: el conjunto de datos de entrenamiento y el conjunto de datos de prueba. |
Métricas para modelos de clasificación:
|
Exactitud (Accuracy):
Precisión (Precision): Recall o sensibilidad (Recall): F1-score: Área bajo la curva ROC (AUC-ROC): |
Exactitud (Accuracy):
|
La exactitud es una medida simple y comúnmente
utilizada que indica el porcentaje de predicciones correctas realizadas por el modelo. Es adecuada para problemas de clasificación binaria y multiclase bien equilibrados, es decir, cuando todas las clases tienen aproximadamente la misma cantidad de muestras. |
Precisión (Precision):
|
La precisión es la proporción de verdaderos positivos
(TP) entre todos los valores predichos positivos (TP + FP). Se utiliza para evaluar la capacidad del modelo de identificar correctamente los ejemplos positivos. La precisión es una métrica adecuada cuando el costo de un falso positivo es alto. |
Recall o sensibilidad (Recall):
|
El recall es la proporción de verdaderos
positivos (TP) entre todos los valores reales positivos (TP + FN). Se utiliza para evaluar la capacidad del modelo de detectar todos los ejemplos positivos. El recall es adecuado cuando el costo de un falso negativo es alto. |
F1-score:
|
El F1-score es una medida armónica que combina la precisión y
el recall. Es adecuado para problemas en los que las clases están desequilibradas. |
Área bajo la curva ROC (AUC-ROC):
|
La AUC-ROC es una métrica que mide
la capacidad del modelo para distinguir entre las clases positivas y negativas. La curva ROC es una representación gráfica de la tasa de verdaderos positivos (TPR) en función de la tasa de falsos positivos (FPR) en diferentes umbrales de clasificación |
Métricas para modelos de regresión:
|
Error absoluto medio (MAE):
Error cuadrático medio (MSE): Raíz del error cuadrático medio (RMSE): Coeficiente de determinación (R2): |
Error absoluto medio (MAE):
|
El MAE es la media del valor absoluto de los
errores de predicción. Es una medida simple y fácil de interpretar. |
Error cuadrático medio (MSE):
|
El MSE es la media de los errores de
predicción al cuadrado. Es más sensible a los errores grandes que el MAE |
Raíz del error cuadrático medio (RMSE):
|
El RMSE es la raíz cuadrada del
MSE y se utiliza para tener una medida de error en la misma unidad que la variable objetivo. |
Coeficiente de determinación (R2):
|
El R2 es una medida de cuánto de la
variabilidad en los datos se explica por el modelo. Toma valores entre 0 y 1, donde un valor de 1 indica que el modelo ajusta perfectamente los datos |
Recolección de Datos, limpieza y validación
|
La recolección de datos es la forma de recolectar información que permite
obtener conocimiento de primera mano e ideas originales sobre el problema de investigación |
Tipos de Recolección de Datos
|
Primaria:
Secundaria: Terciaria: |
Primaria:
|
Datos colectados de primera mano a traves de encuestas,
entrevistas, experimentos y otros. Puedes decidir que recolectas y que quiere medir. Tienes total control de los datos |
Secundaria:
|
Datos previamente recolectados por una fuente primaria
externa al usuario primario. Son datos abiertos que puedes utilizar. No tienes control sobre lo que se mide o sobre el objetivo del estudio |
Terciaria:
|
Datos que se adquieren de fuentes completamente externas al
usuario primario. Son datos accesibles a todo el mundo por lo que pierde su valor y tienden a ser datos genéricos |
Las métricas de distancias
|
se utilizan a menudo en tareas de agrupación,
clasificación y predicción. Por ejemplo, se pueden utilizar para agrupar instancias similares, clasificar instancias en categorías o predecir la probabilidad de que una instancia pertenezca a una determinada categoría. |
Las métricas de similitud
|
se utilizan a menudo en tareas de recuperación
de información y aprendizaje automático. Por ejemplo, se pueden utilizar para encontrar instancias similares a una instancia dada, recomendar productos a un usuario o entrenar un modelo de aprendizaje automático. |
Distancia euclidiana:
|
Es la distancia más común entre dos puntos en un
espacio euclidiano. Se calcula como la raíz cuadrada de la suma de las diferencias entre los valores de las características de los dos puntos |
Distancia Manhattan:
|
Es similar a la distancia euclidiana, pero se calcula
como la suma de las diferencias absolutas entre los valores de las características de los dos puntos. |
Distancia Minkowski:
|
Es una generalización de la distancia euclidiana y la
distancia Manhattan. Se calcula como la raíz cuadrada de la suma de los p-ésimos poderes de las diferencias entre los valores de las características de los dos puntos |
Distancia de coseno:
|
Es una métrica de similitud que se basa en la similitud
angular entre dos vectores. Se calcula como el coseno del ángulo entre los vectores. |
Distancia de Jaccard:
|
Es una métrica de similitud que se basa en el número
de elementos en común entre dos conjuntos. Se calcula como la proporción de elementos en común entre los dos conjuntos. |
Tipos de aprendizaje:
|
1. Aprendizaje supervisado
2. Aprendizaje no supervisado 3. Aprendizaje por refuerzo |
Aprendizaje Supervisado (por observación)
|
Si de nuestro conjunto de datos podemos extraer con anticipación
información precisa del resultado que esperamos. |
Aprendizaje Por Refuerzo (prueba y error)
|
Si no tenemos información precisa sobre lo que esperamos, pero sí
podemos evaluar si una decisión tomada por la máquina es buena o mala. |
Aprendizaje No Supervisado (por descubrimiento)
|
Finalmente, si no sabemos qué esperar de nuestros datos y
queremos explorar, la estructura o las relaciones de nuestro dataset. |
Kernels
|
Un Kernel es una función matemática que
toma mediciones que se comportan de manera no lineal y las proyecta en un espacio dimensional más grande donde sean linealmente separables. |
Regularización
|
La regularización consiste en
disminuirla complejidaddel modeloa travésde unapenalizaciónaplicada a sus variables másirrelevantes. |
L1 Lasso:
|
Reducir la complejidad a través de eliminación de
features que no aportan demasiado al modelo. Penaliza a los features que aporta poca información volviéndolos cero, eliminado el ruido que producen en el modelo. |
L2 Ridge
|
Reducir la complejidad disminuyendo el impacto de
ciertos features a nuestro modelo. Penaliza los features poco relevantes, pero no los vuelve cero. Solamente limita la información que aportan a nuestro modelo. |
ElasticNet
|
Es una combinación de las dos anteriores.
|
Valores atípicos
|
Un valor atípico es cualquier medición que se
encuentre por fuera del comportamiento general de una muestra de datos. ● Pueden indicar variabilidad, errores de medición, o novedades |
Z – Score
|
Mide la distancia (en desviaciones
estándar) de un punto dado a la media. |
Regresiones robustas.
|
Sci-kit learn nos ofrece algunos modelos
específicos para abordar el problema de los valores atípicos: 1. RANSAC 2. Huber Regresso |
RANSAC
|
Random Sample Consensus
Usamos una muestra aleatoria sobre el conjunto de datos que tenemos, buscamos la muestra que más datos “buenos” logre incluir. El modelo asume que los “malos valores” no tienen patrones específicos |
Huber Reggresor
|
No ignora los valores atípicos, disminuye su
influencia en el modelo. Los datos son tratados como atípicos si el error absoluto de nuestra pérdida está por encima de un umbral llamado epsilon. Se ha demostrado que un valor de epsilon = 1.35 logra un 95% de eficiencia estadística. |
Métodos de ensamble
|
Boosting
Bagging |
Bagging
|
Qué tal si en lugar de depender de la opinión de un
solo “experto” consultamos la opinión de varios expertos en paralelo e intentamos lograr un consenso |
Boosting
|
Busca fortalecer
gradualmente un modelo de aprendizaje usando siempre el errorresidualde lasetapasanteriores. El resultado final también se consigue por consenso entre todoslosmodelos |
Clustering
|
Los algoritmos de clustering son las
estrategias que podemos usar para agruparlos datos de tal manera que todos los datospertenecientes a un grupo sean lo más similares que sea posible entre sí, y lo más diferentes a los de otros grupos. |
HOLD-ON
|
1. Se requiere un prototipado rápido.
2. No se tienemucho conocimiento. 3. Nose cuenta conabundantepoderdecómputo. |
K-Folds
|
Usar validación cursada K-Fold, aquí vamos a plegar nuestros datos k veces,
el k es un parámetro que nosotros definimos y en esos pliegues vamos a utilizar diferentes partes de nuestro dataset como entrenamiento y como test, de tal manera que intentemos cubrir todos los datos de entrenamiento y de test, al finalizar el proceso |
Cuándo utilizar K-Folds
|
1. Recomendable en la mayoría de los
casos. 2. Se cuenta con un equipo suficiente para desarrollar ML. 3. Se require la integración con técnicas de optimización paramétrica. 4. Se tiene más tiempo para las pruebas. |
LOOCV, Leave One Out Cross
Validation |
Este es el método más intensivo, ya que
haremos una partición entre entrenamiento y pruebas, porque vamos a hacer entrenamiento con todos los datos, salvo 1 y vamos a repetir este proceso tantas veces hasta que todos los datos hayan sido probados |
Cuándo utilizar LOOCV
|
1. Se tiene gran poder de computo
2. Se cuetan con pocos datos para poder dividir por Train/Test 3. Cuando se quiere probar todos los casos posibles. |
Optimización paramétrica
|
1. Esfácil
perderse entre los conceptos de tantos parámetros. 2. Es difícil medirla sensibilidadde los mismos manualmente. 3. ES COSTOSO |
Búsqueda Manual
|
1. Escoger el modelo que queremos ajustar.
2. Buscar en la documentación de scikit-learn. 3. Identificar los posibles ajustes. 4. Probar combinaciones una por una iterando através de listas |
Búsqueda por grilla
|
1. Definir una ovariasmétricasque queramosoptimizar.
2. Identificarlos posibles valores que pueden tenerlosparámetros. 3. Crear un diccionario de parámetros. 4. Usar Cross Validation. 5. ¡Entrenar elmodelo e ir por un café! |
Búsqueda por grilla
|
La grilla de parámetros nos define GRUPOS DE
PARÁMETROSqueseránprobadosentodassus combinaciones (Un grupo a la vez |
Búsqueda aleatorizada
|
1. Definir una ovariasmétricasque queramosoptimizar.
2. Identificarlosrangos de valores que pueden tomar ciertosparámetros. 3. Crear un diccionario de rangos de valores. 4. ¡Usar Cross Validation! 5. ¡Entrenar elmodelo e ir por un café! |
Búsqueda aleatorizada
|
Enestemétodo,definimosescalasdevaloresparacada
unodelosparámetrosseleccionados,elsistemaprobará varias iteraciones(Configurablessegúnlosrecursos) y mostrará lamejor combinaciónencontrada |
Cuándo usar Randomized SearchCV
|
Cuando se quieran explorar posibles
optimizaciones, cuandohaya poco tiempo o poco poder deprocesamiento. |
Cuándo usar GridSearchCV
|
Cuando se quiera realizarun
estudio a fondo sobre lasimplicaciones de los parámetros, y además se tenga eltiempo y el poder de procesamiento requerido. |
Arquitectura en producción
|
Carpetas:
in: Carpeta que contendrá archivos de entrada, datos que alimentarán a nuestros modelos. out: Carpeta que contendrá el resultado de la exportación de nuestros modelos, visualizaciones, datos en Excel o csv, etc. models: Carpeta que contendrá a los modelos. Archivos: Cada clase será un archivo que tenga su propia responsabilidad y se encargue específicamente de una tarea concreta. main.py: Método principal de ejecución. Ejecutará todo el flujo de datos. Se encargaría de controlar el flujo de todo el código de principio a fin. load.py: Archivo que se encarga de cargar los datos desde in o una DB utils.py: Todos los métodos que se reutilizaran una y otra vez, escalamiento models.py: Irá toda la parte de ML como tal. |