• Barajar
    Activar
    Desactivar
  • Alphabetizar
    Activar
    Desactivar
  • Frente Primero
    Activar
    Desactivar
  • Ambos lados
    Activar
    Desactivar
  • Leer
    Activar
    Desactivar
Leyendo...
Frente

Cómo estudiar sus tarjetas

Teclas de Derecha/Izquierda: Navegar entre tarjetas.tecla derechatecla izquierda

Teclas Arriba/Abajo: Colvea la carta entre frente y dorso.tecla abajotecla arriba

Tecla H: Muestra pista (3er lado).tecla h

Tecla N: Lea el texto en voz.tecla n

image

Boton play

image

Boton play

image

Progreso

1/75

Click para voltear

75 Cartas en este set

  • Frente
  • Atrás
Definición del problema:
en esta etapa se define el objetivo general del
proyecto y se establecen las preguntas que se buscan responder a través
del análisis de datos. Se determinan los requerimientos del proyecto y se
elabora el plan de trabajo.
Preprocesamiento de datos:
en esta etapa se realiza la limpieza de los
datos, la selección de variables relevantes, la transformación de datos y la
integración de diferentes fuentes de datos. También se pueden realizar
técnicas de reducción de ruido y eliminación de datos atípicos.
Recopilación de datos:
en esta etapa se recopilan los datos necesarios
para llevar a cabo el análisis. Esto puede implicar la recolección de datos
desde diversas fuentes, como bases de datos, archivos de texto,
formularios en línea, encuestas, entre otros.
Análisis de datos:
en esta etapa se aplican técnicas de minería de datos
para descubrir patrones, relaciones y tendencias en los datos. Esto puede
incluir técnicas de clasificación, regresión, agrupamiento, asociación,
entre otras.
Evaluación de resultados:
en esta etapa se evalúan los resultados del
análisis y se determina la eficacia de los modelos y técnicas utilizados en
el proyecto. Se pueden realizar pruebas y validaciones para medir el
desempeño de los modelos
Implementación:
en esta etapa se implementa el modelo y se desarrolla
el producto final del proyecto. Esto puede incluir el desarrollo de una
aplicación, un informe, un sitio web o una herramienta de análisis.
Mantenimiento:
en esta etapa se realiza el mantenimiento del modelo y el
producto final para asegurar que sigan funcionando correctamente a lo
largo del tiempo. También se pueden realizar actualizaciones y mejoras
para mantener la relevancia y efectividad del modelo
Regresión:
se utiliza para analizar la relación entre una variable
dependiente y una o más variables independientes. La regresión lineal y
la regresión logística son técnicas comunes utilizadas en la minería de
datos
Clasificación:
se utiliza para asignar una categoría a un objeto en función
de sus características. Las técnicas de clasificación, como los árboles de
decisión, la regresión logística, las redes neuronales y el análisis
discriminante, se utilizan comúnmente en DM
Agrupamiento:
se utiliza para identificar grupos de objetos que comparten
características similares. Las técnicas de agrupamiento, como el k-means,
la agrupación jerárquica y la agrupación basada en densidad, se utilizan
comúnmente en DM
Análisis de asociación:
se utiliza para identificar patrones de asociación
entre variables en un conjunto de datos. Las técnicas de análisis de
asociación, como la regla de asociación, se utilizan comúnmente en DM.
Análisis de series temporales:
se utiliza para analizar patrones y
tendencias en los datos a lo largo del tiempo. Las técnicas de análisis de
series temporales, como los modelos ARIMA, se utilizan comúnmente en
DM
Distancia euclidiana:
se utiliza para medir la distancia entre dos puntos en
un espacio n-dimensional. Es la medida de distancia más común en DM.
Distancia Manhattan:
se utiliza para medir la distancia entre dos puntos
en un espacio n-dimensional, pero en lugar de la distancia recta, se mide
la distancia a través de las coordenadas de cada dimensión.
Coeficiente de correlación:
se utiliza para medir la similitud entre dos
variables. Cuanto más cercano sea el coeficiente de correlación a 1, mayor
será la similitud entre las variables
Similitud del coseno:
se utiliza para medir la similitud entre dos vectores.
Se mide el ángulo entre los dos vectores y cuanto más cercano sea el
ángulo a 0, mayor será la similitud entre los vectores.
Distancia de Hamming:
se utiliza para medir la distancia entre dos cadenas
de caracteres. Se mide la cantidad de posiciones en las que las cadenas
difieren.
Distancia de Levenshtein:
se utiliza para medir la distancia entre dos
cadenas de caracteres. Se mide el número mínimo de ediciones
(inserciones, eliminaciones o sustituciones) necesarias para convertir una
cadena en la otra
Entropía y ganancia de información
La Entropía es una medida de incertidumbre en un conjunto de datos. Se puede calcular utilizando la fórmula de la Entropía de Shannon:
H(S) = -Σ p(i) log2 p(i)
donde H(S) es la Entropía del conjunto de datos S, p(i) es la probabilidad de que un objeto en S pertenezca a la clase i, y log2 es el logaritmo en base 2. La Ganancia de Información es una medida de la reducción de la Entropía que se logra al dividir un conjunto de datos en subconjuntos más pequeños. Se puede calcular utilizando la fórmula de Ganancia de Información:
G(S, A) = H(S) - Σ (|Sv| / |S|) * H(Sv)
donde G(S, A) es la Ganancia de Información de dividir el conjunto de datos S en función de la característica A, Sv es el subconjunto de S que contiene objetos con el valor v de la característica A, y |S| y |Sv| son los tamaños de los conjuntos S y Sv, respectivamente La Ganancia de Información se utiliza comúnmente en la minería de datos para seleccionar características relevantes en la construcción de modelos de aprendizaje
Entrenamiento y test
el entrenamiento y la prueba son etapas importantes en el proceso de
modelado y validación de un modelo. En términos generales, el proceso de
entrenamiento y prueba se divide en dos conjuntos de datos: el conjunto de
datos de entrenamiento y el conjunto de datos de prueba.
Métricas para modelos de clasificación:
Exactitud (Accuracy):
Precisión (Precision):
Recall o sensibilidad (Recall):
F1-score:
Área bajo la curva ROC (AUC-ROC):
Exactitud (Accuracy):
La exactitud es una medida simple y comúnmente
utilizada que indica el porcentaje de predicciones correctas realizadas por
el modelo. Es adecuada para problemas de clasificación binaria y
multiclase bien equilibrados, es decir, cuando todas las clases tienen
aproximadamente la misma cantidad de muestras.
Precisión (Precision):
La precisión es la proporción de verdaderos positivos
(TP) entre todos los valores predichos positivos (TP + FP). Se utiliza para
evaluar la capacidad del modelo de identificar correctamente los ejemplos
positivos. La precisión es una métrica adecuada cuando el costo de un
falso positivo es alto.
Recall o sensibilidad (Recall):
El recall es la proporción de verdaderos
positivos (TP) entre todos los valores reales positivos (TP + FN). Se utiliza
para evaluar la capacidad del modelo de detectar todos los ejemplos
positivos. El recall es adecuado cuando el costo de un falso negativo es
alto.
F1-score:
El F1-score es una medida armónica que combina la precisión y
el recall. Es adecuado para problemas en los que las clases están
desequilibradas.
Área bajo la curva ROC (AUC-ROC):
La AUC-ROC es una métrica que mide
la capacidad del modelo para distinguir entre las clases positivas y
negativas. La curva ROC es una representación gráfica de la tasa de
verdaderos positivos (TPR) en función de la tasa de falsos positivos (FPR)
en diferentes umbrales de clasificación
Métricas para modelos de regresión:
Error absoluto medio (MAE):
Error cuadrático medio (MSE):
Raíz del error cuadrático medio (RMSE):
Coeficiente de determinación (R2):
Error absoluto medio (MAE):
El MAE es la media del valor absoluto de los
errores de predicción. Es una medida simple y fácil de interpretar.
Error cuadrático medio (MSE):
El MSE es la media de los errores de
predicción al cuadrado. Es más sensible a los errores grandes que el MAE
Raíz del error cuadrático medio (RMSE):
El RMSE es la raíz cuadrada del
MSE y se utiliza para tener una medida de error en la misma unidad que
la variable objetivo.
Coeficiente de determinación (R2):
El R2 es una medida de cuánto de la
variabilidad en los datos se explica por el modelo. Toma valores entre 0 y
1, donde un valor de 1 indica que el modelo ajusta perfectamente los
datos
Recolección de Datos, limpieza y validación
La recolección de datos es la forma de recolectar información que permite
obtener conocimiento de primera mano e ideas originales sobre el problema
de investigación
Tipos de Recolección de Datos
Primaria:
Secundaria:
Terciaria:
Primaria:
Datos colectados de primera mano a traves de encuestas,
entrevistas, experimentos y otros. Puedes decidir que recolectas y que
quiere medir. Tienes total control de los datos
Secundaria:
Datos previamente recolectados por una fuente primaria
externa al usuario primario. Son datos abiertos que puedes utilizar. No
tienes control sobre lo que se mide o sobre el objetivo del estudio
Terciaria:
Datos que se adquieren de fuentes completamente externas al
usuario primario. Son datos accesibles a todo el mundo por lo que pierde
su valor y tienden a ser datos genéricos
Las métricas de distancias
se utilizan a menudo en tareas de agrupación,
clasificación y predicción. Por ejemplo, se pueden utilizar para agrupar
instancias similares, clasificar instancias en categorías o predecir la
probabilidad de que una instancia pertenezca a una determinada
categoría.
Las métricas de similitud
se utilizan a menudo en tareas de recuperación
de información y aprendizaje automático. Por ejemplo, se pueden utilizar
para encontrar instancias similares a una instancia dada, recomendar
productos a un usuario o entrenar un modelo de aprendizaje automático.
Distancia euclidiana:
Es la distancia más común entre dos puntos en un
espacio euclidiano. Se calcula como la raíz cuadrada de la suma de las
diferencias entre los valores de las características de los dos puntos
Distancia Manhattan:
Es similar a la distancia euclidiana, pero se calcula
como la suma de las diferencias absolutas entre los valores de las
características de los dos puntos.
Distancia Minkowski:
Es una generalización de la distancia euclidiana y la
distancia Manhattan. Se calcula como la raíz cuadrada de la suma de los
p-ésimos poderes de las diferencias entre los valores de las características
de los dos puntos
Distancia de coseno:
Es una métrica de similitud que se basa en la similitud
angular entre dos vectores. Se calcula como el coseno del ángulo entre los
vectores.
Distancia de Jaccard:
Es una métrica de similitud que se basa en el número
de elementos en común entre dos conjuntos. Se calcula como la
proporción de elementos en común entre los dos conjuntos.
Tipos de aprendizaje:
1. Aprendizaje supervisado
2. Aprendizaje no supervisado
3. Aprendizaje por refuerzo
Aprendizaje Supervisado (por observación)
Si de nuestro conjunto de datos podemos extraer con anticipación
información precisa del resultado que esperamos.
Aprendizaje Por Refuerzo (prueba y error)
Si no tenemos información precisa sobre lo que esperamos, pero sí
podemos evaluar si una decisión tomada por la máquina es buena o
mala.
Aprendizaje No Supervisado (por descubrimiento)
Finalmente, si no sabemos qué esperar de nuestros datos y
queremos explorar, la estructura o las relaciones de nuestro
dataset.
Kernels
Un Kernel es una función matemática que
toma mediciones que se comportan de
manera no lineal y las proyecta en un espacio
dimensional más grande donde sean
linealmente separables.
Regularización
La regularización consiste en
disminuirla complejidaddel
modeloa travésde
unapenalizaciónaplicada a sus variables
másirrelevantes.
L1 Lasso:
Reducir la complejidad a través de eliminación de
features que no aportan demasiado al modelo.
Penaliza a los features que aporta poca información
volviéndolos cero, eliminado el ruido que producen en el
modelo.
L2 Ridge
Reducir la complejidad disminuyendo el impacto de
ciertos features a nuestro modelo.
Penaliza los features poco relevantes, pero no los vuelve cero.
Solamente limita la información que aportan a nuestro modelo.
ElasticNet
Es una combinación de las dos anteriores.
Valores atípicos
Un valor atípico es cualquier medición que se
encuentre por fuera del comportamiento general
de una muestra de datos.
● Pueden indicar variabilidad, errores de
medición, o novedades
Z – Score
Mide la distancia (en desviaciones
estándar) de un punto dado a la media.
Regresiones robustas.
Sci-kit learn nos ofrece algunos modelos
específicos para abordar el problema
de los valores atípicos:
1. RANSAC
2. Huber Regresso
RANSAC
Random Sample Consensus
Usamos una muestra aleatoria sobre el conjunto
de datos que tenemos, buscamos la muestra que
más datos “buenos” logre incluir.
El modelo asume que los “malos valores” no
tienen patrones específicos
Huber Reggresor
No ignora los valores atípicos, disminuye su
influencia en el modelo.
Los datos son tratados como atípicos si
el error absoluto de nuestra pérdida está por
encima de un umbral llamado epsilon.
Se ha demostrado que un valor de epsilon = 1.35
logra un 95% de eficiencia estadística.
Métodos de ensamble
Boosting
Bagging
Bagging
Qué tal si en lugar de depender de la opinión de un
solo “experto” consultamos la opinión de varios
expertos en paralelo e intentamos lograr un
consenso
Boosting
Busca fortalecer
gradualmente un modelo
de aprendizaje usando
siempre el errorresidualde
lasetapasanteriores.
El resultado final
también se consigue
por consenso entre
todoslosmodelos
Clustering
Los algoritmos de clustering son las
estrategias que podemos usar para
agruparlos datos de tal manera que
todos los datospertenecientes a un
grupo sean lo más similares que sea
posible entre sí, y lo más diferentes a
los de otros grupos.
HOLD-ON
1. Se requiere un prototipado rápido.
2. No se tienemucho conocimiento.
3. Nose cuenta conabundantepoderdecómputo.
K-Folds
Usar validación cursada K-Fold, aquí vamos a plegar nuestros datos k veces,
el k es un parámetro que nosotros definimos y en esos pliegues vamos a
utilizar diferentes partes de nuestro dataset como entrenamiento y como
test, de tal manera que intentemos cubrir todos los datos de entrenamiento
y de test, al finalizar el proceso
Cuándo utilizar K-Folds
1. Recomendable en la mayoría de los
casos.
2. Se cuenta con un equipo suficiente para
desarrollar ML.
3. Se require la integración con técnicas de
optimización paramétrica.
4. Se tiene más tiempo para las pruebas.
LOOCV, Leave One Out Cross
Validation
Este es el método más intensivo, ya que
haremos una partición entre entrenamiento y
pruebas, porque vamos a hacer
entrenamiento con todos los datos, salvo 1 y
vamos a repetir este proceso tantas veces
hasta que todos los datos hayan sido
probados
Cuándo utilizar LOOCV
1. Se tiene gran poder de computo
2. Se cuetan con pocos datos para poder
dividir por Train/Test
3. Cuando se quiere probar todos los casos
posibles.
Optimización paramétrica
1. Esfácil
perderse entre
los conceptos
de tantos
parámetros.
2. Es difícil medirla
sensibilidadde los
mismos manualmente.
3. ES COSTOSO
Búsqueda Manual
1. Escoger el modelo que queremos ajustar.
2. Buscar en la documentación de scikit-learn.
3. Identificar los posibles ajustes.
4. Probar combinaciones una por una
iterando através de listas
Búsqueda por grilla
1. Definir una ovariasmétricasque queramosoptimizar.
2. Identificarlos posibles valores que pueden
tenerlosparámetros.
3. Crear un diccionario de parámetros.
4. Usar Cross Validation.
5. ¡Entrenar elmodelo e ir por un café!
Búsqueda por grilla
La grilla de parámetros nos define GRUPOS DE
PARÁMETROSqueseránprobadosentodassus
combinaciones
(Un grupo a la vez
Búsqueda aleatorizada
1. Definir una ovariasmétricasque queramosoptimizar.
2. Identificarlosrangos de valores que pueden tomar
ciertosparámetros.
3. Crear un diccionario de rangos de valores.
4. ¡Usar Cross Validation!
5. ¡Entrenar elmodelo e ir por un café!
Búsqueda aleatorizada
Enestemétodo,definimosescalasdevaloresparacada
unodelosparámetrosseleccionados,elsistemaprobará
varias iteraciones(Configurablessegúnlosrecursos) y
mostrará lamejor combinaciónencontrada
Cuándo usar Randomized SearchCV
Cuando se quieran explorar posibles
optimizaciones, cuandohaya poco
tiempo
o poco poder deprocesamiento.
Cuándo usar GridSearchCV
Cuando se quiera realizarun
estudio a fondo sobre
lasimplicaciones de los
parámetros, y además se tenga eltiempo y el poder
de procesamiento requerido.
Arquitectura en producción
Carpetas:
in: Carpeta que contendrá archivos de entrada, datos que alimentarán a
nuestros modelos.
out: Carpeta que contendrá el resultado de la exportación de nuestros
modelos, visualizaciones, datos en Excel o csv, etc.
models: Carpeta que contendrá a los modelos.
Archivos:
Cada clase será un archivo que tenga su propia responsabilidad y se encargue
específicamente de una tarea concreta.
main.py: Método principal de ejecución. Ejecutará todo el flujo de datos. Se
encargaría de controlar el flujo de todo el código de principio a fin.
load.py: Archivo que se encarga de cargar los datos desde in o una DB
utils.py: Todos los métodos que se reutilizaran una y otra vez, escalamiento
models.py: Irá toda la parte de ML como tal.