Árboles de decisión
Un árbol de decisión es una forma gráfica y analítica de analizar/describir un conjunto de datos. Se utiliza para predecir una respuesta de interés en función de las variables de entrada.
Medida de incertidumbre
La forma de seleccionar la variable de ramificación en cada partición es mediante una medida de incertidumbre.
-
Se debe definir un criterio de bondad que mida la calidad de la partición (menor cantidad nodos impuros generados).
-
Se calcula la impureza de los nodos y se evalúa la reducción de impureza respecto al nodo padre.
-
Se elige al predictor que genere mayor reducción de impureza.
Entropía (medida de impureza)
Para variables respuesta categórica (con niveles) la entropía de una variable aleatoria discreta es:
La entropía mide cuan impredecible es una variable. Si todos los valores son iguales (sin incertidubmre) la entropía es . Si todos los valores son igualmente probables (máxima incertidumbre) la entropía es máxima, un ejemplo para esto es tirar una moneda.