Skip to Content

Encodings y PCA

Codificación de variables categóricas (Encodings)

Los algoritmos de aprendizaje automático requieren exclusivamente datos numéricos.
Por lo tanto, es necesario transformar los datos categóricos en datos numéricos.

Existen varias técnicas para codificar variables categóricas, entre las más comunes se encuentran:

One-Hot Encoding

Crea una columna binaria para cada categoría de la variable. Se asigna 1 si la observación pertenece a esa categoría y 0 en caso contrario. Ocupa mucha memoria.

Encoding Ordinal

Transforma variables categóricas ordenadas en valores numéricos que preservan orden/jerarquía.

PCA

La reducción de dimensionalidad es una técnica que permite reducir el número de variables en un conjunto de datos, manteniendo la mayor cantidad de información posible.

Podemos expresar el conjunto de datos como una matriz XX de nn filas y mm columnas, donde cada fila es un vector xix_i que habita con un espacio matemático de mm dimensiones. Cada dimensión corresponde a una columna.

XRn×m,  xiRmX \in \mathbb{R}^{n \times m}, \; x_i \in \mathbb{R}^m

El objetivo es obtener una nueva matriz ZZ que tenga la misma cantidad de filas pero un número de columnas dd mucho menor que mm

ZRn×d,  dmZ \in \mathbb{R}^{n \times d}, \; d \ll m

El PCA (Principal Component Analysis) es una técnica de reducción de dimensionalidad que busca encontrar las direcciones de mayor varianza en los datos y proyectar los datos originales sobre estas direcciones.

Última vez actualizado el