El regresor k-NN y la idea de predicción basada en distancia, ahora veamos el clasificador k-NN.

El principio es el mismo, pero la clasificación nos permite introducir varias variantes útiles, como el radio de vecinos más cercanos, el centro más cercano, la predicción multiclase y los modelos de distancia probabilísticos.

Por lo tanto, primero implementaremos el clasificador k-NN y luego discutiremos cómo se puede mejorar.

Puede utilizar esta hoja de cálculo de Excel/Google mientras lee este artículo para seguir mejor todas las explicaciones.

Clasificador k-NN en Excel – imagen del autor

Conjunto de datos de supervivencia del Titanic

Usaremos el conjunto de datos de supervivencia del Titanic, un ejemplo clásico en el que cada fila describe a un pasajero con características como clase, sexo, edad y tarifa, y el objetivo es predecir si el pasajero sobrevivió.

Conjunto de datos de supervivencia del Titanic – imagen del autor – CC0: Dominio público licencia

Principio k-NN para clasificación

El clasificador k-NN es tan similar al regresor k-NN que casi podría escribir un solo artículo para explicarlos a ambos.

De hecho, cuando buscamos el k vecinos más cercanos, no usamos el valor de cualquier manera, mucho menos su naturaleza.

PERO, todavía hay algunos datos interesantes sobre cómo se construyen los clasificadores (binarios o multiclase) y cómo las características se pueden tratar de manera diferente.

Comenzamos con la tarea de clasificación binaria y luego con la clasificación multiclase.

Un recurso continuo para la clasificación binaria.

Muy rápidamente, podemos hacer el mismo ejercicio para una característica continua con este conjunto de datos.

Para el valor de y, normalmente usamos 0 y 1 para distinguir las dos clases. Pero tal vez notes, o notarás, que esto puede ser una fuente de confusión.

Clasificador k-NN en Excel – Un recurso continuo – imagen del autor

Ahora piénsalo: 0 y 1 también son números, ¿verdad? Entonces podemos hacer exactamente el mismo proceso que si estuviéramos haciendo una regresión.

Así es. Nada cambia en el cálculo, como puedes ver en la imagen de abajo. Y, por supuesto, puedes intentar modificar tú mismo el valor de la nueva observación.

Clasificador k-NN en Excel – predicción para una característica continua – imagen del autor

La única diferencia es cómo interpretamos el resultado. Cuando tomamos el “promedio” de los resultados de los vecinos valores, este número se entiende como la probabilidad de que la nueva observación pertenezca a la clase 1.

Entonces, en realidad, el valor “promedio” no es la buena interpretación, sino la proporción de clase 1.

También podemos crear manualmente este gráfico para mostrar cómo cambia la probabilidad prevista en un rango de incógnita valores.

Tradicionalmente, para evitar terminar con una probabilidad del 50%, elegimos un valor impar para kpara que siempre podamos decidir por mayoría.

Clasificador k-NN en Excel – predicciones para una característica continua – imagen del autor

Dos características para la clasificación binaria

Si tenemos dos características, la operación también es casi la misma que la del regresor k-NN.

Clasificador k-NN en Excel – dos características continuas – imagen del autor

Una característica para la clasificación multiclase.

Ahora, tomemos un ejemplo de tres clases para la variable objetivo y.

Entonces podemos ver que ya no podemos usar la noción de “promedio”, ya que el número que representa la categoría no es en realidad un número. Y mejor deberíamos llamarlos “categoría 0”, “categoría 1” y “categoría 2”.

Clasificador k-NN en Excel – clasificador multiclase – imagen del autor

De k-NN a los centroides más cercanos

Cuando k se vuelve muy grande

Ahora, hagamos k grande. ¿Qué tan grande? Lo más grande posible.

Recuerde, también hicimos este ejercicio con el regresor k-NN y la conclusión fue que si k es igual al número total de observaciones en el conjunto de datos de entrenamiento, entonces el regresor k-NN es el estimador del valor medio simple.

Para el clasificador k-NN, es casi lo mismo. Si k es igual al número total de observaciones, entonces para cada clase obtenemos su proporción general dentro de todo el conjunto de datos de entrenamiento.

¡Algunas personas, desde un punto de vista bayesiano, llaman a estas proporciones prioritarias!

Pero esto no nos ayuda mucho a clasificar una nueva observación, porque estas observaciones previas son las mismas para todos los puntos.

La creación de centroides

Así que demos un paso más.

Para cada clase, también podemos agrupar todos los valores de las características. incógnita pertenecientes a esta clase y calcular su promedio.

Estos vectores de características promedio son lo que llamamos centroides.

¿Qué podemos hacer con estos centroides?

Podemos usarlos para clasificar una nueva observación.

En lugar de volver a calcular las distancias desde todo el conjunto de datos hasta cada nuevo punto, simplemente medimos la distancia a cada centroide de clase y asignamos la clase al más cercano.

Con el conjunto de datos de supervivencia del Titanic, podemos comenzar con una sola característica, edady calcule los centroides para las dos clases: pasajeros que sobrevivieron y pasajeros que no sobrevivieron.

Clasificador k-NN en Excel – Centroides más cercanos – imagen del autor

Ahora también puede utilizar múltiples funciones continuas.

Por ejemplo, podemos utilizar las dos funciones edad y tarifa.

Clasificador k-NN en Excel – Centroides más cercanos – imagen del autor

Y podemos discutir algunas características importantes de este modelo:

  • La escala es importante, como comentamos antes para el regresor k-NN.
  • Los valores faltantes no son un problema aquí: cuando calculamos los centroides por clase, cada uno se calcula con los valores disponibles (no vacíos)
  • Pasamos del modelo más “complejo” y “grande” (en el sentido de que el modelo real es el conjunto de datos de entrenamiento completo, por lo que tenemos que almacenar todo el conjunto de datos) al modelo más simple (solo usamos un valor por característica y solo almacenamos esos valores como nuestro modelo)

De altamente no lineal a ingenuamente lineal

Pero ahora, ¿se te ocurre una gran desventaja?

Si bien el clasificador k-NN básico es altamente no lineal, el método del centroide más cercano es extremadamente lineal.

En este ejemplo 1D, los dos centroides son simplemente los valores x promedio de la clase 0 y la clase 1. Dado que estos dos promedios están cerca, el límite de decisión se convierte en solo el punto medio entre ellos.

Por lo tanto, en lugar de un umbral irregular por partes que depende de la ubicación exacta de muchos puntos de entrenamiento (como en k-NN), obtenemos un corte recto que solo depende de dos números.

Esto ilustra cómo los centroides más cercanos comprimen todo el conjunto de datos en una regla simple y muy lineal.

Clasificador k-NN en Excel – Linealidad de centroides más cercanos – imagen del autor

Una nota sobre la regresión: por qué no se aplican los centroides

Ahora bien, este tipo de mejora no es posible para el regresor k-NN. ¿Por qué?

En la clasificación, cada clase forma un grupo de observaciones, por lo que tiene sentido calcular el vector de características promedio para cada clase, y esto nos da los centroides de clase.

Pero en la regresión, el objetivo es continuo. No existen grupos discretos, ni límites de clase y, por lo tanto, no hay una forma significativa de calcular “el centroide de una clase”.

Un objetivo continuo tiene infinitos valores posibles, por lo que no podemos agrupar las observaciones por su valor para formar centroides.

El único “centroide” posible en la regresión sería el promedio mundialque corresponde al caso k = N en el regresor k-NN.

Y este estimador es demasiado simple para ser útil.

En resumen, el clasificador de centroides más cercano es una mejora natural de la clasificación, pero no tiene un equivalente directo en regresión.

Otras mejoras estadísticas

¿Qué más podemos hacer con el clasificador k-NN básico?

Media y varianza

Con el clasificador de centroide más cercano, usamos la estadística más simple que es la promedio. Un reflejo natural en estadística es sumar la variación también.

Así que ahora la distancia ya no es euclidiana, sino mahalanobis distancia. Utilizando esta distancia obtenemos la probabilidad en base a la distribución caracterizada por la media y la varianza de cada clase.

Manejo de características categóricas

Para características categóricas, no podemos calcular medias o variaciones. Y para el regresor k-NN, vimos que era posible realizar codificación one-hot o codificación ordinal/etiqueta. Pero la escala es importante y no es fácil de determinar.

Aquí podemos hacer algo igualmente significativo, en términos de probabilidades: podemos contar las proporciones de cada categoría dentro de una clase.

Estas proporciones actúan exactamente como las probabilidades, describiendo la probabilidad de cada categoría dentro de cada clase.

Esta idea está directamente relacionada con modelos como Bayes categóricamente ingenuodonde las clases se caracterizan por distribuciones de frecuencia sobre las categorías.

Distancia ponderada

Otra dirección es introducir pesos, de modo que los vecinos más cercanos cuenten más que los distantes. En scikit-learn, existe el argumento de los “pesos” que nos permite hacer esto.

También podemos cambiar de “k vecinos” a un radio fijo alrededor de la nueva observación, lo que conduce a clasificadores basados ​​en radio.

Vecinos más cercanos del radio

En ocasiones podemos encontrar el siguiente gráfico para explicar el clasificador k-NN. Pero en realidad, con un radio como este, refleja más la idea del radio de los vecinos más cercanos.

Una ventaja es el control vecinal. Es especialmente interesante cuando conocemos el significado concreto de la distancia, como la distancia geográfica.

Clasificador de vecinos más cercanos de radio – imagen del autor

Pero la desventaja es que es necesario conocer el radio de antemano.

Por cierto, esta noción de radio de los vecinos más cercanos también es adecuada para la regresión.

Resumen de las diferentes variantes.

Todos estos pequeños cambios dan lugar a diferentes modelos, cada uno de los cuales intenta mejorar la idea básica de comparar vecinos según una definición de distancia más compleja, con un parámetro de control que nos permita obtener vecinos locales, o una caracterización más global del barrio.

No exploraremos todos estos modelos aquí. Simplemente no puedo evitar ir demasiado lejos cuando una pequeña variación conduce naturalmente a otra idea.

Por ahora, considere esto como un anuncio de los modelos que implementaremos a finales de este mes.

Variantes y mejoras del clasificador k-NN – imagen del autor

Conclusión

En este artículo, exploramos el clasificador k-NN desde su forma más básica hasta varias extensiones.

La idea central realmente no cambia: una nueva observación se clasifica observando qué tan similar es a los datos de entrenamiento.

Pero esta sencilla idea puede adoptar muchas formas diferentes.

Con características continuas, la similitud se basa en la distancia geométrica.
Con características categóricas, analizamos con qué frecuencia aparece cada categoría entre sus vecinas.

Cuando k se vuelve muy grande, todo el conjunto de datos se reduce a solo unas pocas estadísticas resumidas, lo que naturalmente conduce a Clasificador de centroides más cercano.

Comprender esta familia de ideas basadas en la distancia y la probabilidad nos ayuda a ver que muchos modelos de aprendizaje automático son simplemente formas diferentes de responder la misma pregunta:

¿A qué clase se parece más esta nueva observación?

En los próximos artículos continuaremos explorando modelos basados ​​en densidad, que pueden entenderse como medidas globales de similitud entre observaciones y clases.

Fuente