¿Cuál es la diferencia entre aprendizaje supervisado y aprendizaje no supervisado? [cerrado]
En términos de inteligencia artificial y aprendizaje automático, ¿cuál es la diferencia entre aprendizaje supervisado y no supervisado? ¿Puede proporcionar una explicación básica y sencilla con un ejemplo?
Dado que hace esta pregunta tan básica, parece que vale la pena especificar qué es el aprendizaje automático en sí.
El aprendizaje automático es una clase de algoritmos basados en datos, es decir, a diferencia de los algoritmos "normales", son los datos los que "dicen" cuál es la "buena respuesta". Ejemplo: un algoritmo hipotético de aprendizaje no automático para la detección de rostros en imágenes intentaría definir qué es un rostro (un disco redondo del color de la piel, con un área oscura donde se esperan los ojos, etc.). Un algoritmo de aprendizaje automático no tendría esa definición codificada, pero "aprendería mediante ejemplos": mostrarás varias imágenes de caras y no caras y un buen algoritmo eventualmente aprenderá y será capaz de predecir si una imagen no vista es o no. La imagen es una cara.
Este ejemplo particular de detección de rostros está supervisado , lo que significa que sus ejemplos deben estar etiquetados o decir explícitamente cuáles son rostros y cuáles no.
En un algoritmo no supervisado tus ejemplos no están etiquetados , es decir, no dices nada. Por supuesto, en tal caso el algoritmo en sí no puede "inventar" qué es una cara, pero puede intentar agrupar los datos en diferentes grupos, por ejemplo, puede distinguir que las caras son muy diferentes de los paisajes, que son muy diferentes de los caballos.
Dado que otra respuesta lo menciona (aunque de manera incorrecta): existen formas de supervisión "intermedias", es decir, aprendizaje semisupervisado y activo . Técnicamente, estos son métodos supervisados en los que existe alguna forma "inteligente" de evitar una gran cantidad de ejemplos etiquetados. En el aprendizaje activo, el algoritmo mismo decide qué cosa debes etiquetar (por ejemplo, puede estar bastante seguro acerca de un paisaje y un caballo, pero podría pedirte que confirmes si un gorila es realmente la imagen de una cara). En el aprendizaje semisupervisado, hay dos algoritmos diferentes que comienzan con los ejemplos etiquetados y luego se "cuentan" entre sí la forma en que piensan acerca de una gran cantidad de datos no etiquetados. De esta "discusión" aprenden.
El aprendizaje supervisado se produce cuando los datos con los que alimenta su algoritmo están "etiquetados" o "etiquetados" para ayudar a su lógica a tomar decisiones.
Ejemplo: filtrado de spam Bayes, donde hay que marcar un elemento como spam para refinar los resultados.
El aprendizaje no supervisado son tipos de algoritmos que intentan encontrar correlaciones sin ninguna entrada externa que no sean los datos sin procesar.
Ejemplo: algoritmos de agrupamiento de minería de datos.
Aprendizaje supervisado
Las aplicaciones en las que los datos de entrenamiento comprenden ejemplos de los vectores de entrada junto con sus correspondientes vectores objetivo se conocen como problemas de aprendizaje supervisado.
Aprendizaje sin supervisión
En otros problemas de reconocimiento de patrones, los datos de entrenamiento consisten en un conjunto de vectores de entrada x sin ningún valor objetivo correspondiente. El objetivo de estos problemas de aprendizaje no supervisados puede ser descubrir grupos de ejemplos similares dentro de los datos, lo que se denomina agrupamiento.
Reconocimiento de patrones y aprendizaje automático (Bishop, 2006)
En el aprendizaje supervisado, la entrada x
recibe el resultado esperado y
(es decir, la salida que se supone que debe producir el modelo cuando la entrada es x
), que a menudo se denomina "clase" (o "etiqueta") de la entrada correspondiente x
.
x
En el aprendizaje no supervisado, no se proporciona la "clase" de un ejemplo . Por lo tanto, se puede considerar que el aprendizaje no supervisado es encontrar una "estructura oculta" en un conjunto de datos sin etiquetar.
Los enfoques del aprendizaje supervisado incluyen:
Clasificación (1R, Naive Bayes, algoritmo de aprendizaje de árbol de decisión, como ID3 CART, etc.)
Predicción de valor numérico
Los enfoques para el aprendizaje no supervisado incluyen:
Agrupación (K-medias, agrupación jerárquica)
Aprendizaje de reglas de asociación
Puedo darte un ejemplo.
Supongamos que necesita reconocer qué vehículo es un automóvil y cuál es una motocicleta.
En el caso del aprendizaje supervisado , su conjunto de datos de entrada (entrenamiento) debe estar etiquetado, es decir, para cada elemento de entrada en su conjunto de datos de entrada (entrenamiento), debe especificar si representa un automóvil o una motocicleta.
En el caso del aprendizaje no supervisado , no etiqueta las entradas. El modelo no supervisado agrupa la entrada en grupos basados, por ejemplo, en características/propiedades similares. Entonces, en este caso, no hay etiquetas como "automóvil".