Recursos para principiantes/introducciones a los algoritmos de clasificación [cerrado]
todos. Soy completamente nuevo en el tema de los algoritmos de clasificación y necesito algunos buenos consejos sobre dónde comenzar una "lectura seria". Ahora estoy en el proceso de descubrir si el aprendizaje automático y los algoritmos de clasificación automatizados podrían ser algo que valga la pena agregar a alguna de mis aplicaciones.
Ya revisé "Cómo resolverlo: heurística moderna" de Z. Michalewicz y D. Fogel (en particular, los capítulos sobre clasificadores lineales que usan redes neuronales) y, en el lado práctico, actualmente estoy revisando la fuente del kit de herramientas WEKA. código. Mi siguiente paso (planeado) sería sumergirme en el ámbito de los algoritmos de clasificación bayesianos.
Desafortunadamente, me falta una base teórica seria en esta área (y mucho menos haberla usado de alguna manera hasta el momento), por lo que agradecería cualquier sugerencia sobre dónde buscar a continuación; en particular, sería útil una buena introducción de los algoritmos de clasificación disponibles. Siendo más artesano y menos teórico, cuanto más práctico, mejor...
Consejos, ¿alguien?
Siempre me han parecido muy útiles los tutoriales de Andrew Moore . Se basan en una teoría estadística sólida y serán muy útiles para comprender los artículos si decide leerlos en el futuro. Aquí hay una breve descripción:
Estos incluyen algoritmos de clasificación como árboles de decisión, redes neuronales, clasificadores bayesianos, máquinas de vectores de soporte y aprendizaje basado en casos (también conocido como no paramétrico). Incluyen algoritmos de regresión como regresión polinómica multivariada, MARS, regresión ponderada localmente, GMDH y redes neuronales. E incluyen otras operaciones de minería de datos como clustering (modelos mixtos, k-medias y jerárquicos), redes bayesianas y aprendizaje por refuerzo.
La respuesta que se refiere a los tutoriales de Andrew Moore es buena . Sin embargo, me gustaría ampliarlo sugiriendo algunas lecturas sobre la necesidad que impulsa la creación de muchos sistemas de clasificación en primer lugar: la identificación de relaciones causales. Esto es relevante para muchos problemas de modelado que involucran inferencia estadística.
El mejor recurso actual que conozco para aprender sobre la causalidad y los sistemas de clasificación (especialmente los clasificadores bayesianos) es el libro de Judea Pearl "Causality: modelos, razonamiento e inferencia" .
Descripción general del aprendizaje automático
Para obtener una buena descripción general del campo, mire las conferencias en video del curso de aprendizaje automático de Andrew Ng .
Este curso (CS229), impartido por el profesor Andrew Ng, proporciona una amplia introducción al aprendizaje automático y al reconocimiento de patrones estadísticos. Los temas incluyen aprendizaje supervisado, aprendizaje no supervisado, teoría del aprendizaje, aprendizaje por refuerzo y control adaptativo. También se analizan las aplicaciones recientes del aprendizaje automático, como el control robótico, la extracción de datos, la navegación autónoma, la bioinformática, el reconocimiento de voz y el procesamiento de datos web y de texto.
Clasificadores
En cuanto a qué clasificador debería usar, recomendaría comenzar primero con Support Vector Machines (SVM) para tareas generales de clasificación aplicada. Le brindarán un rendimiento de última generación y realmente no necesita comprender toda la teoría detrás de ellos para simplemente usar la implementación proporcionada por un paquete como WEKA.
Si tiene un conjunto de datos más grande, es posible que desee intentar utilizar Random Forests . También hay una implementación de este algoritmo en WEKA, y entrenan mucho más rápido con datos de gran tamaño. Si bien se utilizan menos que las SVM, su precisión tiende a igualar o casi igualar la precisión que se puede obtener de una.