Ce cours présente les méthodes modernes pour la classification de données en grande dimension. Il a pour but, d'une part, de fournir aux étudiants les concepts théoriques pour appréhender l'impact statistique des algorithmes d'apprentissage, d'autre part, de donner un aperçu des applications potentielles de ces méthodes au data-mining en détaillant leur mécanisme.
1 - Introduction à l'apprentissage statistique.
Problèmes de prédiction : classification, régression. Détection d'anomalie et estimation de densité
2 - Concepts fondamentaux de la théorie de l'apprentissage.
Principe de Minimisation du Risque Empirique. Bornes non asymptotiques et concentration.
3 - Méthodes de classification standards : classifieurs linéaires, arbres de décision/CART, noyaux
4 -Des méthodes de classification plus avancées : le boosting et les <<~machines à vecteurs support~>> (SVM). Convexification du risque
5 - Contrôle de la complexité pour les algorithmes d'apprentissage. Méthodes de régularisation.
6 - Méthodes de régression linéaire pénalisées: Régression <<~ridge~>> vs. <<~Lasso~>> vs. <<~sparsity~>>
7 - Estimation non paramétrique de la densité. Détection d'anomalie
8 - Courbes ROC et critère AUC
Applications au <<~Ranking~>> : entraîner un moteur de recherche à ordonner des objets par degré de pertinence.
Dernière mise à jour : mercredi 29 juillet 2009


