Introduction
Le choix d'un algorithme de machine learning (ML) pour un problème de régression est une étape cruciale dans le processus de développement d'un modèle. Plusieurs facteurs entrent en jeu, allant de la nature des données à la performance du modèle. Ce guide vous aidera à naviguer à travers ces choix pour sélectionner l'algorithme de régression le plus approprié.
- Type de données
- Données continues ou discrètes
- Présence de variables catégorielles
- Dimensionnalité
- Nombre de caractéristiques (features)
- Corrélation entre les caractéristiques
- Volume de données
- Taille de l'ensemble de données
- Ratio entre les observations et les caractéristiques

- Régression linéaire
- Bon pour les relations linéaires
- Facile à interpréter
- Régression Ridge/Lasso
- Utile pour la régularisation
- Gère bien la colinéarité
- Arbres de décision/Forêts aléatoires
- Gère bien les variables catégorielles
- Capable de modéliser des relations non-linéaires
- Réseaux neuronaux
- Puissants pour les relations complexes
- Nécessitent beaucoup de données

La complexité d'un algorithme ne garantit pas nécessairement une meilleure performance. Une évaluation rigoureuse à l'aide de la validation croisée est indispensable.

