Guide Expert : Deep Learning sur Nuages de Points 3D
"Le passage de la 2D à la 3D change radicalement la manière dont les réseaux de neurones 'voient' le monde.
L'invariance aux permutations est la clé."
1. Pourquoi le Deep Learning 3D ?
Le Deep Learning 3D permet d'automatiser des tâches autrefois manuelles et laborieuses comme la classification d'objets (mobilier, végétation, infrastructures) et la segmentation sémantique à l'échelle de villes entières.
2. Architectures Piliers
| Architecture | Concept Clé | Cas d'Usage |
|---|---|---|
| PointNet | Global Pooling (Invariance spatiale) | Classification simple d'objets |
| PointNet++ | Apprentissage hiérarchique local | Segmentation indoor (S3DIS) |
| KPConv | Kernel Point Convolution | LiDAR aérien grande échelle |
| 3D Transformers | Attention spatiale 3D | Scènes complexes et relations |
3. Segmentation Sémantique vs Instance
Il est crucial de distinguer ces deux approches fondamentales :
- Sémantique : Attribuer une classe à chaque point (ex: "Ceci est un Mur").
- Instance : Distinguer chaque objet individuellement (ex: "Ceci est la Fenêtre #1, ceci est la Fenêtre #2").
4. Préparation des Données (Preprocessing)
La performance d'un modèle 3D dépend à 80% de la qualité des données :
- Normalisation : Centrer le nuage de points à l'origine (0,0,0).
- Augmentation : Rotation aléatoire, jittering (bruit), et scaling pour renforcer la robustesse.
- Sampling : Utilisation du Farthest Point Sampling (FPS) pour conserver la structure géométrique.
5. Métriques et Benchmarks
L'évaluation des modèles 3D repose sur des métriques spécifiques :
- mIoU (mean Intersection over Union) : Mesure standard de la qualité de segmentation sémantique, calculée classe par classe.
- OA (Overall Accuracy) : Pourcentage global de points correctement classifiés.
- F1-Score par classe : Équilibre entre précision et rappel, essentiel pour les classes minoritaires (ex: poteaux, câbles).
| Architecture | mIoU S3DIS | mIoU ScanNet |
|---|---|---|
| PointNet | 41.1% | - |
| PointNet++ | 54.5% | 33.9% |
| KPConv | 70.6% | 69.2% |
| Point Transformer V2 | 71.6% | 75.4% |
6. Ressources Complémentaires
Ce guide constitue une introduction aux architectures fondamentales du Deep Learning 3D. Le Module 4 de la formation approfondit chacune de ces architectures avec des implémentations complètes en PyTorch et des entraînements sur données réelles.
Expertise Deep Learning 3D | 3D Geodata Academy