Efficient Learning on Large-Scale 3D Point Clouds - Institut national de l’information géographique et forestière - Ecole nationale des sciences géographiques Accéder directement au contenu
Thèse Année : 2024

Efficient Learning on Large-Scale 3D Point Clouds

Apprentissage Efficace sur Nuages de Points 3D à Grande Échelle

Résumé

Over the past decade, deep learning has advanced the analysis of text, image, audio, and video. More recently, transformers and self-supervised learning have triggered a global competition to train gigantic models on Internet-scale datasets, with massive computational resources. This thesis deals with large-scale 3D point cloud analysis and adopts a different approach focused on efficiency. We introduce methods which improve several aspects of the state-of-the-art: faster training, fewer parameters, smaller compute or memory footprint, and better utilization of realistically-available data. In doing so, we strive to devise solutions towards a more frugal and accessible Artificial Intelligence (AI). We first introduce a 3D semantic segmentation model that combines the efficiency of superpoint-based methods with the expressivity of transformers. We build a hierarchical data representation which allows us to drastically accelerate the parsing of large 3D point clouds. Our network proves to match or even surpass state-of-the-art approaches on a range of sensors and acquisition environments, while boasting orders of magnitude fewer parameters, with faster training and inference. We then build on this framework to tackle panoptic segmentation of large-scale 3D point clouds. Existing instance and panoptic segmentation methods do not scale well to large scene with numerous objects because the computation of their loss function implies a costly matching step between true and predicted instances. Instead, we frame this task as a scalable graph clustering problem, which a small network is trained to address from local objectives only, without computing the actual object instances at train time. Our lightweight model can process ten-million-point scenes at once on a single GPU in a few seconds, opening the door to 3D panoptic segmentation at unprecedented scales. Finally, we propose to exploit the complementarity of image and point cloud modalities to enhance 3D scene understanding. We place ourselves in a realistic acquisition setting where multiple arbitrarily-located images observe the same scene, with potential occlusions. Unlike previous 2D-3D fusion approaches, we learn to select information from various views of the same object based on their respective observation conditions: camera-to-object distance, occlusion rate, optical distortion, etc. Our efficient implementation achieves state-of-the-art results both in indoor and outdoor settings, with minimal requirements: raw point clouds, arbitrarily-positioned images, and their cameras poses. Overall, this thesis upholds the principle that for settings with limited data availability, exploiting the structure of the problem unlocks both efficient and performant architectures.
Au cours de la dernière décennie, l’apprentissage profond a fait progresser l’analyse de texte, d’image, d’audio et de vidéo. Plus récemment, les transformers et l’apprentissage auto-supervisé ont déclenché une compétition généralisée visant à entraîner des modèles gigantesques sur d’immenses jeux de données, au moyen d’énormes ressources de calcul. Cette thèse porte sur l’analyse de nuages de points 3D à grande échelle et adopte une approche différente centrée sur l’efficacité. Nous introduisons des méthodes qui améliorent plusieurs aspects de l’état de l’art : entrainement plus rapide, moins de paramètres, coût de calcul plus faible, plus économe en mémoire et meilleure utilisation des données disponibles de manière réaliste. Ce faisant, nous nous efforçons de concevoir des solutions en vue d’une Intelligence Artificielle (IA) plus sobre et plus accessible. Nous introduisons d’abord un modèle de segmentation sémantique 3D qui combine l’efficacité des méthodes basées superpoints avec l’expressivité des transformers. Nous construisons une représentation hiérarchique des données qui nous permet d’accélérer considérablement l’analyse de grands nuages de points 3D. Notre réseau se révèle égaler, voire surpasser, les approches de pointe sur une gamme de capteurs et d’environnements d’acquisition, tout en réduisant le nombre de paramètres et le temps d’entrainement de un à deux ordres de grandeur. Nous étendons ensuite ce cadre à la segmentation panoptique de nuages de points à grande échelle. Les méthodes existantes de segmentation d’instance et de segmentation panoptique ne sont pas adaptées aux grandes scènes comportant de nombreux objets, car le calcul de leur fonction de coût implique une étape fastidieuse d’appariement entre les instances réelles et prédites. Au lieu de cela, nous formulons cette tâche comme un problème de clustering de graphe, qu’un petit réseau est entrainé pour résoudre à partir d’objectifs locaux uniquement, sans nécessiter le calcul d’instances durant l’entraînement. Notre modèle peut traiter des scènes de dix millions de points à la fois sur un seul GPU en quelques secondes, ouvrant la voie à la segmentation panoptique 3D à des échelles sans précédent. Enfin, nous proposons d’exploiter la complémentarité des modalités image et nuage de points pour améliorer l’analyse de scènes 3D. Nous nous plaçons dans un cadre d’acquisition réaliste, où plusieurs images arbitrairement positionnées observent la même scène, avec de potentielles occultations. Contrairement aux approches existantes de fusion 2D-3D, nous apprenons à sélectionner des informations à partir de différentes vues du même objet en fonction de leurs conditions d’observation respectives : distance caméra-objet, taux d’occultation, distorsion optique, etc. Notre implémentation efficace atteint l’état de l’art tant pour des scènes d’intérieur que d’extérieur, avec des exigences minimales : nuages de points bruts, images positionnées de manière arbitraire et les poses de leurs caméras. Dans l’ensemble, cette thèse soutient le principe que, dans des régimes où les données sont rares, exploiter la structure du problème permet de développer des architectures à la fois efficaces et performantes.
Fichier principal
Vignette du fichier
efficient_learning_on_large_scale_3d_point_clouds.pdf (19.24 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-04448827 , version 1 (13-02-2024)

Identifiants

  • HAL Id : tel-04448827 , version 1

Citer

Damien Robert. Efficient Learning on Large-Scale 3D Point Clouds. Computer Vision and Pattern Recognition [cs.CV]. Université Gustave Eiffel, 2024. English. ⟨NNT : ⟩. ⟨tel-04448827⟩
61 Consultations
16 Téléchargements

Partager

Gmail Facebook X LinkedIn More