La réalité augmentée (RA) vise à ajouter des éléments virtuels au monde qui nous entoure, en offrant à l'utilisateur la possibilité d'être immergé dans cet environnement mixte. Je présente dans cette page quelques applications de la RA et une vue d'ensemble des problèmes à résoudre. Sur les dispositifs de visualisation et les méthodes de suivi de caméra et de rendu temps réel, on pourra consulter les liens consacrés au sujet (par exemple, augmented-reality.org) ou se référer au livre ci-contre.

Introduction

Selon Ronald Azuma, chercheur à l'université de Caroline du Nord, la réalité augmentée doit respecter trois règles fondamentales : combiner le réel et le virtuel, de manière interactive (en temps réel) et en respectant l'homogénéité perspectiviste. Cette définition exclut donc les simples collages 2D qui ne respectent pas la cohérence 3D, ainsi que la composition en post-production qui n'est pas temps réel. En revanche, elle n'impose aucune contrainte sur le réalisme photométrique des compositions (par exemple, les objets virtuels peuvent être affichés en mode filaire). La visualisation peut se faire à l'aide de lunettes stéréoscopiques particulières, qui permettent de voir la réalité en même temps que les objets synthétiques représentés en relief. Sur un axe horizontal allant de l'environnement réel à un monde entièrement virtuel, la RA se situe dans la partie gauche de l'axe, en opposition à la ``virtualité augmentée'' (VA) qui concerne l'ajout d'éléments réels (personnes, textures, etc.) dans des environnements virtuels. RA et VA sont regroupés sous le terme de ``réalité mixte'' (Fig. 1).

Figure 1: Le continuum réel / virtuel. Milgram et Kishino, université de Toronto.
\includegraphics[width=\linewidth]{illustrations/mixte.eps}

Effets spéciaux et jeu vidéo

Les premiers mélanges entre images filmées et images numériques ont été réalisés pour le film Tron de Steven Lisberger (1982). Mais le premier film à avoir réellement marqué les esprits pour la qualité de ses incrustations numériques est Jurassic Park de Steven Spielberg (1993), dans lequel des dinosaures virtuels étaient incrustés dans un décor réel de parc d'attractions. D'autres grands succès ont suivi, comme Star Wars Épisode 1 (George Lucas, 1999) et plus récemment, Le Seigneur des Anneaux (Peter Jackson, premier volet sorti en 2001). Les éléments ajoutés sont généralement des machines, des ustensiles ou des créatures, qui n'existent pas en réalité mais que l'image de synthèse permet de représenter de manière convaincante et à moindres frais.

Le pendant interactif du cinéma des effets spéciaux est le jeu vidéo. La possibilité d'insérer des objets virtuels dans l'environnement réel du joueur peut constituer une expérience ludique amusante et inédite. Ainsi Stricker, Klinker et Reiners du ZGDV ont parmi les premiers proposé un jeu de morpion reposant sur un plateau de jeu et une moitié de pions réels (Fig. 2), et permettant à l'utilisateur de jouer ``contre l'ordinateur'' dont les pions (virtuels) sont visualisés en relief, par-dessus la scène réelle. Un écran virtuel est aussi intégré au plateau de jeu réel, qui permet d'afficher divers messages liés au déroulement du jeu. Ce nouveau type de support (réel + virtuel) présente l'intérêt de permettre au joueur de se mesurer à une intelligence artificielle tout en manipulant physiquement ses propres pièces. D'autres exemples plus spectaculaires ont aussi été proposés pour illustrer les possibilités de la RA, comme un Pac Man humain ou un Duke Nukem grandeur réelle. En 2007, le premier jeu vidéo utilisant la RA (The eye of Judgment) est sorti sur playstation 3.

Figure 2: Jeu de morpion en réalité augmentée. Stricker, Klinker, Reiners, ZGDV.
\includegraphics[width=0.75\linewidth]{illustrations/morpion.ps}

Marketing

L'évolution des effets spéciaux numériques dans le cinéma a bien-sûr aussi profité à la publicité, qui dispose aujourd'hui de nouveaux outils pour mettre en valeur les produits à vendre. Grâce aux nouvelles techniques de composition 3D, il est par exemple possible de montrer une image artificiellement embellie du produit, tout en l'intégrant dans un décor naturel pour la rendre plus crédible. On peut aussi transformer plus radicalement l'apparence du produit, par exemple pour produire un effet comique, ou encore le placer dans un environnement insolite pour susciter une émotion particulière.

Mais la faculté de mélanger le réel et le virtuel permet d'aller au-delà de la simple amélioration des techniques de production d'images publicitaires déjà existantes. Des possibilités tout à fait nouvelles sont offertes, notamment dans le domaine du commerce électronique. Il est depuis longtemps possible de visualiser des catalogues de produits en ligne, sous forme de photographies ou parfois de modèles 3D texturés, qu'il est permis de contempler sous différents angles. Mais un inconvénient majeur de cette formule de vente est qu'elle ne permet pas au client ``d'essayer'' le produit, c'est-à-dire par exemple de vérifier si un vêtement correspond bien à sa silhouette, ou si un meuble ne dénature pas avec le reste de la pièce qu'il souhaite fournir. La composition numérique permet de progresser dans ce sens. Avec Marie-Odile Berger au Loria, nous avons par exemple travaillé sur une application d'e-commerce dans le cadre du projet ARIS. Deux scénarios d'applications ont été implémentés dans ce projet. Un scénario ``statique'' permettait au visiteur de sélectionner des meubles dans un catalogue, de choisir leur texture et leur couleur (Fig. 3, gauche), puis de les insérer dans une photographie de son propre intérieur (Fig. 3, droite). Un ensemble de logiciels étaient téléchargeables depuis le site, permettant de :

En déposant les fichiers enregistrés depuis ces logiciels sur le site Internet, il était alors possible de déplacer les meubles dans la photographie (en tenant compte des collisions entre objets réels et virtuels), et d'évaluer l'harmonie générale de la pièce. La génération des ombres portées par les meubles virtuels sur les objets réels de la pièce, ainsi que l'éclairage de ces meubles à partir des sources lumineuses retrouvées, permettaient d'obtenir des incrustations très réalistes. Par ailleurs, un scénario ``mobile'' a été proposé, permettant au client potentiel d'insérer les meubles en relief directement dans son intérieur, par l'intermédiaire d'un HMD (Fig. 4). Les mouvements de tête de l'utilisateur étaient suivis en temps réel en utilisant une méthode basée sur l'analyse d'image, ce qui lui permettait de se déplacer dans la pièce et de regarder les meubles virtuels selon les points de vue désirés (vidéo).

Figure 3: Le système ARIS permet aux visiteurs d'un site en ligne d'insérer de manière très réaliste des meubles virtuels dans des photographies de leur propre intérieur.
\includegraphics[height=0.66\linewidth]{illustrations/aris_interface2.eps} \includegraphics[height=0.66\linewidth]{illustrations/aris_interface3.eps}

Figure 4: Le scénario mobile du système ARIS permet au client de visualiser les meubles directement dans son intérieur. Dans ces photos on voit une personne en train d'essayer le système, proposé en démonstration dans un magasin Ikéa (l'écran du portable montre ce que l'utilisateur voit en 3D dans son casque). Vidéo.
\includegraphics[width=0.49\linewidth,height=0.38\linewidth]{illustrations/aris_mobile3.eps} \includegraphics[width=0.49\linewidth,height=0.38\linewidth]{illustrations/aris_mobile4.eps}

Art numérique

On peut qualifier d'art numérique toute forme d'art reposant totalement ou partiellement sur la technologie numérique. Longtemps ignoré par le monde de l'art contemporain, l'art numérique est aujourd'hui en plein essor et introduit de profonds bouleversements dans les modes de production, de diffusion et de conservation des oeuvres d'art. Dans un ouvrage intitulé L'Art numérique, Edmont Couchot et Norbert Hillaire montrent comment l'art numérique et en particulier la réalité augmentée ont pénétré des domaines artistiques aussi inattendus que la danse, le théâtre et l'opéra. Par exemple, Carlos Barcena a mis en scène à l'opéra de Nancy, en 1998, Alcina de Haendel, un opéra dont la scénographie fait habituellement appel à d'importants changements de décor. Dans la mise en scène proposée, les chanteurs étaient immergés dans d'immenses images numériques projetées en deux et trois dimensions, leur permettant d'évoluer dans des univers magiques et de dialoguer avec des personnages fantastiques. ``Avec cette expérience très réussie, [le responsable des effets spéciaux] Marc-Joseph Sigaud a convaincu le monde de l'opéra que le mélange réel-virtuel pouvait introduire d'autres scénographies et briser les contraintes mentales des artistes et des techniciens, tout en emportant l'adhésion du public.''

Mais la spécificité de l'art numérique réside essentiellement dans la possibilité qu'il offre au spectateur d'interagir avec l'oeuvre. Ainsi Didier Stricker, Torsten Fröhlich et Claudia Söller-Eckert ont présenté une installation interactive intitulée [Augmented Man] dans le cadre d'une exposition artistique organisée à Mayence, pour le 600ème anniversaire de Gutenberg. Une maquette virtuelle de l'installation est montrée en figure 6 : une vidéo stéréoscopique projetée sur le mur permet au visiteur d'entrer en contact avec un homme virtuel, semblant avoir des émotions et cherchant à communiquer avec lui. Le visiteur se voit comme dans un miroir 3D, mais avec une nouvelle personne marchant à ses côtés. L'homme ajouté réagit à la présence du visiteur en l'approchant ou en l'évitant, et se comporte comme n'importe quel être humain, tantôt hésitant, tantôt courageux, tantôt interrogatif (vidéo).

Figure 6: Maquette virtuelle de l'installation interactive [Augmented Man]. Vidéo.
\includegraphics[width=\linewidth]{illustrations/katalogSide.eps}

Assistance et aide à la décision

La réalité augmentée trouve aussi de nombreuses applications utilitaires dans l'aide à la décision, l'assistance et le guidage, pour des domaines aussi variés que l'architecture, l'industrie, le tourisme et la médecine. En architecture, elle offre la possibilité d'évaluer si un projet de construction s'intègrera de façon harmonieuse dans son environnement futur, ce dont il n'est pas possible de se rendre compte avec une simple maquette virtuelle. Par exemple, EDF, le Loria et le CRAI ont travaillé en 1998 sur l'étude d'impact de plusieurs projets d'illumination du Pont Neuf. À partir des plans papier, une maquette virtuelle du pont a été établie avec des positions, des couleurs et des réglages de lumières différents pour chaque projet testé. Ce pont virtuellement illuminé était alors ``projeté'' dans une séquence vidéo du Pont Neuf, de manière à remplacer le pont réel tout en conservant l'avant-plan et l'arrière-plan de la vidéo (Fig. 7). Les reflets des sources lumineuses dans l'eau réelle de la Seine apparaissaient aussi dans le résultat final (vidéo).

Figure 7: Étude d'impact d'un projet d'illumination du Pont Neuf. Gauche : image originale extraite de la séquence à traiter. Droite : image dans laquelle le pont a été remplacé par son homologue virtuel. Chevrier, Berger, Simon, LORIA - CRAI. Vidéo.
\includegraphics[width=\linewidth,height=0.4\textheight]{illustrations/RA_pont60_reel.ps} \includegraphics[width=\linewidth,height=0.4\textheight]{illustrations/RA_pont60_virtuel.ps}

De la même manière que nous pouvons visualiser une réalisation architecturale dans son environnement futur, il est possible inversement de représenter des monuments disparus sur leur site d'origine, tels qu'ils étaient du temps de leur splendeur. Un projet nommé ARCHEOGUIDE a rassemblé des chercheurs de plusieurs universités européennes autour de ce thème. Le site grec Olympie (lieu de naissance des Jeux Olympiques) a été choisi comme premier site de tests. Les visiteurs devaient d'abord définir un profil d'utilisateur (centres d'intérêts, niveau de connaissances) et choisir un parcours de visite. Munis d'un ordinateur de poche et d'un HMD, ils étaient alors guidés à travers le site, à l'aide d'informations visuelles ou audio correspondant à leur profile, accompagnées d'une aide à la navigation. À certains moments, le système calculait des images 3D des monuments, et les affichait à travers le HMD (Fig. 8). Ce concept peut être étendu au domaine de l'aide à la navigation en général, pour la randonnée ou le tourisme par exemple (guidage, affichage d'indications par-dessus les éléments naturels ou les monuments, etc.).

Figure 8: Le système ARCHEOGUIDE permet aux visiteurs d'un site archéologique de voir les monuments disparus tels qu'ils étaient dans le passé. Projet européen ARCHEOGUIDE.
\includegraphics[width=\linewidth]{illustrations/archeoguide.eps}

La possibilité de guider l'utilisateur en temps réel est aussi très intéressante pour l'industrie, notamment pour des opérations d'assemblage ou de maintenance. Ainsi, le système KARMA, proposé par Steven Feiner, Blair MacIntyre et Dorée Seligmann de l'Université de Columbia, offre une assistance aux utilisateurs d'une photocopieuse pour des opérations de maintenance simple. Des éléments graphiques ainsi que du texte apparaissent par-dessus les éléments réels de la photocopieuse, permettant d'indiquer à l'utilisateur la suite des opérations à suivre (Fig. 9). Le même principe a été adopté pour l'assemblage de systèmes de fermeture de portes de voitures au Fraunhofer-Institut für Graphische Datenverarbeitung (IGD) ou de fils électriques chez Boeing.

Figure 9: Le système Karma aide l'utilisateur dans des opérations de maintenance simple d'une photocopieuse. Feiner, université de Columbia (New-York).
\includegraphics[width=0.5\linewidth,height=0.355\linewidth]{illustrations/SMALLGI92hmd.eps} \includegraphics[width=0.5\linewidth,height=0.355\linewidth]{illustrations/SMALLcacm93tray.eps}

Enfin, des applications d'assistance sont aussi envisagées en médecine où la faculté de ``voir'' directement à l'intérieur du corps du patient offre de nouvelles possibilités. Des chercheurs de l'Université de Caroline du Nord se sont ainsi intéressés au guidage de la biopsie du sein, à l'aide d'images ultrasonores, directement visualisées par-dessus la poitrine de la patiente (Fig. 10). Un système d'apprentissage basé sur la RA a aussi été proposé en obstétrique par Tobias Sielhorst et Nacir Navab, de l'université de Munich. Ce système doit permettre aux étudiants d'apprendre à insérer les deux parties du forceps dans le vagin de la mère, sans blesser celle-ci ni l'enfant. Une vue synthétique des fonctions biologiques est superposée à un mannequin, à l'intérieur duquel une sphère représentant la tête de l'enfant est contrôlée par un bras robotisé. Les forceps sont munis de capteurs optiques qui permettent d'inférer la position des instruments à l'intérieur du mannequin à partir de leurs mouvements détectés depuis l'extérieur (Fig. 11 et vidéo).

Figure 10: La RA peut aider au guidage d'une biopsie par imagerie ultrasonore. State et al., Université de Caroline du Nord.
\includegraphics[width=0.5\linewidth]{illustrations/biopsie2.eps} \includegraphics[width=0.5\linewidth]{illustrations/biopsie.eps}

Figure 11: Utilisation de la RA pour l'apprentissage de l'extraction de l'enfant aux forceps. Navab et al., université de Munich. Vidéo
\includegraphics[width=0.66\linewidth]{illustrations/forceps.eps}

Problématique

Plusieurs problèmes se posent lorsqu'on cherche à insérer des objets virtuels dans des images réelles (cf. fig. 12) :

Alignement des caméras réelle et virtuelle

Le problème qui revient à faire correspondre la perspective de l'objet virtuel avec celle de la scène réelle est appelé problème d'alignement des caméras réelle et virtuelle. Résoudre ce problème consiste à retrouver les propriétés de la caméra réelle ayant donné lieu à l'observation (réglages internes et point de vue par rapport à la scène), et à calculer les images synthétiques en utilisant une caméra virtuelle reprenant ces propriétés. Plusieurs techniques existent pour retrouver les paramètres réels de la caméra, à partir de capteurs ou d'indices extraits directement de l'image à augmenter. La figure 12.(b) montre un exemple de résultat obtenu lorsque l'image de la voiture respecte la perspective réelle. On constate toutefois que d'avoir résolu ce problème ne suffit pas à obtenir une image réaliste : la voiture n'est pas correctement éclairée, et la partie arrière du véhicule qui devrait être occultée par le bâtiment photographié, est pourtant projetée par-dessus l'édifice.

Cohérence spatio-temporelle

Ce problème concerne les déplacements des objets virtuels dans la scène réelle (positionnement relatif, synchronisation temporelle), ainsi que les occultations et interpénétrations qui peuvent se produire entre éléments de natures différentes. La figure 12.(c) montre un résultat de composition où la cohérence spatiale est prise en compte.

Cohérence photométrique

Ce problème concerne la prise en compte des inter-réflexions lumineuses (ombres, reflets) entre les scènes réelle et virtuelle. La figure 12.(d) montre le résultat obtenu en tenant compte de la cohérence photométrique.

Si ces problèmes sont communs à la post-production et à la réalité augmentée, leur résolution sous la contrainte du temps réel impose de mettre en oeuvre des techniques particulières. Cette spécificité est bien-sûr liée au fait que les calculs doivent être réalisés très rapidement, ce qui demande de faire preuve d'astuce au niveau logiciel et d'utiliser du matériel performant. Mais elle est aussi intrinsèque au fait que les images arrivent en flux, c'est-à-dire qu'à chaque instant nous disposons de l'image courante et éventuellement des images déjà visualisées (si celles-ci sont stockées), mais pas des images futures. Au début du processus, le nombre d'images dont nous disposons est donc trop petit pour utiliser une technique de post-production (i.e. Matchmover, Boujou, ...). Le suivi de caméra en temps réel est l'un des thèmes sur lesquels nous travaillons dans le projet MAGRIT.

Figure 12: Illustration de la problématique de la composition entre réel et virtuel. (a) Intégration arbitraire. (b) Prise en compte de l'alignement entre caméras réelle et virtuelle. (c) Respect de la cohérence spatiale. (d) Respect de la cohérence photométrique.
\includegraphics[width=0.495\linewidth]{illustrations/occul6.eps} \includegraphics[width=0.495\linewidth]{illustrations/occul4.eps}
(a)(b)
\includegraphics[width=0.495\linewidth]{illustrations/occul3.eps} \includegraphics[width=0.495\linewidth]{illustrations/occul1.eps}
(c)(d)