These Olivier Losson

Chapitre 1.

Geste communicatif et signe.

Ce chapitre est destiné à présenter certaines définitions concernant la langue des signes dans le contexte du geste de communication, point d’intérêt de notre partie introductive, et aussi ce que nous enseignent les travaux menés dans le domaine de la synthèse et de la linguistique du signe.

Dans un premier temps, nous tentons d’exposer de façon aussi concise que possible le cadre du geste communicatif et d’y replacer les langues gestuelles, en insistant bien sur la spécificité de ces dernières. Les langues des signes constituent en effet aujourd’hui les formes les plus évoluées d’expression par le biais du canal gestuel, et leur statut de langue à part entière est désormais pleinement reconnu.

La partie suivante situe notre étude. Il y est question de l’utilité d’obtenir une synthèse informatisée du signe, ainsi que des tenants et aboutissants de notre recherche. Nous dressons ensuite un état de l’art en la matière, en passant notamment en revue les travaux de traduction bidirectionnelle.

Pour finir, il nous a paru nécessaire d’introduire les études linguistiques ayant conduit à différentes descriptions des signes, ainsi que les diverses représentations écrites ou applications informatisées auxquelles celles-ci ont donné lieu. En conclusion, nous examinons dans quelle mesure ces transcriptions sont adaptées à notre dessein de description formelle du signe, objet du deuxième chapitre.

1.1. Gestes et langues des signes.

Il n’est pas si loin le temps où les langues des signes étaient appelées " langages mimiques ", ou encore " communication par gestes ". Nous nous attachons dans cette partie à montrer que les signes ne sont pas de simples gestes, et explicitons les différences fondamentales entre les concepts que sous-tendent ces termes.

1.1.1. Du geste au signe, la communication gestuelle.

Intuitivement, nous percevons tous aisément ce que peut recouvrir la notion de geste. Un salut de la main, la désignation d’un oiseau qui passe, l’agent qui fait signe aux automobilistes de s’arrêter, sont des exemples qui nous viennent immédiatement à l’esprit. Mais à partir de quel moment peut-on réellement parler de gestes et comment dès lors les catégoriser ?

Nous souhaitons dans cette partie répondre de façon concise à ces interrogations, en examinant tout particulièrement les gestes qui accompagnent le discours. Puis nous exposons dans quelle mesure le geste est utilisé en communication homme-homme et homme-machine, avant de voir pourquoi nous avons choisi de nous pencher sur l’étude des langues gestuelles.

1.1.1.1. Caractérisation du geste et définitions.

La notion de geste n’est pas définie avec précision. Elle varie en fonction du domaine d’étude, selon que l’on se place d’un point de vue sociologique, cognitif, biologique, ... Il en va de même pour un certain nombre de termes dont nous allons préciser dès maintenant l’acception retenue dans le cadre de ce texte.

En écartant le sens figuré, le geste – physiologique – peut être défini comme un mouvement intentionnel et significatif du corps ou des membres. Cette caractérisation minimale appelle trois remarques :

elle attribue au geste une fonction informative, et ne recouvre donc pas l’ensemble des actions modifiant l’environnement physique ;
le message véhiculé doit être admis et reconnu par son destinataire. Le geste doit donc se conformer à un code commun aux deux parties, ce qui suppose qu’il est reproductible (avec de légères variations possibles à condition que le contenu sémantique soit conservé), et partant contrôlable ;
parce qu’il est un acte volontaire, le geste exclut les mouvements réflexes. Dans de très rares cas, il peut toutefois être instinctif.

En tant que moyen de transmission d’une information, le geste s’insère dans un schéma de communication de type :

Source ® émetteur ® canal ® message ® récepteur ® destinataire

Le canal de ce processus est bidirectionnel, c’est-à-dire que le geste peut soit capter, soit émettre de l’information.

Dans le premier cas, c’est souvent la main qui joue le rôle d’organe de la perception ; grâce au sens tactile, elle acquiert des données sur la nature spatiale et temporelle des objets (forme, taille, quantité, déplacement ...). Le balayage par le doigt de l’aveugle d’une ligne codée en braille en est un exemple.
Dans le second cas, le schéma le plus communément rencontré est l’utilisation de la main comme émetteur, qui utilise l’air comme canal de transmission pour s’adresser à un système de vision humain ou artificiel.

Les gestes de perception ne sont pas développés davantage dans la suite de notre propos. Il y est en revanche largement fait référence à ceux qui émettent de l’information, notamment les gestes d’accompagnement de la parole, de désignation d’objets et, bien entendu, les signes.

Concernant ce dernier terme, remarquons que la sémiotique moderne lui attribue une plage d’acceptions très étendue [ECO 88]. Elle considère en effet le signe comme élément d’un processus quelconque de communication, dont le geste ne constitue qu’une des modalités. Nous allons, pour notre part, nous cantonner à son sens relatif à la langue des signes, à savoir un élément de son vocabulaire. Toutefois, les propriétés dégagées dans le cadre d’une plus large signification demeurent valables. En particulier, tout signe possède un signifiant, représentation artificielle – donc reposant sur un code – d’un concept (le signifié), et fait allusion à un référent concret ou abstrait, présent ou non lors de l’émission du message.

Figure 1.1 : les trois facettes du signe.

La figure 1.1 présente ces trois composantes du signe. Dans l’exemple proposé, le signifiant qui nous importe est de nature gestuelle. Ses équivalents pourraient être le mot /arbre/ ou /Baum/ (pour l’écrit), un dessin représentant un arbre, ou encore la définition de ce dernier. Ces différentes formes montrent bien que le signifiant est arbitraire.

Signalons pour clore ce paragraphe introductif qu’en communication homme-machine, le geste peut intervenir à la fois en entrée (une phase de reconnaissance est pour cela nécessaire), en sortie (il est alors synthétisé avant d’être présenté sur un dispositif adapté, tel un écran), ou en entrée-sortie. Ce type d’interaction est largement étudié un peu plus avant dans cette partie.

1.1.1.2. Catégorisation des gestes.

En raison de la richesse de la modalité gestuelle [MOR 97] et de la grande variété de formes qu’elle recouvre, il n’est pas aisé d’en établir une taxonomie, et il n’existe pas de consensus en la matière. En guise de première approche, on peut distinguer les gestes accompagnant la parole (désignés sous le terme gesticulation) et ceux qui en sont indépendants (gestes autonomes). D’autres dichotomies ont été proposées, notamment par Nespoulous (cité dans [COH 99]), telles celle opposant les actions pures aux symboles, ou celle basée sur le degré d’universalité – et d’intelligibilité – des gestes.

Même s’il ne peut refléter toutes les fonctions du geste, le système de classification donné par Kendon [KEN 88] est intéressant en ce qu’il synthétise, sous la forme d’un continuum, plusieurs autres réflexions portant sur le même sujet (figure 1.2).

Gesticulation	®	Gestes de para-langage	®	Pantomime	®	Emblèmes	®	Langue des signes

Figure 1.2 : le continuum de Kendon.

Ce continuum reflète une évolution croissante (lorsqu’on le parcourt de gauche à droite) de la complexité et de la richesse du message gestuel :

Par gesticulation, il faut entendre l’ensemble des gestes co-verbaux (accompagnant la parole), que nous étudions plus avant dans la prochaine partie.
Le terme " gestes de para-langage " résulte de la traduction de l’anglais language-like gestures. En réalité, ils ne constituent nullement un langage car, à la différence des langues des signes, ils apparaissent plutôt comme un simple système de codage au vocabulaire très restreint et sans combinatoire. Ce sont par exemple les gestes utilisés pour
l’arbitrage de certains sports.
La pantomime vise à créer une image gestuelle d’un objet, d’un événement, d’un état d’esprit, …Son but est de rendre évident au spectateur le signifié par sa seule forme ; elle est donc fortement iconique.
Les emblèmes (encore appelés gestes symboliques) sont des gestes complétant les mots ou utilisés à leur place. Ils sont utilisés au sein d’une société, pour les membres de laquelle ils ont une signification fixe et communément acceptée. Le froncement des sourcils est ainsi largement répandu pour exprimer le doute, le désaccord ou une difficulté de compréhension. En revanche, la représentation des chiffres avec les doigts de la main diffère selon les cultures ; le système chinois n’a pas grand-chose à voir avec celui que nous trouvons en France.
Les langues des signes sont les seules à pouvoir être considérées comme de véritables langues. Elles possèdent en effet certaines propriétés de décomposition, certaines règles de formation et d’ordonnancement, et une combinatoire permettant de générer de nouveaux items lexicaux selon les besoins.

Comme le souligne Mc Neill [MCN 92], lorsque l’on se déplace le long de cette échelle dans le sens des flèches, on observe que la nécessité d’accompagner le geste par la parole diminue[1], alors qu’apparaissent progressivement des caractéristiques propres aux langues. Parallèlement, les gestes co-verbaux sont fortement idiosyncratiques, alors qu’emblèmes et signes sont largement régulés par la société qui les utilise.

1.1.1.3. Le geste co-verbal.

Il est fort probable que, dans le développement de la communication entre les hommes, le geste ait précédé le langage. Le fait que certains gestes possèdent des référents externes pourrait en être une explication ; montrer un objet ou évoquer sa forme semble le plus naturel pour le désigner. En était-il déjà ainsi pour nos lointains ancêtres ? Toujours est-il que, selon Mc Neill, la communication gestuelle est plus intimement liée à la pensée que le langage. Pour étayer cette thèse, on peut remarquer que l’"erreur gestuelle" n’existe pas dans le geste co-verbal : si je désigne ma droite en parlant de la gauche, on aura compris que c’est ma langue qui a fourché.

Le canal gestuel est à même de transmettre une information riche, précise. Dans des situations où le message oral est trop dégradé (par exemple dans le cas d’un bruit environnant intense ou d’une isolation phonique par une vitre), ou lorsque l’on ne maîtrise pas suffisamment la langue de son interlocuteur, cette modalité constitue une alternative intuitive à la parole. La gesticulation est utilisée dans le monde entier pour compléter, préciser, nuancer, voire contredire le contenu du discours. La théorie moderne conçoit le geste et la parole comme parties d’un tout cohérent procédant de la pensée. Kendon définit même ce que l’on pourrait traduire en français par " articulation " (dont la polysémie est d’ailleurs aussi utile que révélatrice) comme une unité résultant d’une combinaison de deux composants, l’un verbal et l’autre gestuel.

Plusieurs constatations réalisées par les mêmes auteurs viennent étayer cette thèse :

Le geste est non seulement un acte communicatif économique mais aussi efficace, et sa suppression ou sa non-perception entraînent une dégradation de la compréhension du message.
L’utilisation de l’une ou l’autre modalité dépend fortement du type d’information à transmettre ; le degré d’iconicité du contenu et de sa représentation mentale commande le comportement gestuel.
Les gestes sont synchronisés avec les unités linguistiques; en particulier, la phase dynamique signifiante (parfois précédée d’un mouvement de préparation et suivie d’une phase de rétraction) précède très légèrement ou correspond exactement à un pic sémantique du discours.
Le développement et la sophistication des gestes co-verbaux chez l’enfant accompagnent ceux du langage; ils disparaissent au contraire avec les facultés langagières chez le sujet aphasique.

Outre les gestes emblématiques et pantomimiques cités précédemment, les illustrateurs peuvent accompagner le message oral; ils sont dépendants de ce canal. On ne trouve point en la matière de classification ou d’appellation communément acceptées dans la littérature mais le tableau 1.1, issu de la discussion de L. Messing sur la communication bimodale [MES 93], reprend les termes les plus fréquemment rencontrés. Il est à noter que ces différents types de gestes ne sont pas mutuellement exclusifs : il peut arriver qu’un même geste comporte plusieurs de ces aspects.

Type de gestes	Description	Exemples
1. Déictiques	Désignent par pointage un objet, une personne ou un groupe, un endroit ou une direction. Dans l’immense majorité des cas, ils sont exécutés grâce à l’index tendu et parfois un faible mouvement. Mais ce rôle peut être aussi pris en charge par le pouce tendu, ou un léger mouvement de tête.	" On va par là ? " " Sur cette photo de famille, on te reconnaît toi, tes parents, … "
2. Iconiques	Evoquent des objets, des personnes ou actions en en soulignant les caractéristiques marquantes (taille, forme, …) et les relations. Parfois, les référents sont incarnés par les mains ou d’autres parties du corps. Les gestes iconiques peuvent aussi spécifier le point de vue selon lequel l’action est rapportée [CAS 95].	Voir les exemples pour chacune des formes particularisées de gestes iconiques
2.1. Spatiographiques	Montrent une relation spatiale entre les référents : position, distance ou orientation relative, relation topologique (contact, inclusion).	" Il m’a frôlé en voiture, en passant à … combien ? vingt centimètres "
2.2. Pictographiques	Evoquent la forme, la taille ou l’état de surface d’un objet, soit en dessinant celui-ci dans l’espace, soit grâce à la seule configuration de la main.	" Le Zeppelin, tu sais, ce dirigeable en forme de ballon de rugby… "
2.3. Kinégraphiques	Représentent le mouvement de quelque chose ou quelqu’un. Bien souvent, la main joue le rôle d’un référent.	" Les deux rames se sont téléscopées frontalement "
3. Marqueurs	Marquent le rythme dans le discours.	Voir ci-dessous
3.1. Bâtons	Utilisés pour insister sur un mot ou une phrase d’importance particulière, ils sont souvent caractérisés par un mouvement rapide de l’index tendu, parfois avec un contact sur un objet.	" Il n’est pas question que tu sortes ce soir " " Et c’est là où je voulais en venir "
3.2. Rythmiques	Expriment la vitesse ou le rythme à laquelle s’effectue une action, ou la durée de celle-ci.	" Le coureur est passé comme une flèche "
3.3. Idéographiques	Suivent le déroulement de la pensée, en marquant par exemple les étapes fondamentales d’un raisonnement, une alternance logique, …	" Premièrement, vous voudrez bien rester poli, et deuxièmement, … "

Tableau 1.1: différents types de gestes illustrateurs.

D’autres gestes co-verbaux sont parfois décrits, notamment ceux révélant l’état mental du locuteur (nervosité, embarras, …), qui se traduisent par des mouvements dont il a rarement conscience mais que peut interpréter son auditoire (rajustement des lunettes ou frottement de la tempe, par exemple).

Le rôle joué par les expressions du visage dans l’accompagnement de la parole est indéniablement important. Il est donc regrettable que soient si rares les travaux relatifs à ce mode de communication. On trouve néanmoins quelques repères dans les travaux menés à l’Université de Pennsylvanie au sein du Laboratoire HMS (Human Modeling and Simulation). En particulier, Pelachaud et ses collaborateurs [PEL 94] décrivent un système d’animation du visage, détaillant l’intervention de chacune des composantes faciales. Cette étude s’inscrit dans un projet plus global d’animation de personnages virtuels en conversation multi-agents [CAS 94]. Les chercheurs du MIT Media Lab, dont J. Cassell, ont à cette fin implémenté un planificateur à base d’automates prenant en charge la synchronisation des mouvements des bras et des expressions faciales (notamment la direction du regard) avec le texte énoncé.

1.1.2. Le geste en interaction homme-machine.

L’exploitation du geste en communication homme-machine a été rendue possible dès lors que les ordinateurs ont acquis une puissance de traitement de l’information suffisante. L’apparition de dispositifs nouveaux, notamment la souris, a permis le remplacement partiel et progressif des langages de commande et des systèmes d’exploitation textuels (tels DOS et UNIX) par des interfaces graphiques. Des dispositifs d’entrée plus perfectionnés permettent dorénavant d’entrevoir l’utilisation du geste naturel comme moyen de commande, en particulier dans le domaine du handicap.

1.1.2.1. Les gestes de manipulation.

Afin que le message dont il est porteur soit effectivement transmis, le geste doit être perçu – ou, plus généralement, capté – car il est évanescent par nature. Les périphériques exploitant le geste fonctionnent pour la grande majorité en mode continu, c’est-à-dire que les informations sont captées de façon permanente. Des événements discrets (tel le clic de souris) peuvent y être adjoints pour des opérations spécifiques ponctuelles (notamment la validation d’une commande).

Dans les interfaces gestuelles récentes, les objets réels sont représentés par des équivalents virtuels, comme ceux apparaissant sur le " bureau " de Windows. Afin de rendre intuitive l’utilisation de la machine, les éditeurs de logiciels tentent de généraliser les fonctionnalités tirant profit du " glisser-déplacer ", que ce soit pour la sélection préalable à toute action (par exemple en dessinant un rectangle élastique autour des objets) ou pour spécifier cette commande même (tel le déplacement de blocs de texte ou d’objets graphiques). Ces gestes, permettant d’agir par contrôle direct sur des objets virtuels par l’intermédiaire de leur représentation graphique, sont dénommés gestes de manipulation. Il s’agit typiquement de désigner les objets par sélection (c’est pourquoi on parle aussi de gestes de désignation), puis de leur appliquer une action (ou commande).

L’utilisation de la souris a peu évolué durant les deux dernières décennies. Les efforts se portent actuellement sur l’analyse structurelle du geste de désignation par ce moyen [BEL 95]. D’autres types de dispositifs de dialogue (dits encore de vis-à-vis) peuvent être mis à profit en fonction des besoins de la situation :

l’écran tactile trouve surtout son application dans les bornes interactives. Il offre une précision assez faible, et parce qu’il engendre une importante fatigabilité du bras, l’interactivité se limite souvent à une arborescence de choix présentés sous forme de boutons à l’écran. Il est donc bien adapté à une mobilité réduite de la main ou pour présenter des choix restreints.
le crayon et la tablette graphiques sont d’usage courant en Conception Assistée par Ordinateur (CAO). Ils constituent en effet un moyen commode de sélection d’une commande parmi un grand nombre pour générer et manipuler des composantes graphiques.

1.1.2.2. Capter et reconnaître le geste naturel.

Les dispositifs cités précédemment ne reconnaissent qu’un nombre très restreint de gestes, et leur utilisation est contraignante. Ils sont particulièrement mal adaptés aux personnes dont la mobilité du bras est réduite. L’engouement actuel pour les interfaces utilisant les gestes naturels a débouché sur de nouvelles solutions. Il va de pair avec le développement de systèmes de capture de plus en plus sophistiqués permettant d’acquérir jusqu’à des informations spatiales :

Dispositifs externes, les caméras numériques possèdent l’avantage d’offrir à l’utilisateur toute liberté de mouvement, même si une instrumentation restreinte est parfois employée (telle que des gants colorés [NOL 98], des marqueurs luminescents [LOO 83, POI 86] ou réfléchissants), afin de faciliter les traitements informatiques. Ces derniers sont en effet fort complexes, et c’est l’inconvénient de ces systèmes, surtout dans le cas où deux caméras au moins sont utilisées pour reconstruire une information tridimensionnelle.
Les gants numériques permettent d’obtenir, selon leur réalisation technologique (et donc leur prix !) une précision allant d’une simple courbure globale de chaque doigt à la valeur angulaire en chacune des articulations. Fibres optiques ou jauges de contraintes sont les systèmes les plus utilisés pour mesurer les flexions. Ces dispositifs ont d’abord permis la reconnaissance de gestes de pointage (déictiques) [LAT 98].
Aux gants numériques peuvent être associés des capteurs de position et orientation spatiales, moyennant quoi il est possible d’obtenir l’ensemble du mouvement par les configurations successives du système bras-main. Le capteur Polhemus monté sur le DataGlove a ainsi permis à J. Sparrell [SPA 93] de développer un analyseur de gestes iconiques co-verbaux au sein d’une interface multimodale. A. Wexelblat [WEX 94] a, lui, utilisé deux CyberGloves en association avec des capteurs situés sur ces gants, le haut du tronc ainsi que le front, dans l’optique d’une reconnaissance d’une plus grande variété de gestes.
Divers systèmes ont aussi été proposés pour piloter une machine grâce aux mouvements de l’œil. Le projet baptisé Cyclope [COU 96], développé au sein du Laboratoire d’Automatique Industrielle et Humaine de Valenciennes, est basé sur l’électro-oculographie. Cette méthode permet, outre le suivi des yeux dans quatre directions, de détecter les mouvements musculaires correspondants. Mais elle est contraignante pour le sujet, et des techniques sans contact par vision lui sont généralement préférées [CHR 96, VAR 98]. La commande de validation, correspondant au " clic " sur ce type de souris oculaire virtuelle, est réalisée au moyen d’un clignement de paupière.
Les dispositifs à immersion (par exemple, les harnais, ou l’association d’un gant et d’un casque en réalité virtuelle) sont utilisés pour capter des déplacements globaux tels que la marche. Ils requièrent souvent une instrumentation importante et risquent de ce fait d’entraver les mouvements naturels, même si la transmission infrarouge des données a permis de s’affranchir des fils reliant les capteurs à la centrale de mesure.

Quelle que soit la technologie de reconnaissance adoptée (modèles de Markov cachés [STA 95], réseaux de neurones, ...), tout système doit surmonter certaines difficultés inhérentes à la complexité des gestes humains :

La détection des limites des gestes (problème de segmentation).
L’influence mutuelle entre gestes (phénomène de coarticulation).
La variabilité d’exécution intra-personnelle ou inter-personnelle.

D’autre part, sur le plan technique, la façon de traiter et d’encoder les données est déterminante dans le succès de l’opération.

Le développement d’interfaces multimodales est désormais la prochaine étape (voir [BEL 96] pour un état de l’art). En particulier, des études ont porté sur l’utilisation parallèle de dispositifs de capture 2D (souris/trackball, stylo optique, écran tactile), de la parole et/ou du geste dans l’interaction homme-machine.

1.1.2.3. Les interfaces gestuelles en communication palliative.

Les applications de capture et reconnaissance de gestes sont particulièrement utiles pour fournir des interfaces dédiées aux personnes souffrant d’un handicap sensoriel ou moteur. Dans ce cadre, il faut définir avec soin les différentes primitives gestuelles, pour ensuite être capable de les détecter dans le signal d’entrée. Cela est d’autant plus difficile que l’information utile peut être très réduite ou fortement variable.

En collaboration avec une équipe spécialisée en psychomotricité, D. Toffin [TOF 98] a ainsi évalué le contrôle moteur d’enfants infirmes moteurs cérébraux. Les gestes ont été enregistrés au moyen de capteurs de type Flock of Birds pour reconnaître des primitives de mouvement (droite, demi-cercle) formant plusieurs figures à reproduire (morphocinèses).

Parallèlement aux systèmes de reconnaissance de la parole, des études portent actuellement sur l’usage de la langue naturelle des personnes sourdes pour leur permettre de dialoguer via une machine. H. Sawada [SAW 98] décrit ainsi un système de reconnaissance de la langue des signes basé sur un ensemble de primitives gestuelles et des accéléromètres. L’étude réalisée au sein du LIMSI par A. Braffort [BRA 96] constitue une étape importante qui prend en compte les particularités grammaticales de cette langue.

Les oculomètres, évoqués plus haut, trouvent tout particulièrement leur application dans le domaine du handicap. La détection de la direction du regard par système de vision permet désormais aux personnes tétraplégiques de piloter un ordinateur et de retrouver ainsi un moyen d’expression [REC 96].

Mais la richesse de la recherche concernant la reconnaissance des gestes ne doit pas faire oublier, dans l’optique d’une communication homme-machine bidirectionnelle, de disposer également de gestes en sortie. Il s’agit de les présenter à l’écran, en respectant leur contenu sémantique.

La première solution consiste à utiliser des séquences vidéo enregistrées, dont les inconvénients sont présentés plus loin. Une autre solution qui nous intéresse très directement est l’élaboration de gestes synthétiques.

1.1.3. Les langues gestuelles.

Nous souhaitons d’abord expliquer en quelques mots pourquoi nous avons choisi, dans ce contexte, de focaliser notre intérêt sur les langues gestuelles. Après une brève description du processus de leur genèse, nous exposons pourquoi c’est bien au pluriel dont il faudrait systématiquement parler de la langue des signes. Car il en existe une multitude de par le monde, aux réalités fort différentes, avec des variations régionales et sociales parmi bien d’autres.

Dès lors, ce que nous entendons par " langue des signes " correspond à celle d’un pays donné – précisé ou non –, ou bien désigne, dans leur globalité, l’ensemble des caractéristiques communes aux différentes langues gestuelles du monde.

1.1.3.1. Pourquoi étudier les langues gestuelles ?

Selon L. Messing [MES 93], " lorsque l’usage de la parole est rendu impossible pour quelque raison que ce soit, les gestes naturels peuvent s’organiser en un système gestuel qui peut à son tour évoluer en une véritable langue signée ". Celle-ci se distingue des gestes exposés jusqu’ici en ce qu’elle ne se résume pas à un simple lexique figé, mais possède une phonologie, une grammaire et une syntaxe propres. Les signes peuvent être ainsi décomposés en primitives formationnelles, fusionner pour former de nouveaux signes, et se succéder dans un discours cohérent auto-suffisant. Nulle règle générative ou combinatoire n’existe en revanche dans la gesticulation.

Nous avons précédemment souligné l’unité du message qui s’exprime simultanément via la parole et le canal gestuel. M. Brenan [BRE 97] fait à ce propos une observation des plus intéressantes : seules les langues des signes associent le mot et l’image en un seul et même système. " Le signe est à la fois un ensemble de composants formationnels conventionnels et le véhicule d’expression d’une image ". Pour illustrer cette assertion, l’auteur relate la genèse du signe diglossie : dans un premier temps, les étudiants ont inventé un signe dans lequel les mains étaient situées en des points de niveaux décalés, évoquant la différence entre la forme linguistique " haute " (formelle) et " basse " (parlée)[2]. Puis le signe a évolué pour aboutir à une forme communément acceptée dans laquelle les doigts viennent en contact avec le milieu de l’avant-bras gauche. En respectant la structure phonologique de la langue, ce signe en exploite alors simultanément les capacités iconiques et métaphoriques.

C’est précisément cette richesse et ce potentiel expressif remarquables qui nous ont portés à étudier la langue des signes et en proposer un outil de synthèse. Mais avant de détailler le cadre de notre étude, posons quelques jalons sur les langues gestuelles.

1.1.3.2. Genèse [MOO 83].

Jusqu’au XVIème siècle, les sourds ne disposent pour communiquer que de quelques gestes mimiques et pantomimiques. Souvent isolés, certains se regroupent toutefois en communauté; mais l’éducation, réservée à quelques sourds issus de riches familles, consiste jusqu'au milieu du XVIIIème siècle, à tenter de leur apprendre la langue orale. C’est ainsi que naît, grâce à Juan Pablo Bonet vers 1620, l’ancêtre de l’alphabet dactylologique que nous connaissons aujourd’hui.

Avec l'avènement des Lumières, c’est l’Abbé de l’Epée (1712-1789) qui, le premier, commence à s’intéresser au langage naturel préexistant des sourds comme instrument de leur instruction, de communication, et d’expression de la pensée humaine au même titre que la langue orale. A la même époque, Desloges, un sourd-muet parvenu à un haut niveau d’éducation, est le premier à évoquer dans son livre une structure de la langue des signes.

Les " signes méthodiques " de l’Abbé de l’Epée, visant à l’apprentissage du français, empruntent au langage naturel des sourds certains signes représentant les choses et les idées, mais incluent aussi des signes bâtis de toutes pièces pour exprimer les différentes fonctions grammaticales (temps, genres, articles, ...) du français. Malheureusement, s’ils permettent effectivement de transcrire le français écrit, les " signes méthodiques " ne constituent nullement une véritable langue, car leur caractère abstrait et artificiel les rend fort peu évocateurs de leurs signifiés. De plus, leur syntaxe respecte scrupuleusement celle de la langue orale. Ils étaient ainsi le plus souvent inintelligibles pour les sourds mêmes qui les utilisaient. Ce problème subsiste avec le successeur direct de Charles Michel de l’Epée, l’Abbé Sicard, à la tête de l’école devenue l’Institution Nationale des Sourds-Muets.

Bébian (1794-1834) est véritablement l’homme qui, grâce à un profond respect pour les sourds et leur culture, donne à la langue des signes un élan de premier ordre. Il préconise en effet, et met en œuvre avec succès, une éducation bilingue avec, comme outil primordial dans le développement intellectuel, la langue utilisée par les sourds eux-mêmes. Les signes naturels ne se réfèrent plus aux mots, mais bien aux idées qu’ils sous-tendent. En outre, Bébian entreprend d’analyser avec précision les formes de la main, les mouvements et les expressions du visage, afin d’élaborer un premier système d’écriture des signes. Ce travail débouche sur la première grammaire de la langue des signes, publiée en 1854 par Rémy-Valade, " Etudes sur la lexicologie et la grammaire du Langage Naturel des Signes ".

Aussi, la langue des signes va rapidement s’imposer comme une langue d’enseignement. La création d’écoles un peu partout en France et l’acquisition d’une véritable reconnaissance de son statut social, sont les témoins de la santé florissante de la culture des sourds. Ferdinand Berthier, doyen des professeurs sourds à l’Institut de Paris, dont l’intelligence et la finesse d’esprit sont reconnues, est peut-être l’exemple le plus brillant, parmi de nombreux autres intellectuels et artistes, de l’épanouissement, la créativité, et de la fierté militante des sourds de cette époque.

La vivacité de la culture sourde en France ne tarde pas à rayonner dans les autres pays. Dès 1816, Laurent Clerc et Thomas H. Gallaudet fondent la première école américaine d’instruction des sourds avec un apport important de signes français pour enrichir le vocabulaire local préexistant. Les langues des signes irlandaise et russe trouvent également leurs racines dans la langue des signes française (LSF) de cette époque [STO 72 : 121,130].

1.1.3.3. Les langues des signes aujourd'hui.

Comme nous l’avons signalé au début de cette partie, de nombreuses langues des signes différentes cohabitent aujourd’hui au niveau mondial, et même au niveau de chaque pays. Si le rêve des premiers auteurs sur la langue des signes est que celle-ci unisse les sourds du monde entier, voire constitue une langue universelle, force est de constater qu’actuellement, les langues des signes diffèrent autant l’une de l’autre que les langues orales [MAR 79]. Certes, il existe entre certaines, du fait de leurs racines communes, de nombreuses similitudes que nous ne manquons pas de souligner tout au long de ce mémoire. Les sourds des divers pays en tirent profit et communiquent beaucoup plus aisément que les entendants, en complétant leurs systèmes de signes propres par des gestes mimiques. Mais cela se fait au détriment de l’efficacité et de la rapidité, car la pantomime est moins économique que le signe, et bien souvent, la présence d’un interprète est néanmoins nécessaire [MOT 78].

De même que la communication est difficile entre deux interlocuteurs monolingues maîtrisant chacun une langue orale différente, le degré d’intelligibilité d’un signeur en langue des signes britannique (BSL) est très faible pour un utilisateur de la langue des signes américaine (ASL), alors qu’il est élevé entre signeurs français et américains, ainsi qu’à travers une grande partie de l’Amérique du Nord (U.S.A, Canada, Mexique géographiquement ou culturellement proche des Etats-Unis).

En outre, il existe au sein d’un même pays de nombreuses disparités entre langues des signes, selon des critères multiples [WOO 79] : variations régionales, sociales, ethniques, en fonction de l’âge ou du sexe, et ceci à tous les niveaux de la langue (phonologique, lexical ou grammatical). On trouve, dans les langues orales, des items lexicaux propres à telle ou telle région, des accents locaux; il en va de même pour les langues des signes, où les signeurs arrivent à deviner la région et souvent l’école d’origine de leurs interlocuteurs.

1.1.3.4. Langues des signes et langues orales.

Les sourds d’un pays appartiennent à un environnement physique et culturel dont ils sont imprégnés, une société de l’oral et de l’écrit à laquelle il a bien fallu s’adapter puisque leur statut de minorité ne leur laisse guère d’autre choix. Afin de communiquer de façon satisfaisante avec les entendants qui les entourent, et qui ne maîtrisent pas leur langue, les sourds utilisent une sorte d’intermédiaire entre celle-ci et la langue orale.

En France, ce système gestuel est dénommé " Français Signé "; chaque mot de la phrase française y est signé par son équivalent en LSF, en respectant la syntaxe et l’ordre des mots. Les articles, prépositions, monèmes grammaticaux marquant le genre, le nombre ou les temps, ... sont introduits de façon artificielle, ainsi qu’une part plus ou moins importante d’épellation dactylologique, lorsque le signeur respecte scrupuleusement la phrase française. En effet, LSF et Français Signé se situent aux extrémités d’un continuum linguistique probablement non-linéaire mais multidimensionnel, incluant toutes les variantes possibles entre les deux modes de communication. Ainsi, selon le degré de maîtrise de la LSF des interlocuteurs, ceux-ci peuvent choisir d’en respecter plus ou moins fidèlement la syntaxe et les spécificités grammaticales, ou de se rapprocher davantage d’une traduction " mot à signe " du français, en abandonnant diverses caractéristiques propres à la langue des signes telles que l’utilisation de l’espace et les expressions faciales.

Le même système existe pour l’anglais américain, s’étendant de l’ASL à l’Anglais Signé Exact (SEE - Signed Exact English), en passant par de nombreuses variations incluant l’Anglais Signé Pidginisé et un Signed English plus ou moins strict.

A ce propos, signalons pour mémoire l’existence des méthodes d’aide à la lecture labiale que sont le LPC (Langage Parlé Complété, Cued Speech en anglais) et l’AKA (Alphabet des Kinèmes Assistés) [RON 86]. En LPC, différentes configurations manuelles sont utilisées pour distinguer les phonèmes pour lesquels la forme des lèvres est identique . Lors de la prononciation du mot " main " par exemple (figure 1.3), pour différencier le ‘M’ de ses sosies labiaux ‘B’ et ‘P’, la configuration plate de la main désigne le groupe auquel appartient cette consonne. Les voyelles sont elles aussi regroupées et quatre positions différentes leur correspondent (sur la gorge, le menton, à côté de la bouche et de la joue).

Figure 1.3 : Caractérisation du m de main en LPC.

Ces systèmes s’inscrivent dans une perspective oraliste et favorisent notamment l’apprentissage de la lecture chez les enfants sourds [TEL 98]. Mais ils ne constituent absolument pas une langue par eux-mêmes.

1.1.4. Une langue à part entière.

Les preuves apportées par la linguistique moderne montrent au contraire que la langue des signes est plus que le simple " système de gestes " auquel on l’a longtemps réduit, et mérite bien le statut de langue. Avant d’en exposer les raisons en quelques points, signalons l’intéressante réflexion sur ce sujet qui nous est donnée par A.L. Petitto [PET 94]. Outre les arguments développés ci-dessous d’ordres linguistique et sociolinguistique, cet auteur présente un faisceau de preuves d’ordre physiologique. L’analyse biologique du statut des langues signées naturelles dans le cerveau humain permet de réfuter une meilleure adéquation ontogénétique ou phylogénétique de ce dernier pour la parole. En d’autres termes, ni l’évolution de l’individu, ni celle de son espèce, ne montre que l’homme est " fait " pour s’exprimer oralement.

1.1.4.1. Iconicité et capacité de communication.

Un des principaux reproches qu’adressent à la langue des signes ses détracteurs est son caractère purement figuratif et, de fait, son incapacité à représenter l’abstraction. Nous allons de suite voir qu’il n’en n’est rien [MAR 79].

Il reste exact que de nombreux items lexicaux possèdent un caractère iconique, le signifiant évoquant le signifié de façon imagée, et que cela demeure le cas aux niveaux syntaxique et morphologique. En LSF, le signe ascenseur évoque clairement le mouvement ascendant d’une cabine d'ascenseur; de nombreux verbes (tels faire_la_vaisselle, peindre, ...) figurent directement l’action correspondante.

Mais les expériences menées par Klima et Bellugi [KLI 79] sur l’ASL prouvent que la plupart des signes sont, au contraire, opaques (c’est-à-dire que le signifié ne transparaît pas à travers le signifiant). En effet, les sujets entendants interrogés n’ont pas pu transcrire correctement plus de 10% des signes présentés, résultat n’excédant pas 20% lors d’un questionnaire à cinq choix possibles. Les auteurs en concluent que la plupart des signes sont " translucides ", à savoir que les observateurs extérieurs s’accordent sur l’existence d’une relation entre le signe et sa signification apparente, sans que celle-ci soit nécessairement correcte.

Klima et Bellugi soulignent également que les processus grammaticaux intervenant sur les signes (dont nous reparlons dans la deuxième partie) opèrent uniquement sur leurs paramètres de formation, et non sur leurs propriétés iconiques. Au contraire, on note au cours de ces processus une perte d’iconicité. Il en va de même des changements diachroniques des signes [BEL 78, RAD 90] : si leur origine est souvent pantomimique, les évolutions historiques consistent en une centralisation spatiale, une symétrie accrue, une concentration du contenu lexical au niveau des mains et, plus généralement, une simplification du mouvement et un glissement vers l’abstraction. Ces phénomènes, résultant en une perte certaine de transparence, sont aussi observables pour les signes créés – par composition notamment – à partir d’unités lexicales préexistantes.

1.1.4.2. Capacité de communication.

Un autre critère fondamental pour l’accession au statut de langue à part entière réside dans la faculté à transmettre l’information signifiante sans ambiguïté. Concernant les langues des signes, les études menées au début des années 70 tendaient à assigner une moindre qualité dans cette transmission. C’est la conclusion d’Oléron [OLE 78], dont les expériences consistent en l’émission d’un message (de type Sujet-Verbe-Complément d’objet direct ou indirect) descriptif d’une image représentant une scène. L’efficacité de la transmission est évaluée en fonction de la capacité du récepteur à décrire fidèlement l’image de départ.

Des recherches aboutissant à des conclusions similaires, menées par Schlesinger sur la langue des signes israélienne (ISL) et Hoeman sur l’ASL, sont rapportées par Grosjean [GRO 79] qui en réfute la validité des résultats. Il affirme qu’une meilleure prise en compte du niveau de connaissance de la langue des signes par les sujets permet, au contraire, de conclure que celle-ci est à même de transmettre l’information tout aussi efficacement que les langues orales.

Concernant le débit de l’information, Grosjean note un intervalle de temps comparable pour la transmission du message, même si le rapport des débits en termes de signes et de mots est d’un pour deux environ (de nombreux items lexicaux du français oral ne sont en effet pas traduits en langue des signes). Les modifications des débits sont également semblables, bien que mettant en œuvre des stratégies différentes (le locuteur modifie la durée de l’articulation, le signeur celle des pauses).

Pour ce qui est enfin de l’étendue du vocabulaire, elle peut paraître limitée de prime abord : le dictionnaire de Moody [MOO 83] pour la LSF, et celui de Stokoe, Casterline et Croneberg [STO 78] pour l’ASL, contiennent tous deux environ 2500 signes. Sallagoïty [SAL 75] décrit une langue signée utilisée dans le sud de la France en incluant 1200. Même si les langues des signes en comportent probablement deux à trois fois plus, ce nombre pourrait paraître modeste au regard des dizaines de milliers d’items lexicaux des langues verbales. Mais la grande polysémie des signes et l’immense variété de modulations portées par les processus grammaticaux, les expressions non-manuelles, font que les signeurs disposent d’une langue leur permettant de transmettre des nuances aussi fines, des idées aussi abstraites que les langues orales. De nouveaux signes sont constamment créés pour représenter les objets récemment inventés, les termes scientifiques, ...

1.1.4.3. La double articulation des langues.

Les langues des signes, comme les langues orales, sont en effet doublement articulées ; c’est-à-dire qu’elles permettent, à partir d’un petit nombre de phonèmes de base, de générer, en respectant certaines règles combinatoires, un nombre quasi-illimité de phrases. Les phonèmes se combinent en effet en morphèmes, unités minimales porteuses de signification, eux-mêmes se combinant pour former les lexèmes (mots ou signes) qui à leur tour constituent, en accord avec la syntaxe, les phrases et les syntagmes. Ce puissant mécanisme est, de par l’économie qu’il représente pour exprimer toute la plage des signifiés, un des critères majeurs de l’attribution de " vraie " langue par la linguistique moderne.

Or, nous y reviendrons plus en détails, Stokoe a démontré que la langue des signes pouvait elle aussi être décomposée en phonèmes gestuels. Il les a dénommés chérèmes (du grec kheir, la main) et leur étude, chérologie. Citons d’ores et déjà les trois chérèmes identifiés : l’endroit d’exécution ou tabulateur (TAB), la configuration manuelle ou désignateur (DEZ), et le mouvement (SIG).

Leur combinatoire est précisément définie par des règles structurelles telles que la contrainte de symétrie, la contrainte de dominance [KLI 79, WIL 79], déductibles à partir de statistiques [TEU 80], et dont la violation génère des signes incorrectement formés; c’est aussi ce qui fait que les signes ne se réduisent pas à de simples gestes. Les lexèmes suivent alors à leur tour une syntaxe propre pour former les phrases du discours.

1.1.4.4. Les subtilités d'une langue.

Précisément, l’humour et la poésie en langue des signes naissent du non-respect de ces règles combinatoires. Klima et Bellugi ont étudié avec précision ce type de mécanismes [KLI 79] et en ont identifié plusieurs catégories : production simultanée de deux signes par chacune des mains, recouvrement partiel par juxtaposition de deux signes, fusion séquentielle de signes par suppression des temps de latence entre eux, ou encore substitution d’une partie (par exemple, un paramètre formationnel) d’un signe par celle d’un autre.

D’autre part, comme dans la modalité verbale, une partie de l’information en langue des signes est transmise via des mécanismes paralinguistiques accompagnant le flot du discours et permettant de nuancer, compléter, voire contredire ce dernier. Ainsi en est-il des expressions faciales, et plus généralement non-manuelles, qui jouent par ailleurs un rôle prépondérant dans certains processus grammaticaux. Outre ces éléments de signification produits au niveau de la face parallèlement à l’émission du message, on peut encore citer la prosodie du signe (kinésie notamment), ainsi que les attitudes et postures corporelles.

1.2. Synthétiser le signe : cadre de l'étude et état de l'art.

Si la langue des signes est aujourd’hui pleinement reconnue comme telle, elle a souffert d’un bannissement de près d’un siècle auquel les sourds paient encore un lourd tribut. Les problèmes d’éducation qu’ils rencontrent en sont une conséquence directe. Afin d’y proposer une solution, nous montrons dans cette partie pourquoi nous avons opté pour une synthèse graphique des signes et quelles en sont les principales contraintes. Nous précisons en outre les tenants et aboutissants de cette étude, avant de passer en revue les travaux majeurs dont ce sujet a fait l’objet.

1.2.1. Pourquoi synthétiser ?

1.2.1.1. Répression de la langue des signes et problèmes liés.

Malgré l’épanouissement que connut la langue des signes au début du XIXème siècle, les querelles ne cessèrent pas entre enseignants partisans de l’éducation par la langue naturelle des sourds et les défenseurs de la méthode oraliste, concentrée sur le seul enseignement de la parole. La position d’Itard (1774-1838) est en ce sens assez révélatrice, puisqu’après avoir consacré de nombreuses années à apprendre à ses élèves la prononciation du français, il devait constater l’échec de sa méthode et reconnaître la langue des signes comme indispensable à l’éducation des sourds, mais devait rester néanmoins fidèle à une instruction oraliste.

La seconde moitié du siècle vit le triomphe de l’oralisme. La prédominance des enseignants entendants, l’uniformisation des méthodes d’éducation avec l’instruction obligatoire, ainsi que les progrès importants de la science laissant entrevoir une prochaine guérison de la surdité, ont contribué au bannissement progressif de la langue des signes en France, mais aussi dans les autres pays. En 1880, le congrès international de Milan, sous la mainmise des oralistes, prohibe toute utilisation des signes dans l’instruction des sourds. De fait, cette ligne de conduite guide l’éducation dans sa quasi-totalité et ce, pendant encore une bonne partie de notre siècle, avec pour conséquence un isolement dramatique de la communauté sourde.

Dans les années soixante et soixante-dix, il a bien fallu admettre l’échec de la méthode oraliste pure dans l’instruction des sourds profonds, méthode dont l’utilisation exclusive depuis presque un siècle a conduit à une grave sous-éducation. Suivant les Etats-Unis et les pays scandinaves, avec toutefois une bonne décennie de retard, la LSF a progressivement reconquis en partie ses lettres de noblesse aux yeux du grand public, à défaut de tout le terrain perdu. Symbole de cette nouvelle jeunesse, 1975 voit la traduction en signes du journal télévisé hebdomadaire sur Antenne2. Parmi les instigateurs de ce renouveau en France, citons Bernard Mottez et Harry Marckowicz, Bill Moody et plus généralement l’International Visual Theatre (I.V.T.) de Vincennes. Comme les diverses associations ayant vu le jour, tous contribuent à rapprocher sourds et entendants.

Néanmoins les problèmes d’éducation persistent [LEL 85]. On estime aujourd’hui que près de la moitié à deux tiers des sourds ont des difficultés plus ou moins prononcées à lire l’écrit.

De ces constatations est apparue la nécessité de disposer d’une représentation visuelle de la langue des signes. Deux possibilités s’offrent dès lors : utiliser la vidéo ou bâtir de toutes pièces des signes synthétiques.

1.2.1.2. Signes synthétiques et vidéo : quels avantages ?.

Il est indéniable que la vidéo a joué, joue et continuera à jouer un rôle important dans l’apprentissage de la langue des signes et dans la diffusion de la culture dont celle-ci relève. Malgré sa démocratisation et son accès par le plus grand nombre, la vidéo doit cependant reconnaître à la synthèse de multiples avantages.

D’abord – c’est l’évidence même – la vidéo doit être créée, ce qui implique l’utilisation du matériel adéquat (caméra, camescope, ...), mais aussi la disponibilité des signeurs et un environnement (fond, éclairage, ...) satisfaisant, ce dont la synthèse n’est pas tributaire. Le signe peut être généré sur demande, même dans une situation d’urgence, à partir d’un nombre restreint de primitives graphiques. Il semble impossible au contraire, dans l’état actuel des connaissances en traitement d’images, de fusionner ou retoucher des vidéos de façon à obtenir un signe voulu ou une phrase signée à partir de constituants primitifs animés; de même, modifier l’angle de vision n’est pas envisageable avec une vidéo préenregistrée.

Ce problème est apparu aux membres de notre équipe lorsqu’ils furent confrontés à la difficulté de fournir un contenu étayé, notamment vidéo, aux outils informatiques génériques qui avaient été développés. Ce fut le cas pour le logiciel LAC [VAN 96], destiné à faciliter l’accès à une information thématique, principalement pour les personnes sourdes. De plus, pour le jeune sourd qui apprend à lire, un mot écrit n’est autre qu’une suite de formes graphiques auxquelles il ne peut associer de son. Il est donc important de favoriser l’acquisition de ce mot par l’évocation de sa signification sous d’autres formes. A cette fin, LAC fournit une structure d’accueil pour des corpus hiérarchisés de mots avec, pour chacun, une définition hypertexte, des exemples d’utilisation dans différents contextes, ainsi qu’une image illustrative. A ces informations s’ajoutent trois vidéos, l’une illustrant le concept (au moyen de ses applications, de son utilisation, ... ), les deux autres en donnant les équivalents en LSF et en LPC (figure 1.4). Toutes les associations avec lesquelles nous travaillons ont souligné l’intérêt qu’elles portaient à un tel produit. L’une d’elle était ainsi fortement demandeuse d’un corpus relatif au code de la route, tant il est vrai que son acquisition par les sourds est délicate. Mais la charge de travail que représente l’élaboration des vidéos numériques, en particulier pour de petites structures associatives, s’est rapidement révélée prohibitive.

Figure 1.4 : l’interface du logiciel LAC.

Ensuite, dans la simple diffusion, l’écran de télévision associé au magnétoscope, est omniprésent. Mais l’ordinateur, dont l’apparition en tant que moyen d’information du grand public s’est faite dans les expositions et les administrations, est promis à un grand avenir dans cette utilisation. Il constitue en effet, bien plus qu’un simple moyen de diffusion, un réel outil de communication bidirectionnelle, capable de " dialoguer " avec l’utilisateur, voire de s’y adapter. L’équipement des ménages en ordinateurs personnels a connu parallèlement un essor formidable ces derniers mois. Or le stockage numérique des vidéos reste un problème, malgré l'avènement des disques durs, CD-ROM et DVD de grande capacité.

Enfin, la transmission du signe sur une longue distance, telle qu’avec les autoroutes de l’information et Internet, n’est pas aujourd’hui envisageable à grande échelle pour les vidéos. Même compressés, les fichiers correspondants demeurent trop volumineux face à la relative faiblesse des débits sur les lignes. Pour la synthèse en revanche, très peu d’information est nécessaire, surtout si le récepteur possède un module de génération graphique.

Un autre besoin a justement décidé l’équipe à choisir comme axe de recherche le développement de signes synthétiques : celle émanant de la télévision numérique, désireuse de doter ses émissions de sous-titrages signés systématiques.

1.2.2. Cadre de l’étude.

1.2.2.1. Vue globale des objectifs.

L’analyse des besoins dont nous avons donné ci-dessus un aperçu nous a permis de définir un certain nombre d’objectifs qui doivent guider notre étude :

Nous souhaitons développer un système de synthèse produisant des signes suffisamment simples (sur le plan graphique) pour s’approcher de la génération en temps réel, mais remplissant bien évidemment toute leur fonction signifiante.

A cette fin, les études linguistiques constituent la base de notre proposition de décomposition des signes en primitives formationnelles et fonctionnelles orientées vers la synthèse.

La description adoptée doit satisfaire à des critères de facilité de lecture, d’écriture et de modification, le niveau de spécification du signe doit être aussi élevé que possible

Elle doit également prendre en compte les divers processus grammaticaux propres à la langue des signes, tant au niveau lexical que du discours, ainsi que les expressions non-manuelles en général – notamment celles du visage.

Nous allons enfin nous efforcer de développer une transcription suffisamment générique et " ouverte " pour être adaptée à la plus grande variété possible de langues des signes. Ceci implique principalement de fournir à l’utilisateur des moyens d’édition étendus à tous niveaux, et des primitives dont l’affinage doit constituer un compromis entre cette dernière contrainte et la facilité d’édition.

1.2.2.2. Tenants et aboutissants.

Notre étude s’inscrit dans un projet plus global visant à la traduction automatique d’un texte français en langue des signes, dont la figure 1.5 illustre les différentes étapes. On le voit, la synthèse n’est que le maillon final intervenant après de délicates phases d’analyse qui mettent en jeu des techniques de traitement du langage naturel. Face à la complexité et la diversité des problèmes soulevés, la plupart des chercheurs ont choisi de focaliser leurs efforts sur une partie spécifique.

Au sein de l’équipe, le travail de V. Vanneste s’est concentré sur l’analyse grammaticale informatisée du français. Après une vérification orthographique basée sur les phonèmes constituant les mots, les principaux constituants syntaxiques de la phrase sont extraits en parcourant un arbre d’analyse. Cette phase se base sur un ensemble de règles définissant une grammaire (éventuellement ambiguë) dont la finesse de définition est laissée à l’initiative de l’utilisateur. Grâce aux propriétés définies pour chaque type de monème grammatical, il est en outre possible d’éliminer de l’ensemble des solutions celles qui ne correspondent pas à la phrase d’origine.

Figure 1.5 : Etapes de la traduction.

Les phases d’analyse sémantique et de séquencement des termes restent à développer pour une large part. Elles constituent un chaînon manquant dans le processus de traduction. Pour des phrases simples néanmoins, la jonction peut être réalisée. La synthèse s’appuie alors sur les informations fournies, telles que :

les signes à produire, correctement ordonnés;
les " intervenants " du discours et leur fonction (agent, patient);
les différentes clauses de la phrase, avec leur type (condition, interrogation, ...) et les signes concernés;
si possible, des informations plus précises concernant les pauses à observer et les ruptures dans le discours.

Ces données constituent le flux d’entrée de notre système, dont la fonction est d’en produire l’animation signée par un personnage virtuel dont les caractéristiques et les potentialités se rapprochent au maximum d’un signeur humain.

De façon plus détaillée :

Chaque signe doit être préalablement décrit
la phrase à signer est lue; chaque " mot-signe " est alors évalué (à la condition qu’il fasse effectivement partie du dictionnaire constitué en 1, en tenant compte d’éventuelles flexions
les différentes animations signées sont calculées
l’ensemble de la phrase signée est affiché en respectant les temps de production et les pauses

Précisons encore d’ores et déjà que cette étude vise davantage à démontrer la faisabilité d’une telle synthèse, et à en proposer un prototype validé, qu’à en réaliser un produit fini et hautement sophistiqué.

1.2.3. Signes synthétiques : état de l'art

Afin de mieux appréhender la problématique liée à une telle synthèse, nous nous proposons d’examiner ici différents travaux proches de ce domaine. De nombreuses études concernent spécifiquement la reconnaissance des signes; seules sont mentionnées dans cette partie celles dont les bases apparaissent fondamentalement importantes dans notre optique.

1.2.3.1. Premiers travaux d'animation.

Les images et, qui plus est, les animations de synthèse ne sont apparues que récemment dans l’histoire de l’informatique, en raison de la masse de données à traiter. Les premières tentatives concernant la langue des signes remontent au début des années 80.

Kawai et Tamura [KAW 85] proposent un système à base d’images informatiques fixes auxquelles sont ajoutées des flèches pour symboliser le mouvement. Ils réalisent ainsi la traduction d’une phrase en langue des signes japonaise, en utilisant une table de correspondance mot-signe, et la dactylologie en cas d’absence du mot à traduire. Les dessins numériques utilisés n’ont pas vocation à être une écriture; ils sont simplement utilisés pour présenter une phrase complète à l’écran. Dans le même esprit, Harrison [HAR 82] décrit un système dans lequel les signes sont schématisés par le déplacement d’un motif 2D pré-dessiné sur un fond fixe représentant le corps. Les marqueurs syntaxiques et diverses expressions faciales sont codés par des symboles apparaissant en marge du signe. Mais là encore, les représentations des signes ne sont pas modulables.

Le projet H.A.N.D.S. (Hamburg Animated Dictionary of Sign Language) vise, en partant de la notation HamNoSys, à générer des signes animés par succession d’images fixes. Dans son état d’avancement décrit dans [PRI 90b], le programme choisit, dans une base d’images bidimensionnelles, les primitives graphiques nécessaires et reconstruit une à une les images de la séquence. Le module d’animation est également capable de gérer les priorités de plans, de moduler la vitesse d’émission, et d’effectuer des transitions fluides entre signes. Mais, pas plus que dans les travaux examinés ci-dessus, n’est ici proposée de synthèse des signes, synthèse dont l’auteur reconnaît du reste la nécessité.

1.2.3.2. Synthèses tridimensionnelles des signes.

La première synthèse tridimensionnelle des signes (de l’ASL) a été réalisée par Michael Shantz et Howard Poizner [SHA 82]. Leur programme, écrit en BASIC, trace le squelette des bras sous forme filaire, à partir de la description exhaustive des angles articulaires correspondant à une posture initiale donnée d’un signe. Le mouvement est alors généré en faisant évoluer les valeurs angulaires selon une courbe de variation.

Ces dernières années, c’est au Japon que la synthèse des signes a probablement connu son essor le plus remarquable. Xu, Aoki et Zheng [XU 91] décrivent un système d’obtention et de transmission d’images synthétiques entre ce pays et la Chine. L’animation se fait, là aussi, en propageant les variations angulaires le long des chaînes articulaires auxquelles sont attachés des systèmes locaux de coordonnées. Les travaux de T. Kurokawa [KUR 92] visent à constituer un dictionnaire gestuel. Il a pour cela développé un système de codage des configurations manuelles, sur lequel nous reviendrons, ainsi qu’un codage des formes corporelles basé sur une description en segments dont les extrémités peuvent occuper des positions discrètes dans l’espace. La vitesse du mouvement a également été prise en considération. L’ensemble de la structure est stocké dans une liste chaînée de pointeurs; l’auteur donne un exemple d’application à la traduction du japonais en langue des signes fournissant des images synthétiques filaires.

Figure 1.6 : Dessin au trait animé (tree [arbre]) [GOD 98b].

La langue des signes a servi d’exemple applicatif à des travaux de recherche sur la représentation du corps humain sous forme de dessins au trait [GOD 98a]. Enchaînés, il forment une animation tout à fait séduisante (figure 1.6), d’autant que le personnage virtuel est doté de mimiques faciales remarquablement expressives [GOD 98b]. Mais, de même que dans les études précédentes, la description des différentes postures se fait à bas niveau (angles articulaires).

L’étude de T. Lebourque au sein du LIMSI a abouti à un système de commande gestuelle pour l’animation du bras et de la main [LEB 99a]. A partir des mouvements élémentaires est élaborée la synthèse de gestes naturels, en s’appuyant essentiellement sur leur forme et leur cinématique. Là encore, la langue des signes a constitué une application idéale et donné lieu au développement d’un langage formel des constituants formationnels des lexèmes. Néanmoins, ce système n’a pas été spécifiquement développé pour le signe lui-même ; en particulier, il ne prend pas en compte les processus grammaticaux qui s’y rapportent.

Les travaux les plus récents ont, semble-t-il, aboutit à de véritables synthèses de haut niveau. Citons le projet Sister Mary of the Internet, dont le signeur virtuel, développé par G. Stern, est aujourd’hui capable de reproduire des données provenant de capteurs montés sur des gants de type CyberGlove; il devrait à terme pouvoir effectuer une réelle synthèse du signe à partir de sa description phonétiqueinspirée de celle de Liddell et Johnson (voir 1.3.3). Cette description, nommée vasl/ine, est encodée sous forme d’une grammaire semblable à celle utilisée dans le compilateur de compilateurs Yacc. Ces derniers mois est apparue une solution commerciale, proposée par Seamless Solutions Inc. (http://www.seamless-solutions.com) , dont les avatars sont modélisés en VRML et sont très expressifs au niveau du visage. Nous ne connaissons malheureusement pas le degré de finesse de ces projets, ni leurs tenants et aboutissants, car on n’en trouve pour l’instant trace que sur quelques pages Web.

1.2.3.3. Vers une communication bidirectionnelle.

M. Tokuda [TOK 95] a réalisé la traduction du japonais en amont de la synthèse. Les termes non signés sont éliminés après analyse morphologique, et la traduction se fait ensuite soit par correspondance directe, soit grâce à l’emploi d’un identificateur de concept. L’auteur annonce un taux de réussite de5%.

De nombreuses autres études concernent la reconnaissance des gestes et leur interprétation en signes. Ohki et al. [OHK 95] schématisent les étapes majeures nécessaires à une traduction bidirectionnelle entre, d’une part, les gestes entrés par un capteur de type DataGlove et un texte japonais, d’autre part, entre la parole et une animation synthétique en langue des signes. B. Dorner et E. Hagen [DOR 94] utilisent des gants munis de cercles lumineux pour obtenir une représentation des configurations et positions manuelles en termes d’angles articulaires. Ils décrivent ensuite un analyseur grammatical détaillé de l’ASL (prenant en compte les références indexées, les différents types de phrases, le temps du discours, ...), destiné à être intégré à un système global de reconnaissance des signes.

1.3. Décrire le signe.

La première représentation d’une langue qui vient naturellement à l’esprit est l’écriture. Si elle constitue un phénomène relativement récent à l’échelle des langues, et ne les concerne d’ailleurs pas toutes, elle joue un rôle de premier plan dans la transmission de l’information à travers l’espace et le temps. Elle permet à des individus distants de communiquer et constitue un facteur favorisant la survie d’une culture, sans toutefois en être une condition sine qua non.

Les travaux de Stokoe sur la phonologie du signe ont donné lieu à plusieurs ensembles de représentation. Certains revendiquent le statut de systèmes d’écriture mais demeurent peu utilisés en ce sens par la communauté sourde, et beaucoup sont avant tout des outils linguistiques. Néanmoins, chacun apporte de précieuses informations sur les paramètres du signe et il est intéressant d’en examiner ici les grandes lignes.

1.3.1. Phonétique du signe.

1.3.1.1. Travaux de Stokoe.

William C. Stokoe fut le premier linguiste contemporain à étudier et proposer une description de la langue des signes (en l'occurrence, l’ASL) en termes de phonèmes (qu'il dénomma chérèmes, du grec kheir, la main), et à en bâtir une transcription écrite dont la figure 1.7 ci-après propose un exemple. Dans le dictionnaire de l’ASL qu’il publie en 1965 avec Casterline et Croneberg ([STO 78] pour l'édition révisée), il jette les bases et pave la voie pour une recherche ravivée sur les langues des signes.

Les signes y sont décrits comme combinaisons de chérèmes appartenant à trois classes distinctes :

Classe de chérèmes	Nombre	Description	Exemples
Tabulateur (Tabular, TAB)	12	Position de la main (ou des mains) dans l’espace (i.e. endroit où agit le DEZ).	[ ]	tronc
			G	cou
Désignateur (Designator, DEZ)	19	Forme signifiante de la main (ou des mains). Elle est vue relativement au TAB (à l’intérieur, contre, dessus, ...)	A	poing fermé
			B	main ouverte
Mouvement (Signation, SIG)	24	Action effectuée, " dans " la position du tabulateur, par le désignateur (si le signe comporte effectivement une phase dynamique).	>	à droite
			T	vers le signeur
				mvt. circulaire
				*pronation*
			w	torsion
				agitation doigts

Tableau 1.2: Classes de chérèmes.

Le tableau ci-dessus présente quelques exemples pour chacune des classes de chérèmes; on en trouve les listes exhaustives en annexe 1.2. Il est à noter que la notion de SIG englobe en fait des phénomènes fort différents. En effet, outre les déplacements directionnels fondamentaux dont la forme est rectiligne (selon les trois directions de l’espace), circulaire ou courbée, s’y trouvent des mouvements de l’avant-bras, du poignet ou plus localisés encore au niveau de la main. D’autres décrivent la relation entre le désignateur et le tabulateur, ou la façon dont les articulateurs interagissent (convergence, dissociation ou croisement des mains, contact entre le DEZ et le TAB, …).

Les entrées du dictionnaire de Stokoe et de ses collaborateurs utilisent ce système pour représenter les signes de l’ASL en précisant dans l’ordre le TAB, le DEZ, puis le SIG: TD. Dans le cas où les configurations manuelles des deux mains sont significatives, on a la notation TDDS. De plus, les mouvements peuvent être effectués en séquence (les SIG sont alors notés côte à côte) ou simultanément (notation superposée). Ce qui donne les possibilités suivantes pour les symboles de mouvement : ,, , , , ou même . Ainsi, dans la figure 1.7, séparation des mains et rotation du poignet sont simultanées.

Transcription :	Æ FxF	¸ w

*Chérème*	*Symbole*	*Signification*
Tabulateur (TAB)	Æ	Espace neutre devant le torse
Désignateur (DEZ)	FxF	Configuration manuelle F pour les deux mains initialement en contact
Mouvement (SIG)	¸ w	Séparation (¸ ) des mains et rotation simultanée du poignet (w )

Figure 1.7: Exemple de transcription chérémique (signe LSF histoire[3] ).

Remarquons que certains symboles DEZ peuvent servir de lieux d’articulation (TAB). La figure 1.8 ci-contre en donne une illustration : dans le signe LSF Bouteille, c’est la main de base statique – en configuration [C] devant le torse – qui constitue le TAB, alors que le DEZ prend également la valeur [C], donnée par la main dominante en position initiale. Le SIG est quant à lui caractérisé par un mouvement vers le haut (^) accompagné de la fermeture (#) simultanée de la main, ce qui nous donne la transcription suivante :

CxC

La détermination des phonèmes gestuels (en termes linguistiques, le décodage chérémique) a été réalisée de sorte que leur combinaison forme un signe spécifiquement déterminé; en d’autres termes, deux signes diffèrent obligatoirement par au moins l’un de leurs chérèmes (c’est la notion de paires minimales). Les sous-primitives au contraire, définies par Stokoe (sous la dénomination allochers) pour préciser la transcription, ne peuvent à elles seules distinguer deux signes. Elles sont constituées en ajoutant aux primitives majeures des signes diacritiques qui en modifient légèrement l’aspect visuel. Par exemple, le diacritique (griffe) est ajouté à la configuration manuelle [5] pour représenter la configuration dite "en griffe" (cf. tableau 1.3).


[5]	[54]	[5]	[5]
Chérème (DEZ)	Allochers
*Tableau 1.3: Configuration manuelle [5] et allochers* correspondants.**

Autre exemple, l’ensemble du tronc constitue un seul chérème (de type tabulateur), dont les allochers peuvent être aussi éloignés que les épaules et les hanches. Cependant, conformément au critère des paires minimales, on ne peut trouver dans le dictionnaire deux signes ne se distinguant que par la position sur le tronc; il existe toujours au moins une différence par ailleurs, que ce soit le DEZ, le SIG, ou l’un et l’autre à la fois.

1.3.1.2. Validation de la description de Stokoe.

Cette décomposition des signes en unités formationnelles non-signifiantes est étayée par plusieurs études qui en confirment la validité.

On trouve d’abord les recherches menées par Klima et Bellugi [KLI 79] sur les erreurs de production dans le discours. Dans les langues verbales, la similarité phonologique de certains mots (par exemple, après et attrait) est incriminée. Il en est de même dans les langue des signes où les erreurs – visuelles – sont de même type : anticipation (un paramètre formationnel d’un signe est utilisé involontairement dans un autre signe qui le précède), persévération (la valeur d’un paramètre du signe A est conservée dans le signe B), ou échange (substitution mutuelle, ou métathèse). Ces lapsus gestuels ne sont nullement liés au contenu sémantique du signe, mais concernent bien plutôt les paramètres de formation identifiés par Stokoe; dans leur majorité, ils ne concernent d’ailleurs que l’un d’entre eux. L’étude des corpus recueillis par les auteurs sur les erreurs de production, mais aussi de mémorisation à court terme, prouve la réalité psycholinguistique des composants majeurs et leur indépendance dans la formation du signe (ainsi, au passage, que l’existence de règles bien définies dans le processus combinatoire).

D’autres recherches portant sur la perception des signes vont dans le même sens. Grosjean [GRO 79] prouve que les divers paramètres formationnels ne sont pas identifiés simultanément : le mouvement est perçu en dernier, déclenchant la détermination du contenu lexical ; l’identification est par ailleurs facilitée pour les signes mettant en jeu les deux mains, le torse ou le cou comme lieu d'articulation, ainsi que le maximum d’expression non-manuelle. Poizner [POI 81], quant à lui, démontre l’importance perceptuelle des paramètres de formation à partir de leurs dimensions psychophysiques (plan, direction, courbure et répétition du mouvement).

1.3.1.3. Autres paramètres du signe.

Poursuivant les travaux de Stokoe, certains auteurs ont identifié d’autres paramètres intervenant dans la formation et la distinction des signes.

Battison [BAT 74] en ajoute un quatrième : l’orientation de la main ou des mains, et distingue en outre, au niveau le plus général, quatre zones principales d’articulation du signe : le visage, le tronc, le bras et la main. Klima et Bellugi [KLI 79] définissent l’orientation de la paume de la main comme un paramètre mineur mais en valident l’importance en citant des paires de signes pour lesquelles il constitue le seul critère de distinction (par exemple child et thing, voir figure 1.9).


Child [enfant]	Thing [chose]
Figure 1.9: Paire de signes ne différant que par l’orientation de la paume [KLI 79].

Ces derniers auteurs reconnaissent également deux autres paramètres mineurs. La région de contact est la zone – ou les zones – de la main pouvant entrer en contact avec un point du corps (joue, avant-bras, front, ...). Le nombre et le lieu des régions de contact dépend de la configuration de la main. D’autre part, l’agencement des mains, décrivant si le signe est réalisé avec une seule ou les deux mains ainsi que les relations spatiales entre elles, constitue un troisième paramètre mineur dont le rôle de différenciation est moins marqué, mais intervenant au premier plan dans les processus morphologiques.

L’approche choisie par François-Xavier Nève de Mévergnies, du Centre d’Etudes Pluridisciplinaires sur la Langue des Signes (Céplus) de Liège est plus fonctionnaliste que celle de Stokoe. Plutôt que de rechercher des universaux linguistiques, l’auteur de l’"Essai de grammaire de la Langue des Signes Française" [NEV 96] se base davantage sur les différences entre les langues; la référence au chinois et ses ressemblances avec la langue des signes y sont d’ailleurs récurrentes. L’étude en confirme la double articulation, ainsi que les classes de phonèmes gestuels. Rebaptisés gestèmes, ceux-ci ont été obtenus par commutation phonologique et sont présentés sous le mnémonyme COLORIACT (COnfiguration, Localisation, ORIentation et ACTion). Avec une réserve toutefois : " l’ACT paraît échapper à la gestémologie par les deux caractères suivants :

leur nombre paraît ouvert
on ne voit pas comment distinguer ce qui est seulement gestématiquement pertinent de ce qui serait significatif de façon monématique ".

Signalons enfin l’importance, certes limitée, des expressions non-manuelles – et notamment faciales – dans la distinction des items lexicaux. Wilbur [WIL 79] cite à ce propos l’exemple des signes ASL late [tard] et not_yet [pas_encore], dont la seule différence réside en un léger mouvement de la langue vers l’avant pour le premier.

1.3.2. Affinements de la description et applications.

Plusieurs études se basent sur ces paramètres, souvent en les affinant, pour proposer tantôt d’autres notations (plus " visuelles " que celle de Stokoe), tantôt des outils d’analyse linguistique (grâce à des bases de données), ou encore des dictionnaires dont les fonctionnalités de recherche d’un item lexical sont adaptées aux langues des signes.

1.3.2.1. Encodages informatisés.

Une des premières notations informatisées de la langue des signes est probablement celle de Teuber, Battison et leurs collaborateurs [TEU 80]. Elle vise à constituer un dictionnaire en vue d’études linguistiques, et ceci sur la base de celui de Stokoe, Casterline et Croneberg publié en 1965. Le travail a consisté à transcrire grâce aux caractères ASCII les différents chérèmes identifiés par Stokoe, ainsi qu’à définir une structure capable de stocker l’ensemble de la représentation codée de chaque signe (y compris les diacritiques et l’orientation de la main). Une des difficultés réside dans l’obtention de caractères informatiques aussi proches que possible des symboles de Stokoe. La saisie numérique du dictionnaire a permis de dresser des statistiques d’intérêt linguistique sur les caractéristiques des signes et leurs contraintes de constitution.

Un logiciel grand public plus récent, SignWriter (qui possède son propre site Internet : http://www.signwriting.org), est un système d’écriture de la langue des signes sous forme d’un ensemble de symboles visuels. Si ses fondations linguistiques ne sont pas clairement établies, c’est un moyen de transcrire sur le papier cette langue dans toute sa richesse : les expressions non-manuelles y sont finement représentées et les primitives graphiques permettent d’obtenir, au prix de quelques efforts d’édition, des signes plus ou moins iconiques. Mais la fonction de mémoire avancée par les auteurs de ce système surtout en usage aux Etats-Unis n’est-elle pas déjà bien assurée par la vidéo ?

Plus récemment, une étude a été menée, dans le cadre du projet SignFont, par Mac Intire et ses collaborateurs [MCI 87]. Elle vise également au développement d’un système d’écriture informatisée de l’ASL. Dans cette optique a été réalisé un nouvel inventaire des configurations manuelles de cette langue, leur regroupement au niveau phonémique, une représentation semi-graphique de ces formes de la main, ainsi que l’encodage informatisé de celles-ci. En outre, les auteurs ont proposé une série de symboles pour les marqueurs syntaxiques non-manuels et, plus récemment [HUT 90], pour les régions de contact et les différents mouvements.

Il est possible de faire le rapprochement avec un autre type de transcription informatisée que nous décrirons brièvement ici, HamNoSys (acronyme d’Hamburg Notation System) [PRI 90a, HAM 98]. Développé à l’origine pour la langue des signes allemande, il a aujourd’hui la prétention, grâce à sa finesse de description, de constituer un système de notation alphabétique internationalement applicable. La contrepartie en est un ensemble de symboles imposant (près de 200 pour les seules configurations manuelles, position, orientation et mouvement). Pour donner une idée de ce codage, prenons l’exemple du signe LSF histoire (figure 1.10).

Figure 1.10 : Transcription HamNoSys (LSF histoire)[4].

Mais les notations décrites ci-dessus sont purement scripturales et leur iconicité est généralement faible. Bien adaptées pour constituer des bases de données à des fins d’études linguistiques, elles révèlent leurs limites dans la représentation visuelle de la langue des signes. Car l’essence de cette langue est spatiale et dynamique, caractères difficilement transposables sur le papier.

L’utilisation d’un système comme HamNoSys en tant que notation intermédiaire pour l’obtention de signes synthétiques est envisageable. Toutefois, s’il prend en compte certains aspects modulatoires des signes, la symétrie des mouvements et des positions, et quelques composants non-manuels, il n’est pas encore apte – dans son état actuel – à décrire les processus grammaticaux intervenant en langue des signes.

1.3.2.2. Des interfaces pour la langue des signes.

Répondant à la nécessité impérieuse de présenter des signes animés, des interfaces dédiées aux langues des signes ont vu le jour [FRI 93]. Parmi les formes envisageables de représentation visuelle – vidéo et signes synthétiques –, seule est à ce jour vraiment exploitée la première des solutions. L'avènement et la démocratisation de la vidéo numérique ont ainsi permis de réaliser des dictionnaires informatisés et des applications destinées à la fois à l’apprentissage de la langue orale par les sourds et à celui de la langue des signes par les entendants.

La plupart des dictionnaires apportent une solution à ce dernier besoin en fournissant l’équivalent signé d’un mot donné. L’accès direct à la séquence filmée se fait par une liste alphabétique. C’est le principe adopté par le Centre de la Langue des Signes Allemande, à Hambourg, éditeur de plusieurs dictionnaires dédiés à diverses branches professionnelles (menuiserie, informatique, médecine, psychologie, ...), dont certains sont désormais disponibles en ligne (http://www.sign-lang.uni-hamburg.de/Projects/SLDicts.html). De telles réalisations sont les pendants des ouvrages lexicographiques papier (dont certains préexistaient d’ailleurs à l’ordinateur personnel).

Parmi ces derniers, il convient de citer le remarquable ouvrage publié par I.V.T. [MOO 86, MOO 90], dont la version électronique a été réalisée à l’université de Lyon II par A. Bonucci et S. Wilcox (voir l’annexe 4 pour l’URL de ce site). Il présente la particularité d’offrir l’ordre de recherche inverse à celui jusque-là considéré et constitue en ce sens le premier dictionnaire bilingue français-LSF. Il est en effet possible de retrouver un signe par trois de ses caractéristiques formationnelles : la configuration de la main, le lieu d’articulation et le nombre d’articulateurs impliqués. Grâce à ce mécanisme, on peut retrouver un signe perçu dont on ignore le sens.

L’ordinateur est évidemment tout indiqué pour systématiser ce type de recherche. Premier logiciel de traduction français-LSF, le Dictionnaire Informatisé de la Langue des Signes (DILS) du Céplus [CEP 98] propose une base de plus de 5000 mots français et leur quelque 1500 correspondants signés. Les données relatives aux signes sont très complètes : définition et utilisation dans un contexte, synonymes, liste des gestèmes, vidéo et dessins illustratifs. Mais la fonctionnalité la plus intéressante et originale en est précisément un double mode d’accès aux entrées : outre la clé alphabétique, les paramètres formationnels du signe (configurations manuelles, position, orientation (cf. figure 1.11) et mouvement) permettent de retrouver celui-ci par filtrage progressif.

Figure 1.11: Interface du DILS [CEP 98].

Offrant des possibilités de recherche analogues à celle du DILS, Le Dictionnaire Multimédia de l’ASL (MM-DASL) [WIL 94a] est une application de traduction bilingue anglais-ASL tournant sur Macintosh et utilisant la technologie Quicktime pour les vidéos signées. Il a été initié par S. Wilcox et W. C. Stokoe. Une particularité intéressante en est la possibilité d’effectuer une " recherche floue " (fuzzy search), lors de laquelle l’utilisateur spécifie le degré de ressemblance, la " distance " entre le signe réel et les valeurs de recherche définies. Pour chaque entrée signée, le dictionnaire comporte, outre la vidéo, un ensemble de mots-clés (les traductions anglaises possibles), la catégorie grammaticale et la définition du mot. L’application présente l’avantage de pouvoir être utilisée avec n’importe quelle langue des signes, bien que les paramètres de recherche phonologiques concernent l’ASL.

SignStream, développé également sur Macintosh dans le cadre de l’ASLLRP (ASL Linguistic Research Project), est un outil de base de données sensiblement différent des précédents. Son but est l’encodage et l’analyse de données linguistiques au niveau du discours, mettant l’accent sur l’importance syntaxique des paramètres non-manuels. Ceux-ci sont représentés en parallèle et de façon synchronisée avec la traduction et la représentation vidéo des signes.

1.3.3. Une autre approche : la description de Liddell et Johnson.

Les descriptions étudiées jusque-là mettaient toutes l’accent sur l’aspect simultané de la production des phonèmes formant les signes. Stokoe [STO 72], entre autres, insiste sur cette différence avec les langues verbales, dans lesquelles l’apparition des segments est séquentielle et linéaire.

1.3.3.1. Tenues et séquences.

Bien entendu, la production des signes dans le discours est, quant à elle, séquentielle. Dans une introduction à sa description de la langue des signes du Sud de la France, Sallagoïty [SAL 75] note d’ailleurs une telle combinabilité temporelle à ce niveau, les items étant évanescents. Mais les signes eux-mêmes sont bien vus en tant que production simultanée d’un ensemble de primitives, leur organisation séquentielle étant phonologiquement insignifiante.

Toutefois, certains processus en font apparaître l’importance. C’est le cas des " tenues " (holds en anglais)[5]. Celles-ci peuvent intervenir en début ou en fin de signe, avant et après le mouvement, ou alors être totalement absentes; elles constituent d’ailleurs une part importante du temps de production et leurs durées varient avec l’accentuation du signe [WIL 79]. Une tenue en début de signe consiste par exemple, après avoir amené la main à l’endroit d’où part le mouvement, à maintenir un bref instant cette configuration initiale (qui est parfois déterminée par la première lettre du mot écrit correspondant – ce processus est dénommé initialisation). Ces tenues ne se retrouvent pas dans la pantomime [BEL 78], mais sont bien parties intégrantes et contrastives des signes.

Partant de ces constats, Scott K. Liddel et Robert E. Johnson ont développé une description de la langue des signes (américaine) prenant en compte cette organisation séquentielle. Nous allons ici en décrire les très grandes lignes; on peut se reporter à [LID 89] et [LID 90] pour davantage de précisions (voir aussi l’annexe 1.3).

1.3.3.2. Description segmentale de Liddell et Johnson.

Cette description est basée sur la distinction, dans les segments des langues des signes, entre les composants décrivant d’une part la posture de la main et d’autre part son activité. Les premiers, les paramètres manuels du signe, spécifient notamment où se trouve la main, quelle est sa forme et la façon dont elle est orientée. Les seconds, reflétant l’activité des articulateurs, se divisent en deux classes :

les tenues (symbole H, holds en anglais) sont définies comme les moments pendant lesquels toutes les caractéristiques manuelles demeurent constantes , en particulier la position de la main;
les mouvements (symbole M) caractérisent au contraire une phase de transition entre deux ensembles de caractéristiques articulatoires.

En conséquence, un mouvement M est relié à deux de ces ensembles, tandis qu’une tenue H n’est connectée qu’à un seul.

Les signes et les parties du discours sont composés de chaînes simultanées de segments (alternances de M et de H) : une pour chaque main, et une pour chaque paramètre non-manuel (activité du torse, de la tête et du visage). Ainsi, le signe LSF histoire est représenté par la structure de la figure 1.12.


*Figure 1.12: Le signe LSF histoire* et sa description segmentale**[6].

Détaillons un peu l’étage segmental. Un mouvement est précisé par des caractéristiques :

de forme de chemin (rectiligne direct, arrondi, en arc de cercle, ... ; pour ces derniers, il convient d’indiquer le plan concerné),
de qualité temporelle (raccourci, accéléré), spatiale (course réduite ou élargie) ou kinétique (mouvement tendu par exemple), ou encore de contact,

ainsi que par les éventuels mouvements locaux tels que rotation du poignet, agitation des doigts, ou autres mouvements rapides internes de la main (par exemple, le frottement pouce/index du geste signifiant argent).

Une tenue, quant à elle, est caractérisée par sa durée et également un mouvement local, le cas échéant.

En ce qui concerne l’étage articulatoire, la spécification complète de la main inclut :

la configuration manuelle proprement dite,
le point de " contact " :
l’orientation de la main :

Une description plus complète de la notation des différentes caractéristiques, ainsi qu’un exemple complet de représentation d’un signe, sont présentés dans l’annexe 1.3.

Signalons encore que Liddell fournit aussi une analyse phonémique très proche [LID 90], permettant, grâce à un attachement autosegmental multiple, de réduire sensiblement les redondances induites par la description phonétique.

Enfin, Sandler [SAN 86] propose une représentation segmentale des signes dans laquelle la main d’une part, et le mouvement avec les lieux de départ et d’arrivée d’autre part, occupent respectivement un étage. Le changement de configuration manuelle est transcrit par une caractéristique " ouverture " ou " fermeture ". Néanmoins, comme le note Liddell [LID 90], une telle description ne permet pas de connaître de façon univoque la configuration de la main à la fin du mouvement.

Conclusion.

La langue des signes, par son originalité et toutes les réalités humaines qu’elle sous-tend, mérite toute notre attention. La multiplication des recherches la concernant en est autant de preuves et de conséquences. Travaux des linguistes, d’une part, qui ont conduit à plusieurs descriptions précises des différents paramètres formationnels des signes. Travaux des spécialistes de l’informatique d’autre part, mais aussi de l’intelligence artificielle ou de l’automatique, poursuivant des buts plus pragmatiques : développement de modules de synthèse, de reconnaissance des gestes, ou de traitement du langage naturel, dans l’optique d’une traduction bidirectionnelle avec les langues orales.

Un tel système est susceptible d’apporter un élément de réponse aux problèmes d’éducation et de communication auxquels la communauté sourde est confrontée. Sa mise en œuvre passe par la réalisation d’un module de synthèse performante des signes, qui doit aussi satisfaire des critères d’interfaçage simple. Il est en effet destiné à être inclus dans d’autres applications nécessitant la génération de signes virtuels à l’exécution, telles que la traduction français-LSF.

Des études linguistiques, il ressort qu’une spécification du signe ne saurait s’affranchir des quatre gestèmes fondamentaux. Car leur réalité psycholinguistique a été vérifiée, et il nous faudra donc les insérer d’une façon ou d’une autre dans notre système sous peine d’obtenir des signes phonologiquement mal formés et donc sémantiquement erronés. Cependant, il n’est pas à exclure que la synthèse nécessite un affinage de ces paramètres ou une prise en compte de traits non linguistiquement pertinents.

La description du signe fournie par Liddell et Johnson est ainsi très intéressante dans une optique de synthèse, car extrêmement précise. Un tel niveau de détail est parfois contesté par d’autres études dans le même domaine, mais il nous apparaît nécessaire pour éviter la génération de signes synthétiques trop "robotisés". Les travaux de ces auteurs nous sont donc d’une aide des plus précieuses lorsqu’il s’agit par exemple de définir les points de contact corporels.

Mais si les notations développées par les linguistes depuis maintenant trois décennies ont permis de spectaculaires avancées dans la connaissance structurelle des langues des signes, elles sont souvent difficilement abordables et réservées aux seuls initiés, leurs applications étant presque exclusivement confinées au champ d’étude de leurs auteurs. Bien adaptées à l’établissement de données statistiques desquelles peuvent être déduites les règles formationnelles régissant les signes, ou encore à l’élaboration de véritables dictionnaires bilingues, elles ont cependant montré leurs limites en tant que bases de systèmes d’écriture. Aucune n’est en effet utilisée comme telle, ne serait-ce qu’à moyenne échelle, et pas davantage comme transcription servant de point de départ à la synthèse des signes, même si, là encore, la notation de Liddell semble faire exception.

Une nouvelle spécification qui tienne compte des impératifs liés à la synthèse est donc nécessaire ; sa version informatisée doit être aussi lisible que possible, évitant les symboles ou les codes hermétiques sujets aux griefs. Par ailleurs, une synthèse élaborée de la phrase signée ne se résume pas à la description des signes dans leur forme de citation. Elle réclame également la prise en compte des processus grammaticaux et phonologiques de la langue. Tout particulièrement, les phénomènes de flexion et les expressions non-manuelles doivent faire l’objet d’une étude attentive. Le chapitre suivant présente le système de description formelle du signe que nous proposons, et les diverses interactions entre ce dernier et le discours signé, mais aussi entre items au sein même de la phrase.