Couverture de EDB_028

Article de revue

Les enjeux sémantiques arabes et berbères face à la normalisation : ISO TC37, W3C OWL et ISO TC46.

Pages 197 à 206

Notes

  • [1]
    Certes, nous savons bien qu’il existe un certain nombre de recherches permettant d’effectuer des reconnaissances sémantiques directes à partir du matériel oral. Cependant, jusqu’à preuve du contraire ces travaux de recherche transcrivent automatiquement l’oralité en texte et calculent la sémantique de ces « conversations » à partir de terminologies, d’ontologies, de patterns de phrase stockés en machine sous forme de textes, même si le but visé consiste à cacher à l’utilisateur ce « passage par le texte ».
  • [2]
    Ou plutôt le e-sémantique si on ne souhaite pas lier absolument au web le destin global de cette activité.
  • [3]
    OWL (Ontological Web Language, « owl » chouette en anglais étant l’attribut d’Athéna) pour ce qui est du projet le plus abouti constituant une « recommandation du W3C ».
  • [4]
    Non seulement le nom et le scope de l’ISO TC37 mais le nom et le scope de ses 4 sous-comités :
    Titre général : Terminology and other language and content resources. Scope général : Standardization of principles, methods and applications relating to terminology and other language and content resources in the contexts of multilingual communication and cultural diversity ; SC1 : ‘‘Principles and methods ; SC 02’’ ‘‘Terminographical and lexicographical working methods’’ ; SC 03 : ‘‘Systems to manage terminology, knowledge and content’’ ; SC 04 : ‘‘Language resource management’’.
  • [5]
    Bien sûr des mots isolés mais aussi des mots valises, des mots composés, des syntagmes.
  • [6]
    Éventuellement dans le meilleur des cas celui des patients eux-mêmes.
  • [7]
    Un cadre de mise en œuvre normalisé pour la terminotique, lui-même lié au TML (Terminological Markup Language), un langage XML spécialisé (en fait une DTD) pour l’expression des données terminologiques.
  • [8]
    On ne peut changer (sauf révision de la norme) ce qui a été normalisé, mais certains experts s’accordent pour convenir qu’à ce niveau l’adjectif « conceptual » aurait été plus clair que « terminological ».
  • [9]
    La logique qui consiste à identifier chaque entrée terminologique (chaque concept) uniquement par un identifiant (numérique ou alphanumérique) est méthodologiquement indispensable. Il s’agit clairement d’affirmer que le concept n’équivaut pas aux mots pour le dire. Dans la pratique l’utilisateur peut toujours recourir à une facilité de rappel automatique du terme vedette le plus proche du concept (soit dans la langue de référence, soit dans sa propre langue. Mais cette commodité d’interface ne doit jamais faire oublier que le concept n’est pas un terme. On peut même envisager de proposer une image fixe ou une vidéo (mais en gardant présent à l’esprit, selon le mot de Magritte : « ceci n’est pas une pomme ! » ; autrement dit le concept n’est pas le mot.
  • [10]
    On peut envisager de décrire aussi des relations d’autre nature, dépendance, inclusion, relation... mais hors des 2 premières (générique ou partitive), on quitte le domaine des terminologies pour être dans celui des ontologies. Le modèle TMF autorise cependant ce type de catégorie de description.
  • [11]
    Comme on le développera plus tard, la maîtrise des sigles et acronymes est très importante pour la normalisation. Nous devons pouvoir ainsi gérer comme « termes synonymes » : ISO/IEC JTC1 SC36, sa forme courte (short form) SC36 ou même (ce qui est en principe incorrect) ISO SC36, voire ISO/CEI JTC1 SC36 ainsi bien sûr que les formes développées de ces sigles.
  • [12]
    On remarquera en effet que la dénomination de 1re pour la classe des plus jeunes de l’enseignement secondaire dans le canton de Genève ne peut être qualifiée de « français suisse romande » car ce même niveau scolaire devient 6e dans le canton de Vaux. Ce n’est pas non plus strictement géographique mais institutionnel car le lycée français de Genève définit aussi ce même niveau comme classe de 6e. On conçoit bien que ce type de spéculations peut apparaître très stérile pour des traducteurs. Il conviendra en fait d’établir l’interopérabilité internationale de ressources pédagogiques numériques (par exemple des échanges régionaux entre Lyon et Neuchâtel).
  • [13]
    Enseignement à distance, style d’apprentissage, ingénierie pédagogique, système d’apprentissage distribué basé sur la technologie, e-apprentissage, m-learning, etc.
  • [14]
    Voir plus bas l’intérêt de translittérer à ce niveau comme à celui des termes, et de proposer aussi pour les composants d’un terme des traductions mot à mot.
  • [15]
    On peut lire à ce sujet Desmet (Isabel), « Néologie de spécialité et néologie banalisée en informatique et TIC : de la recherche aux dictionnaires de langue générale », in La langue française dans l’aventure informatique, collection Lexipraxi, éd. AILF, Paris 2006 pp. 159-174.
  • [16]
    Nilsson (Henrik), « Perte de domaine : indicateurs et enjeux », in La langue française dans l’aventure informatique, (déjà cité), pp. 149-158.
  • [17]
    Il nous semble utile de développer un exemple. Bien sûr nous admettons volontiers qu’il n’est pas dans le droit fil du mode de génération des termes en français que d’utiliser un patron linguistique du type e-learning, m-learning, (pour mobile-learning) t-learning (pour [digital]television-learning) ; et pourtant, les avantages de ce type de patron linguistique sont très avantageux pour garder une cohérence dans la déclinaison d’une famille de concepts. La déclinaison de nouveaux termes est très simple et le lecteur sait qu’il a affaire à la déclinaison du même concept technique sur un autre champs d’applications (la santé, le commerce, etc.). D’une part dans la plupart des langues latines e-, m- ou t- se comprendra aisément car les termes anglais correspondant sont anglo-normands donc des racines latines. D’autre part, même si on remplace e-governement ou e-learning par e-gouvernement ou e-enseignement, il sera beaucoup plus facile pour un lecteur non natif de comprendre de quoi il s’agit que si on doit traduire des syntagmes compliqués, voire des sigles totalement incompréhensible, pour un non francophone (FOAD par exemple).
  • [18]
    Ou des dictionnaires bi- ou multilingues.

1La mondialisation numérique des documents mutimédia en réseaux et accessible de façon nomade n’est plus un rêve futuriste. C’est déjà devenu une réalité pour les informations textuelles du Web actuel et cela deviendra plus net encore dans ce début des années 2010, période dans laquelle toute émission hertzienne analogique sera abandonnée au profit exclusif d’un broadcast exclusivement numérique. Cette révolution du tout numérique de par les flux et les marchés fantastiques que constituent la TV et la radio dans le monde (ainsi que la téléphonie mobile) aura (a déjà) un effet de convergence du tout numérique sur un format multimédia unique cohérent. Beaucoup plus que ce qu’imaginent certains, le web sémantique sera cela : un format numérique multimédia accueillant à la fois du texte, de l’image TV et audio numérique, donc l’accès sémantique sera plus encore qu’aujourd’hui renforcé par la mixité multimédia. Il reste que cette construction nécessite des soubassements techno-normatifs ainsi que sémantiques et référentiels qui sont indispensables pour que l’ensemble trouve sa cohérence. Ce dernier point, sémantique, est par contre très dépendant des langues humaines (et pas seulement des langages formels informatiques). La prospérité communicationnelle et le potentiel d’accès au savoir et à la culture des différentes communautés et territoires linguistiques (pour ce qui nous concerne, arabes et berbères) dépendra donc étroitement de l’appropriation technique de ces langages substrats, de ces normes, de l’aménagement linguistique de nos langues naturelles respectives et du développement de ressources « en langue ». C’est ce que nous nous attachons à décrire dans les pages qui viennent.

Un substrat formel numérique devenant universel, permettant notamment le futur Web sémantique

2Plus complexe que l’étage normatif de l’écriture [1] (qui constitue un code relativement stable dans un contexte textuel donné), on trouve l’étage plus proprement sémantique. Les trois grands champs de normalisation du domaine sont la documentation, la terminologie et les ontologies.

3Les deux premiers champs sont extrêmement sensibles à la langue et les élites linguistiques algériennes, berbérophones, arabophones et francophones doivent se préoccuper, comme pour l’écriture, de veiller à ce que les développements de ces deux domaines tiennent compte de leurs spécificités linguistiques et culturelles. Il s’agira donc là de mobiliser ces élites linguistiques, terminologiques, documentaires, bibliothéconomiques pour les faire contribuer à la construction de ce « substrat numérique sémantique ».

4Pour ce qui est des ontologies, leur « construction légitime » voudrait qu’en principe les ontologies soient indépendantes des langues ou écritures considérées.

5De fait, le « substrat numérique ontologique » devrait être indifférent aux variations linguistiques. Il reste que l’intrication avec les deux autres niveaux est telle qu’il faut sans doute être vigilant et mobiliser les experts algériens spécialistes des ontologies.

6Considérons donc ces 3 facettes d’activités qui se préoccupent de formaliser et de normaliser des processus, des codes, des schémas et modèles à même d’unifier, de rendre interopérables et applicables à l’échelle mondiale leurs praxis traditionnelles :

7

  • la documentation (instance normative ISO TC46, instance professionnelle très active auprès de l’ISO, l’IFLA) ;
  • la terminologie (instance normative ISO TC37 qui élargit les activités strictement terminologiques à la lexicographie, à la terminotique et aux autres ressources linguistiques ;
  • l’intégration réseaux et multimédia globale : le web-sémantique [2] en constitue le « projet marketing ». La construction d’ontologies [3] pouvant être vues comme un point d’application recherche concret permettant de construire, comme en documentation ou en terminologie, des briques sémantiques, récupérables dans des évolutions futures du système d’information mondial. L’intégration multimédia intégrant tous les aspects (e-procurement, gestion documentaire multimédia, modélisation XML du document, jeux de métadonnées) étant par contre pris en compte par le JTC1 SC29 (notamment MPEG et JPEG).

8Je ne commenterai pas les enjeux sémantiques arabes et berbères dans le cadre direct de l’ISO TC46, et de l’IFLA. Les professionnels du domaine sont depuis longtemps aguerris pour savoir mettre en place une dialectique entre la gestion quotidienne pragmatique de leurs bibliothèques et de leurs archives et le besoin complémentaire de s’investir dans la recherche à long terme et le développement concret de normes et standards. Ils n’ont pas attendu notre workshop pour développer en interne et exiger de leurs prestataires informatiques des outils adaptés au minimum à un trilinguisme arabo-franco-anglais. Je pense cependant qu’il n’en est pas de même pour l’intégration documentaire berbère.

9Profitant de leur appartenance académique l’ONEF, le CNPLET et l’UFC devraient cependant insister auprès de l’IANOR pour qu’un groupe miroir de l’ISO TC46 (normes de la documentation) se mette en place en Algérie.

Les enjeux sémantiques arabes et berbères dans le cadre direct de l’ISO TC37

10Comme son nom et son scope [4] l’indiquent, l’ISO TC37 (normes de la terminologie et des ressources linguistiques) est très fondamental pour répondre à un grand nombre de questions posées par le workshop.

11La norme ISO 704 produite par l’ISO TC37 SC1 (principes et méthodes) est une véritable question de cours définissant les principes de la terminologie. Y sont notamment posées les 2 questions fondamentales : (1) la nécessité de choisir et de normaliser une directionalité de méthode (approche par concept dite onomasiologique ou partant des mots de la langue : sémasiologique) et (2) la question non moins essentielle de définir un système de concepts hiérarchisant les concepts selon une logique prioritairement fondée sur la généricité puis secondairement la partitivité, excluant des normes terminologiques TC37 tout autre type de relations entre concepts qui sont renvoyés dès lors au niveau ontologique. Le SC1 pose ainsi les principes et limites de l’exercice de terminologie normative.

12Car tel est bien l’enjeu : les normes du TC37 sont destinées à rendre interopérables et réalisables numériquement (terminotique) des pratiques termino-linguistiques qui, depuis Platon ou Aristote, sont diverses et inconciliables bien que complémentaires :

13

  1. la lexicographie qui, par inclination naturelle, est sémasiologique : on part des mots de la langue pour aller vers le sens et les concepts ;
  2. la terminologie qui, elle, est naturellement onomasiologique puisque qu’on définit des concepts (éventuellement sans avoir les mots pour le dire dans la langue considérée) et on pointe vers des termes, des mots-valises ou des syntagmes ou des définitions.

14Les experts en terminologie normalisée ont choisi cette 2e méthode car elle évite (surtout dans des situations multilingues) l’explosion du système terminotique. On verra aussi que cette méthode est aussi parfaitement adaptée à une modélisation universelle des systèmes terminotiques : le TMF (Terminological Markup FrameWork, norme ISO 16642).

15La limitation des relations (génériques et partitives) dans le système de concept de la norme « principes et méthodes » (ISO704) a pour principal avantage que cela permet d’associer des terminologies en vue de créer des ontologies. Ainsi définis sur ces deux seuls types de relations, les concepts de plusieurs banques de données terminologiques constituent des ensembles homogènes interopérables qui vont pouvoir permettre de chaîner plusieurs terminologies normalisées entre elles dans une ontologie électronique qui les regroupera en définissant à un second niveau les autres catégories de relations (plus grand, plus petit, mangé par, conducteur de, fabriqué par, vendu par, etc.).

16Revenons sur la question du choix exclusif de la méthode onomasiologique. L’avantage est bien sûr celui de l’unicité de méthode pour permettre l’interopérabilité mais c’est aussi comme on l’a dit un choix de raison pour éviter l’explosion exponentielle des relations sémantiques. En effet, et cela est d’autant plus vrai dans une base de données terminologiques multilingues il est, par définition, plus facile de maîtriser le réseau de relations sémantiques quand ce sont les concepts que l’on définit d’abord et que l’on « pointe » ensuite vers des mots dans une ou N langues. Bien sûr, on comprend que le débat est « par nature philosophiquement inconciliable » entre ceux qui pensent qu’il existe « des idées en soi » et que les mots des langues ne sont que des instanciations de ces idées et ceux qui pensent que les mots d’une langue (ou de plusieurs langues) permettent aux idées de ce concrétiser. Non seulement le débat est ouvert mais surtout la démarche est toujours mixte. On ne peut pas faire de terminologies sans collectionner des mots (ou plutôt des termes [5] dans des langues). Cette approche caractérise la démarche lexicographique et elle suit la direction de la méthode sémasiologique. Par ailleurs, il est indispensable surtout dans une démarche documentaire ou dans une situation d’analyse industrielle ou de knowledge management de faire la démarche inverse et de définir des concepts (pourquoi pas in abstracto si les mots pour le dire n’existent pas) pour vérifier ensuite que des termes (ou des néologismes à créer) pointent vers ces concepts. Cette démarche est particulièrement utile dans les situations d’innovation technologique : quelques chercheurs viennent d’inventer une nouvelle molécule ou un nouveau process qui peuvent avoir des applications. Il faudrait pour faciliter la discussion sur ce concept innovant, pouvoir créer les néonymes ou les néologismes qui donneront accès à cette idée. La situation est classique en normalisation, une communauté linguistique ou nationale donnée dispose d’un terme pour décrire une fonction, une institution, un rôle, un type de process, un dispositif juridique qui n’existe pas dans d’autres communautés qui bien sûr n’ont pas de mot pour le dire. Si ce que recouvre ce terme s’avère innovant et utile aux autres communautés nationales ou linguistiques alors la terminologie onomasiologique sera une excellente méthode pour créer des consensus mondiaux et transférer des savoir-faire innovants.

Les néologismes comme adjuvant indispensable de la prospérité notamment scientifique et industrielle

17On sait bien que le développement est précisément de cette nature : rendre transparents à d’autres communautés (généralement linguistiques mais aussi nationales) des concepts, des modes de comportement dont les autres communautés ne sont pas familières. Le progrès médical et pharmacologique est précisément de cette nature. Les chercheurs sont, chacun dans leur segment de spécialité, familiers de concepts opaques pour l’homme de la rue mais aussi souvent pour la majorité des professionnels de leur discipline. Ils ont besoin de fabriquer des médicaments fiables et de formaliser des protocoles de soins ; ils ont ensuite besoin avec les laboratoires et les équipes hospitalières universitaires de « vulgariser ces notions » grâce à la littérature scientifique mais aussi grâce aux visiteurs médicaux. In fine, ce travail consiste très schématiquement à élargir le vocabulaire de la profession médicale et même paramédicale [6] et autorise ensuite les transferts technologiques et acquisitions de savoir-faire correspondants.

18J’ai développé cet exemple qui me paraît rhétoriquement démonstratif, mais mon opinion personnelle est évidement beaucoup plus nuancée concernant l’opposition facile médecine occidentale / médecine traditionnelle. La médecine universelle a beaucoup à gagner dans les transferts réciproques et les plus grands laboratoires savent exploiter l’ethnopharmacologie. Il est certain que ces études ethnopharmacologiques auraient beaucoup à gagner de la réalisation de terminologies dans des langues faiblement documentées et dans des langues de culture orale.

19Revenons sur un exemple juridico-constitutionnel. La dynastie de Porto Novo, dans l’actuel Benin pratiquait la succession dynastique plurilinéaire. Un ancêtre fondateur a plusieurs fils. Au lieu de désigner un seul héritier comme Roi, il instaure un principe de succession dynastique plurilinéaire. À chaque génération les N fils (mettons 3), seront successivement Roi. Ce type de dispositif crée des sociétés politiquement très stables, car cela instaure « une alternance systématique » des clans. Chaque clan sait que son tour viendra à son heure. Dispositif complémentaire indispensable : pour ne pas risquer que l’heure de la mort du roi soit volontairement accélérée, un village du royaume est chargé de désigner le 1er ministre qui est une fonction très honorable et très convoitée mais associée à un inconvénient : celui-ci sera systématiquement mis à mort dans les jours qui suivent la mort du Roi. Le monarque régnant dispose donc d’un « chef de la garde » d’une fidélité à toute épreuve. J’ai développé cet exemple car il montre bien, je pense, que des banques de données conceptuelles peuvent être utiles à la divulgation de quantités de concepts innovants (au Nord comme au Sud). La mise en évidence mondialisée de ces concepts revient en fait à considérer que la notion de « perte (ou plutôt de manque) de domaines linguistiques » est une notion totalement universelle et qui ne s’applique pas seulement aux domaines industriels.

Le TMF (Terminological Markup Framework)

20Après ces longues digressions sur l’intérêt de la démarche onomasiologique pour permettre une meilleure circulation mondiale des idées revenons, sur les normes terminotiques.

Les questions de méthodes et les questions terminotiques

21Aujourd’hui la communauté des terminologues, mais aussi celle des lexicographes, se sont entendues pour normaliser une démarche unique. Celle-ci est onomasiologique et ce pour plusieurs raisons.

22Une banque terminologique sémasiologique connaît une explosion des liens de relations, surtout si elle est multilingue. En effet, si on construit des banques multilingues en partant des termes on rencontre les plus grandes difficultés à appareiller in fine les structures conceptuelles, car leur nombre croît exponentiellement par rapport au nombre des termes. De ce fait, cette méthode est quasi-incompatible avec la logique informatique.

23Notons aussi que l’univers des relations conceptuelles ainsi créé perd toute utilité du fait de son immensité et de son extrême complexité.

24A contrario, la démarche onomasiologique, découle hiérarchiquement des concepts, ce qui s’accorde parfaitement avec la logique du calcul informatique. Sa relative simplicité d’organisation hiérarchique des concepts (génériques et partitifs) lui permet, au contraire de la démarche sémasiologique, d’être parfaitement utilisable pour modéliser des référentiels multilingues et multiculturels.

25C’est la raison pour laquelle la communauté des normalisateurs terminologues mais aussi des lexicographes a normalisé comme seuls valides les principes et méthodes correspondant à la démarche onomasiologique (ISO 704, Terminologie : principes et méthodes).

26Ils ont ensuite normalisé un catalogue ouvert de catégories de données aptes à définir des données terminologiques ou lexicographiques. (ISO/IEC 12620). Puis ils ont enfin normalisé un cadre commun de mise en œuvre terminotique à même d’assurer l’interopérabilité et la « réutilisabilité » des ressources terminologiques indépendamment des diverses banques de données terminologiques. Ce cadre commun, le TMF (ISO/IEC 16642) nécessite bien sûr que ces différentes bases respectent le métamodèle XML TMF, ou exige que les ressources terminologiques soient reformatées selon ce même modèle.

Le cadre d’interopérabilité entre différentes bases de données terminologiques

27L’intérêt de ces normes de l’ISO-T37 est le fait qu’elles ouvrent un cadre d’interopérabilité entre différentes bases de données terminologiques. Cette interopérabilité est d’abord assurée par l’identité de méthode et du mode de description. Plusieurs bases de données terminologiques qui s’appuient sur la norme ISO704 (principes et méthodes) et ISO/IEC 12620 (catégories de données en terminologie), seront déjà assurées d’avoir constitué des ressources terminologiques qui peuvent (au prix d’efforts informatiques importants mais possibles) être récupérées pour être interopérables entre elles.

28Dès lors, il devient clair que ces 10 dernières années, les efforts terminotiques ont été très importants et se sont focalisés sur le TMF et l’adaptation des nouvelles versions de ISO/ IEC 12620 à ces nouvelles méthodes.

29La terminotique n’a réellement bouclé ses méthodes que grâce aux progrès de l’information structurée (SGML et surtout XML) qui ont permis d’organiser toutes les banques de données terminotiques (notamment les terminologies multilingues) : aussi bien en permettant de concilier la logique lexicographique et la logique terminologique mais en permettant surtout de concevoir un schéma terminotique unique (TMF : Terminological Markup Framework) [7] qui permet d’assurer l’interopérabilité de toutes les banques terminologiques ou lexicographiques tout en autorisant la multiplication quasi à l’infini du nombre de langues que l’on peut souhaiter.

30L’interopérabilité des terminologies dans le futur Web sémantique exigeait notamment un tel choix normatif. Les mécanismes du TMF, et la normalisation des catégories de données permettent précisément de servir de base à la réalisation modulaire d’ontologies, elles-mêmes en cours de standardisation par le W3C (langage OWL).

La logique du schéma TMF

31Le TMF est un métamodèle, ce qui signifie en pratique qu’il pourra s’instancier en un grand nombre de schémas applicatifs, intercompatibles entre eux et répondant tous à une même logique XML.

32Le TML est ainsi défini selon une logique hiérarchique par niveaux :

figure im1

33TDC (Terminological Data Collection). Ce niveau est celui de la base elle-même.

34GI (Global Information) et CI (Complementary Information). Ce sont deux niveaux (en fait deux registres) dans lesquels sont stockées les données référentielles importantes pour administrer ou faire fonctionner la base. Ces données n’appartiennent pas directement à la collection terminologique.

35Le schéma logique structurel qui permet d’optimiser la démarche onomasiologique s’organise dans les niveaux TE (Terminological Entry), LS (Language Section), TL (Term Level) et TCL (Term Component Level).

Notons que pour simplifier l’exposé nous mélangeons volontairement l’option TMF Cartago et l’exposé fonctionnel du TMF.

36a) TE (Terminological Entry[8]) : malgré son nom c’est exclusivement le niveau du concept. Dans le schéma Cartago, ce niveau est celui d’un identifiant unique par concept [9] (c’est en ce sens que cela justifie la dénomination Terminological Entry). Tous les termes en toutes langues sont traités à un niveau hiérarchique inférieur lié à ce niveau de « l’entrée » et référant tous à ce même identifiant. C’est aussi à ce niveau que l’on peut décrire les caractéristiques du système (ou graphe) de concept : générique ou partitif [10] ;

37LS (Language Section) : comme son nom l’indique, c’est plus une section qu’un niveau. Le LS intégrera tout ce qui est dépendant des langages, et il s’oppose clairement au niveau des concepts. C’est à ce niveau hiérarchique que l’on ouvrira des langues. L’ouverture d’un LS est un préalable indispensable à l’ouverture d’un TL qui est un niveau encore hiérarchiquement inférieur (celui des termes) dans chaque langue (chaque LS) du schéma TMF. Dans Cartago nous ouvrons en LS des descripteurs « definition » qui permettent ici de définir en n langues un même concept situé lui au niveau TE. Cette architecture du schéma est clairement conceptuelle (c’est notre choix Cartago).

38b) TL (Term Level) : c’est à ce niveau que s’ouvrent 1 ou N termes supposés être tous plus ou moins synonymes dans autant de LS qu’il y a de langues dans la base. C’est à ce niveau que peut se faire une description morphosyntaxique des termes. Dans Cartago, nous préférons une description assez sommaire car la description linguistique n’est pas notre propos : genre, nombre, catégorie du discours (nom, adjectif, verbe, syntagme, mots valises…), abréviation, acronyme [11]. Nous décrivons aussi pour les langues non latines la translittération, voire la transcription phonétique qui permet à des experts non pratiquants de ces langues d’en parler avec leurs collègues concernés. Remarquons que formellement nous aurions pu entrer à ce niveau la définition de chaque terme. Ce n’est pas le choix que nous avons fait car nous ne sommes pas un dictionnaire. Ce qui nous intéresse dans Cartago c’est la maîtrise en consensus d’un même concept pour pouvoir échanger des ressources équivalentes ou pratiquement équivalentes. À ce niveau-là ce qui nous intéresse donc, c’est de pouvoir gérer par rapport à chaque terme en toute langue sa spécificité sémantique par rapport à la description consensuelle internationale du concept (voire dans la même langue comme l’exemple de la classe 6e ou 1re de l’enseignement secondaire qui référera alors à une catégorie de donnée descriptive que nous autorisons à ce niveau : la spécificité sémantique géographique ou institutionnelle [12]).

39c) TCL (Term Component Level) : c’est à ce niveau que le modèle TMF permet de décrire (comme son nom l’indique) les composants d’un terme. Dans le cas concret du SC36 et dans beaucoup de terminologies d’instances normatives, nous devons gérer une proportion importante de mots valises ou de syntagmes [13]. Cartago a fait le choix d’activer ce niveau du TMF, bien qu’il ne soit pas obligatoire et que beaucoup de terminoticiens le considèrent comme un niveau de détail inutile. Formellement, chaque élément d’un terme composé dans chaque langue permet d’ouvrir un TCL (Term Component Level). On ouvrira donc autant d’items pour un terme qu’il y a de composants dans le terme. L’utilité réside en ce que ce TCL facilite une vision comparée (largement multilingue et potentiellement sémantiquement assistée [14]) des modes de génération des nouveaux concepts d’un champ terminologique donné (néologismes ou néonymes [15]). Cela permettra d’assister le travail des commissions nationales de terminologies techniques qui proposent et/ou cherchent à imposer des mots composés souvent très lointains les uns des autres dans des langues pourtant cousines comme le français et l’anglais. Pour blended learning on trouvera comme équivalent français « apprentissage hybride », « apprentissage bimodal » et « apprentissage mixte » (ref. ISO/IEC 2382-36). Les langues sont comme les locuteurs qui les parlent mais nous pensons que pouvoir mettre en évidence les éléments de composition des termes composés est d’une grande utilité pour la compréhension réelle d’un concept (souvent mal compris quand il s’agit d’innovations par les communautés de langue étrangère qui cherchent à s’approprier ce concept en émergence). Nous pensons ainsi que ce niveau de Cartago sera (est déjà) très utile pour proposer la création de nouveaux termes (le plus souvent nécessairement composés) pour élaborer des terminologies techniques dans des langues qui ont subi des pertes de domaines linguistiques [16] importantes. Cela permet, en effet, aux experts terminologues de ces langues de comparer des patrons types de mots composés réutilisables éventuellement dans leur communauté linguistique [17].

Les profils d’application du schéma TMF

40En explicitant le TMF à partir de son application Cartago, nous avons déjà introduit la notion de profils d’application du schéma TMF. Dans le domaine de la terminologie normalisée, comme dans la plupart des autres domaines de normalisation, le but n’est pas d’uniformiser mais de rendre inter-compatible, réutilisable, de pouvoir fédérer ensemble plusieurs applications de bases de données terminologiques.

41Par exemple, dans quelques années Cartago aura recueilli de très nombreuses données terminologiques sur les TICE mais aussi sur les pratiques pédagogiques, les modes de diplomation, l’offre pédagogique, les institutions, la formation en entreprises, des industries des TICE, les éditeurs de ressources pédagogiques... D’une part, Cartago aura eu besoin de réutiliser des données terminologiques ou des nomenclatures qui auront été produites par d’autres producteurs de ressources terminologiques et, d’autre part, Cartago pourra vouloir échanger des données ou les décliner sous d’autres formes (des dictionnaires, des annuaires...).

42Créer des terminologies pour les différentes applications que nous venons de citer ne correspond pas aux mêmes besoins fonctionnels de description et de ce fait nécessite que le TMF adapte son métamodèle et permette autant de nouvelles instanciations (ou schéma XML applicatif). L’intérêt du TMF tient à ce que tous les profils d’application TMF soient compatibles et interopérables entre eux au niveau du métamodèle.

43Nous y avons déjà fait allusion en expliquant le TMF.

44Ainsi, une application comme Cartago va nécessiter une définition unique par concept (quitte à mettre en parallèle cette même définition co-élaborée, plutôt que traduite, en plusieurs langues). Par contre, Cartago n’a pas pour objectif prioritaire de définir chacun des termes correspondant dans chaque langue.

45Par contre, un dictionnaire [18] sur « les TICE et l’éducation » généré à partir des données Cartago devra, au contraire, disposer de ces définitions attachées directement aux termes. Cependant, les éditeurs de ce dictionnaire utiliseront sans doute certaines des données de description morpholinguistique que Cartago prévoit dans la section du terme (TS). Il est vraisemblable par contre qu’ils n’utiliseront pas les données du TCL (composants du terme).

46Cela signifie que chaque projet terminologique devra définir sur un schéma applicatif adapté à sa finalité, suffisamment exhaustif pour que les données saisies au début du projet n’aient pas à être totalement révisées quand les données auront atteint une masse critique importante (ce qui représenterait un assez gros travail). Par contre il ne faut pas non plus que le travail sur chaque entrée terminologique soit tel que les créateurs de ressources terminologiques renoncent à les renseigner. Dans le cadre de l’Alliance Cartago, nous avons ainsi conscience que les catégories de description morphosyntaxique touchent à leur limite en sortant des langues sémitiques ou indo-européennes. Les langues du Sud-Est asiatique, les langues africaines nécessiteront sans doute que nous modifions le schéma applicatif Cartago à ces niveaux de détail (vraisemblablement de simples adjonctions sans toucher à la structure). Bien sûr il est toujours possible de remédier à ces difficultés ou ces manques grâce à des notes prévues à chaque niveau structurel du schéma Cartago, mais il va de soi que des données descriptives mises en notes, n’auront pas la faculté d’être aussi facilement exploitables.

47Notons enfin que dans les catégories de description, il est prévu des descriptifs spécialisés pour la gestion administrative des données : les contributeurs, leurs rôles, les dates de contribution, de vérification, de révision, etc. De façon systématique, chaque terminologie est obligée de recourir à ces catégories de gestion administrative, mais dans le cas de terminologies dédiées à la normalisation (ce qui est le cas de celles fédérées dans l’Alliance Cartago), ces questions doivent être aménagées avec le plus grand soin pour pouvoir qualifier les différents niveaux du process normatif (CD, FCD, DIS, FDIS, Norme internationale, Norme internationale révisée), mais aussi qualifier plus trivialement les diverses contributions terminologiques en n langues et leur validation dans le process Cartago interne.

Facilité éditoriale grâce à XML

48Le TMF repose intégralement sur la logique XML. Il est maintenant très connu que les informations disponibles sur un schéma XML peuvent être facilement exploitées grâce à des « feuilles de styles » ad hoc pour générer diverses applications éditoriales.

49C’est ainsi que, même si nous avons dans l’Alliance Cartago, beaucoup plus d’informations sur chacune des entrées terminologiques de la norme terminologique du SC36 (ISO/IEC2382- 36), nous pouvons très facilement éditer un document (numérique ou papier) absolument conforme au format prévu par le SC36WG1 (listes bilingues en parallèle organisées en 7 sections thématiques ne comportant que les numéros identifiants, les termes et les définitions, suivis d’index alphabétiques). Nous avons pu ainsi montrer au SC36 qu’il nous était facile de mettre en parallèle d’autres langues. La compatibilité de la base la plus sophistiquée (Cartago) vers celle qui l’est moins (le vocabulaire du SC36) est bien sûr évidente.

50Nous savons par contre que pour générer des dictionnaires multilingues sur les TICE, cela nécessiterait de compléter (et en partie de reconstituer) des données manquantes. Dans ce cas, ce n’est pas la seule feuille de style qui permettrait de résoudre le problème, mais plutôt la création d’un nouveau schéma applicatif TMF, commun aux deux applications visées : les listes bilingues de vocabulaires destinées au SC36 et la base terminologique largement multilingue pour Cartago.

MPEG & JPEG

51Les normes du multimédia impactent à l’évidence sur l’e-learning et sur le développement futur des normes du SC36 (nous y avons fait allusion plus haut). Elles impactent et impacteront beaucoup plus dans le futur sur les modalités documentaires (MPEG7 notamment) et les modes de gestion du multimédia, donc de la BNB (Bibliothèque numérique berbère) et des ressources documentaires.

52Au moment où nous mettons sous presse, notons que ConvergMPEG-SCORM (Moving Picture Experts Group – Sharable Content Object Reference Model), un projet financé par le CNRS-ISCC (Institut des sciences de la communication du CNRS – Centre national de la Recherche scientifique) à été mis en place. Il vise précisément à développer l’hypothèse des convergences entre la TV et la radio scolaire d’une part, la téléphonie mobile et les normes des TICE (plus particulièrement SCORM et le SC36) d’autre part.

53Là encore, nous pensons que la communauté des experts algériens devrait se mobiliser pour préserver là aussi les spécificités culturelles et linguistiques.

Conclusion

54La participation à ce type de workshop n’appelle aucune conclusion définitive. Il faut seulement émettre le vœu que les travaux entrepris en commun s’intensifient et se multiplient. La Maison des Sciences de l’Homme de Paris Nord, le Laboratoire Paragraphe, le Leden (Laboratoire d’Évaluation et de Diffusion de l’Édition numérique), l’Ailf (Association des Informaticiens de Langue française), l’Alliance Cartago, la liaison A de l’Auf au SC36, des projets financés comme la BNB ou ConvergMPEG-SCORM autant d’instances se sont mobilisées pour travailler en commun pour développer des projets concrets ou des recherches à plus long terme. Il est certain qu’elles continueront.


Date de mise en ligne : 02/02/2020

https://doi.org/10.3917/edb.028.0197

Notes

  • [1]
    Certes, nous savons bien qu’il existe un certain nombre de recherches permettant d’effectuer des reconnaissances sémantiques directes à partir du matériel oral. Cependant, jusqu’à preuve du contraire ces travaux de recherche transcrivent automatiquement l’oralité en texte et calculent la sémantique de ces « conversations » à partir de terminologies, d’ontologies, de patterns de phrase stockés en machine sous forme de textes, même si le but visé consiste à cacher à l’utilisateur ce « passage par le texte ».
  • [2]
    Ou plutôt le e-sémantique si on ne souhaite pas lier absolument au web le destin global de cette activité.
  • [3]
    OWL (Ontological Web Language, « owl » chouette en anglais étant l’attribut d’Athéna) pour ce qui est du projet le plus abouti constituant une « recommandation du W3C ».
  • [4]
    Non seulement le nom et le scope de l’ISO TC37 mais le nom et le scope de ses 4 sous-comités :
    Titre général : Terminology and other language and content resources. Scope général : Standardization of principles, methods and applications relating to terminology and other language and content resources in the contexts of multilingual communication and cultural diversity ; SC1 : ‘‘Principles and methods ; SC 02’’ ‘‘Terminographical and lexicographical working methods’’ ; SC 03 : ‘‘Systems to manage terminology, knowledge and content’’ ; SC 04 : ‘‘Language resource management’’.
  • [5]
    Bien sûr des mots isolés mais aussi des mots valises, des mots composés, des syntagmes.
  • [6]
    Éventuellement dans le meilleur des cas celui des patients eux-mêmes.
  • [7]
    Un cadre de mise en œuvre normalisé pour la terminotique, lui-même lié au TML (Terminological Markup Language), un langage XML spécialisé (en fait une DTD) pour l’expression des données terminologiques.
  • [8]
    On ne peut changer (sauf révision de la norme) ce qui a été normalisé, mais certains experts s’accordent pour convenir qu’à ce niveau l’adjectif « conceptual » aurait été plus clair que « terminological ».
  • [9]
    La logique qui consiste à identifier chaque entrée terminologique (chaque concept) uniquement par un identifiant (numérique ou alphanumérique) est méthodologiquement indispensable. Il s’agit clairement d’affirmer que le concept n’équivaut pas aux mots pour le dire. Dans la pratique l’utilisateur peut toujours recourir à une facilité de rappel automatique du terme vedette le plus proche du concept (soit dans la langue de référence, soit dans sa propre langue. Mais cette commodité d’interface ne doit jamais faire oublier que le concept n’est pas un terme. On peut même envisager de proposer une image fixe ou une vidéo (mais en gardant présent à l’esprit, selon le mot de Magritte : « ceci n’est pas une pomme ! » ; autrement dit le concept n’est pas le mot.
  • [10]
    On peut envisager de décrire aussi des relations d’autre nature, dépendance, inclusion, relation... mais hors des 2 premières (générique ou partitive), on quitte le domaine des terminologies pour être dans celui des ontologies. Le modèle TMF autorise cependant ce type de catégorie de description.
  • [11]
    Comme on le développera plus tard, la maîtrise des sigles et acronymes est très importante pour la normalisation. Nous devons pouvoir ainsi gérer comme « termes synonymes » : ISO/IEC JTC1 SC36, sa forme courte (short form) SC36 ou même (ce qui est en principe incorrect) ISO SC36, voire ISO/CEI JTC1 SC36 ainsi bien sûr que les formes développées de ces sigles.
  • [12]
    On remarquera en effet que la dénomination de 1re pour la classe des plus jeunes de l’enseignement secondaire dans le canton de Genève ne peut être qualifiée de « français suisse romande » car ce même niveau scolaire devient 6e dans le canton de Vaux. Ce n’est pas non plus strictement géographique mais institutionnel car le lycée français de Genève définit aussi ce même niveau comme classe de 6e. On conçoit bien que ce type de spéculations peut apparaître très stérile pour des traducteurs. Il conviendra en fait d’établir l’interopérabilité internationale de ressources pédagogiques numériques (par exemple des échanges régionaux entre Lyon et Neuchâtel).
  • [13]
    Enseignement à distance, style d’apprentissage, ingénierie pédagogique, système d’apprentissage distribué basé sur la technologie, e-apprentissage, m-learning, etc.
  • [14]
    Voir plus bas l’intérêt de translittérer à ce niveau comme à celui des termes, et de proposer aussi pour les composants d’un terme des traductions mot à mot.
  • [15]
    On peut lire à ce sujet Desmet (Isabel), « Néologie de spécialité et néologie banalisée en informatique et TIC : de la recherche aux dictionnaires de langue générale », in La langue française dans l’aventure informatique, collection Lexipraxi, éd. AILF, Paris 2006 pp. 159-174.
  • [16]
    Nilsson (Henrik), « Perte de domaine : indicateurs et enjeux », in La langue française dans l’aventure informatique, (déjà cité), pp. 149-158.
  • [17]
    Il nous semble utile de développer un exemple. Bien sûr nous admettons volontiers qu’il n’est pas dans le droit fil du mode de génération des termes en français que d’utiliser un patron linguistique du type e-learning, m-learning, (pour mobile-learning) t-learning (pour [digital]television-learning) ; et pourtant, les avantages de ce type de patron linguistique sont très avantageux pour garder une cohérence dans la déclinaison d’une famille de concepts. La déclinaison de nouveaux termes est très simple et le lecteur sait qu’il a affaire à la déclinaison du même concept technique sur un autre champs d’applications (la santé, le commerce, etc.). D’une part dans la plupart des langues latines e-, m- ou t- se comprendra aisément car les termes anglais correspondant sont anglo-normands donc des racines latines. D’autre part, même si on remplace e-governement ou e-learning par e-gouvernement ou e-enseignement, il sera beaucoup plus facile pour un lecteur non natif de comprendre de quoi il s’agit que si on doit traduire des syntagmes compliqués, voire des sigles totalement incompréhensible, pour un non francophone (FOAD par exemple).
  • [18]
    Ou des dictionnaires bi- ou multilingues.

Domaines

Sciences Humaines et Sociales

Sciences, techniques et médecine

Droit et Administration

bb.footer.alt.logo.cairn

Cairn.info, plateforme de référence pour les publications scientifiques francophones, vise à favoriser la découverte d’une recherche de qualité tout en cultivant l’indépendance et la diversité des acteurs de l’écosystème du savoir.

Retrouvez Cairn.info sur

Avec le soutien de

18.97.9.171

Accès institutions

Rechercher

Toutes les institutions