Couverture de DOCSI_426

Article de revue

Formats numériques vidéo : principes et utilisations

Pages 375 à 382

1DEPUIS LES PREMIERS PHONOGRAPHES à cylindres et l’invention de la cellule au sélénium capable de convertir la lumière en électricité dans les années 1880, les techniques appliquées à l’audiovisuel évoluent de façon constante. D’abord analogiques, c’est-à-dire représentés par des grandeurs physiques directement proportionnelles à des niveaux de pression acoustique ou des niveaux de lumière, l’enregistrement, le stockage et la restitution du son et de l’image animée passent désormais par l’utilisation intensive du numérique. La mutation, amorcée dans les années 1980 par quelques équipements professionnels dédiés aux trucages et à la post-production, s’est ensuite étendue dans les années 1990 avec les progrès exponentiels de l’industrie informatique et les techniques de compression.

2Pour mieux appréhender les nombreux formats numériques actuels et en devenir, leurs qualité, structuration et normes, il est utile de rappeler d’abord les bases appliquées depuis l’origine de la télévision. Les points qui suivent développent les choix et compromis qui ont prévalu à la transmission « télé » (au loin) des grandeurs physiques en jeu pour le son et l’image animée. Nous verrons ainsi à chaque étape se dessiner la vidéo « numérique » lisible aujourd’hui en environnement informatique.

1 – Les grands principes techniques

3Trois opérations de base définissent le système technique complexe « télévision »: analyse, transmission et synthèse.

4Dans le cas d’une transmission de signaux sonores, la grandeur physique en jeu correspond à une évolution dans le temps de la pression acoustique au niveau de la source. Le microphone assure la conversion de la pression acoustique en signal électrique : c’est l’analyse. La transmission de ce signal est ensuite possible par les voies de communication définies en fonction de l’usage (voie hertzienne pour la radio, câble pour le téléphone). La synthèse est réalisée par conversion inverse du signal électrique en pression acoustique. Le haut-parleur déplace les molécules d’air en fonction du niveau électrique reçu.

5En ce qui concerne l’image animée, l’analyse transforme l’image cadrée en signal vidéo. En dehors des caméras, il existe d’autres systèmes qui assurent cette fonction, comme le télécinéma pour une source film. La transmission ou diffusion transporte le signal vidéo jusqu’au récepteur. Les liaisons s’effectuent par câble, par voie hertzienne terrestre ou satellitaire. La synthèse transforme le signal vidéo en image sur écran. C’est le rôle du tube cathodique ou des matrices actives à cristaux liquides (LCD, pour liquid cristal display) ou Plasma. Contrairement à la pellicule film où l’image est fixée, c’est le système de reproduction de la vidéo qui génère une image. Celle-ci n’a en effet aucune existence avant la synthèse.

Le format de l’image

6Comme toute représentation d’images, la vidéo s’inscrit dans un format. Il en existe de nombreux en photographie ou en cinéma. Le format est donné par le rapport largeur/hauteur ou plutôt horizontal/vertical de l’image utile.

7Dès l’origine, la télévision a retenu le format 4/3. La taille de l’écran, beaucoup plus faible que celle de l’écran de cinéma et plus proche du carré, est bien adaptée aux directs et à l’information.

8Toutefois, la technologie appliquée aux traitements des signaux vidéo ainsi que la généralisation de dispositifs de reproduction plus grands et de formats 16/9 changent de façon évidente les modes de consommation de l’image de télévision. Principalement utilisé pour les informations et l’événementiel, le direct ne représente plus qu’une faible part du temps d’antenne. Avec une consommation de films dans les salons qui dépasse celle en salle et l’apparition de la TVHD (télévision haute définition), le format « télévision » s’élargit et relègue doucement l’antique petite lucarne au rayon des antiquités.

9Les tubes ainsi que les écrans à matrice active sont, par construction, de format soit 4/3 soit 16/9. Passer d’un mode à l’autre induit l’apparition de bandes noires sur les côtés de l’image. Un zoom ou une anamorphose (déformation non proportionnelle de l’image) sont toujours possibles, mais ils impliquent des pertes d’information et des déformations géométriques incompatibles avec le cadrage initial du plan. La vidéoprojection permet de s’affranchir du format initial en éclairant uniquement la partie utile de l’image.

10Les fichiers vidéo numériques s’inscrivent à l’intérieur d’un espace image sur un écran d’ordinateur. Tous les formats sont donc possibles par réduction de la taille pour cadrer dans l’espace d’affichage. Les contraintes sont donc similaires à celles imposées par les télévisions, mais avec une plus grande souplesse, la zone d’affichage pouvant être adaptée plus librement.

L’image vidéo

11L’écran est divisé en cellules (ou points de lumière) élémentaires appelées pixels (contraction de l’anglais picture element). À chaque pixel correspond un niveau électrique. Les pixels sont structurés en ligne et les lignes s’empilent pour former une image. L’analyse appelée balayage en télévision se fait de gauche à droite et de haut en bas.

12La caméra analyse selon ce principe une cible (capteur) sensible à la lumière. Elle délivre ensuite un signal sur lequel le moniteur ou le téléviseur est synchronisé pour produire, au point d’impact du faisceau d’électrons et de la surface émissive de l’écran du tube cathodique, un niveau de lumière proportionnel. Contrairement à la photographie ou au film qui intègre une représentation physique sur support chimique (la pellicule), l’image vidéo n’existe que dans le temps. En effet, à un instant t infiniment court, une grandeur physique électrique ne peut avoir qu’une et une seule valeur.

13L’image cathodique est en fait un point lumineux se déplaçant à très haute vitesse. C’est la rémanence (temps de maintien avant extinction de la lumière au point d’impact) du tube et notre propre persistance rétinienne (temps de maintien de l’impression de lumière sur la rétine) ainsi qu’un important travail de notre cerveau pour compenser les manques qui nous permettent de reconstituer l’image. Cette notion de balayage devient moins évidente avec l’utilisation des écrans à matrice active. Dans ce cas, la lumière est continue et l’image proposée en un seul passage.

14L’analyse séquentielle en ligne et de haut en bas est toutefois toujours appliquée.

La fréquence de l’image

15Notre œil ne voit pas un certain nombre d’images par seconde. Il est en perpétuelle analyse et fonctionne plutôt par différences de mouvement et de lumière.

16En film comme en vidéo, pour permettre le stockage et la diffusion, la segmentation du temps en un certain nombre d’images par seconde s’impose. C’est ce qu’on appelle la fréquence image. Afin de ne pas percevoir de rupture, ou de discontinuité de mouvement, il est nécessaire d’avoir une fréquence image assez élevée pour tromper notre vision. Plus la vitesse de rafraîchissement sera élevée, plus les mouvements, pourtant saccadés par ce principe d’échantillonnage, nous paraîtront fluides. Le choix a été arrêté sur 24 images par seconde pour le film. C’est la limite inférieure. Il n’est pas rare, en effet, de sentir un phénomène de saccade sur les mouvements rapides ou les panoramiques plan large au cinéma. Cette fréquence image n’est cependant pas adaptée à notre perception de la lumière. Le rafraîchissement de l’écran en lumière doit être deux fois plus rapide pour empêcher le scintillement (flicker en anglais). Pour compenser ce manque de vitesse, à la projection, la même image film est éclairée deux fois. La fréquence des « éclairs » et donc de la lumière envoyée sur l’écran est alors de 2 x 24 = 48 éclairs par seconde.

17Pour des raisons techniques liées à la fréquence du secteur électrique (50 hertz pour l’Europe), la fréquence d’analyse de la vidéo a été choisie égale à 25 images par seconde. Chaque image est elle-même composée de deux trames, l’une composée des lignes paires et l’autre des lignes impaires, ce qui augmente la fréquence d’éclairement dans un rapport 2. Les trames sont entrelacées. Les lignes de la trame 2 s’intercalent entre les lignes de la trame 1.

18Capturer un certain nombre d’images par seconde revient à faire de l’échantillonnage, c’est-à-dire analyser et enregistrer une trame tous les cinquantièmes de seconde dans le cas d’une vidéo à 25 images/seconde. Bien sûr, si la vitesse d’analyse n’est pas suffisante, des phénomènes parasites peuvent survenir. Il est fréquent de remarquer au cinéma ou à la télévision que les roues d’un véhicule semblent tourner à l’envers du sens normal d’avancée. C’est une des aberrations que peut engendrer une fréquence d’échantillonnage trop faible par rapport au phénomène à analyser.

19Enfin, le séquençage du film, à 24 images par seconde, est incompatible avec le séquençage incompressible de la télévision à 25 images par seconde. Les films diffusés en télévision ou faisant l’objet d’une édition vidéo cassette, CD vidéo ou DVD vidéo, sont donc passés à une vitesse de 25 images par seconde. Il en résulte une durée moindre par rapport à l’original dans un rapport de 24/25es. Ainsi, un film de 90 minutes aura une durée télévision ou vidéo d’environ 87 minutes. L’augmentation sera sensible également aux oreilles des musiciens avec un son général au quart de ton supérieur.

La fréquence de l’image en environnement informatique

20Plus la fréquence de rafraîchissement est élevée, plus stable semble l’image, ce qui explique les fréquences plus hautes retenues pour les écrans informatiques.

21Contrairement à la vidéo entrelacée, l’affichage informatique est progressif. Les images proposées sont systématiquement en pleine définition verticale. Passer d’un monde à l’autre pose quelques problèmes : les images vidéo sont désentrelacées sur un écran informatique, ce qui les dédouble désagréablement. Les transitions obliques souffrent plus particulièrement avec l’apparition d’un effet d’escaliers particulièrement marqué sur les séquences à déplacement rapide.

La définition de l’image

22Ce facteur important détermine la qualité ou la finesse d’analyse d’une image. Il a été défini en fonction du pouvoir séparateur de l’œil (capacité à discerner les détails). À une distance théorique, fonction de la diagonale de l’écran, les lignes ne doivent pas être discernées. Le nombre de pixels par ligne, en admettant que l’œil ait la même définition verticale qu’horizontale, est ensuite donné par le nombre de lignes utiles multiplié par le rapport du format.

23Une image vidéo au format 4/3 possède une définition théorique de 720 par 576 points (ou pixels).

24L’image film est généralement très supérieure en définition, avec des nombres de points en ligne pouvant dépasser les 4.000. La finalité de reproduction sur écran de plusieurs mètres de base n’est pas comparable à la taille réduite de l’image de télévision. De même, le travail sur écran informatique qui impose une plus grande proximité induit une finesse généralement supérieure des moniteurs dans ce domaine et l’affichage d’un nombre beaucoup plus élevé de pixels (1024 x 832, 1280 x 1024, etc.).

La couleur

25La lumière est assimilée à un rayonnement électromagnétique dont le spectre visible par l’œil humain s’étend des ultra-violets aux infra-rouges. Les longueurs d’onde de notre spectre visible s’étendent théoriquement de 380 nm (nanomètres, soit 10-9 mètre) pour le violet à 765 nm pour le rouge. Une lumière quelconque est constituée d’une ou plusieurs composantes couleurs. Une déviation par réfraction au travers d’un prisme permet de mettre en évidence la décomposition d’une source. L’arc-en-ciel constitue sans doute la manifestation la plus évidente de cette expérience.

Les normes de compression les plus utilisées pour l’image

Jpeg(Joint Photographic Expert Group) applique à l’image un découpage en matrices élémentaires. Cette compression est dédiée à l’image fixe et s’applique principalement aux photos en PAO (publication assistée par ordinateur).
M-Jpeg ou Motion Jpeg est une évolution du Jpeg pour les séquences d’images en mouvement. Le M-Jpeg est utilisé pour les caméscopes amateurs et, avec des taux plus faibles de compression, les caméscopes professionnels, les systèmes de montage non linéaires (stations de montage virtuel) et les serveurs vidéo des régies finales de diffusion. Dans cette famille de codecs se trouvent, entre autres, les formats DV (DV 25, DV 50, DV 100) ainsi que les formats DVCPRO et DVCAM.
MPEG-1 (Moving Picture Expert Group). C’est un exemple remarquable de normalisation menée par l’ISO et finalisée en 1993 (ISO/IEC 11172). Ce codage permet des débits de l’ordre de un Mbits/s qui lui ouvrent, à la fin des années quatre-vingt-dix, la voie des applications multimédia (CD-Rom, CDI) et des échanges entre ordinateurs. Le MPEG-1, pour réaliser cette très forte réduction de débit, utilise une image SIF ou quart d’écran (352 x 288 pixels). Ce n’est donc pas un format de diffusion mais plutôt un standard fiable et économique pour la consultation des documents en environnement informatique. Le MPEG-1 utilise généralement des GOP de 12 images, c’est-à-dire avec deux images pivots par seconde.
MPEG-2 a été finalisé en 1995 avec la norme ISO/IEC 13818. Il s’appuie sur une compression et une compensation de mouvement pour permettre une bonne qualité d’image dans une très large gamme d’applications. Contrairement au MPEG-1 qui vise le bas débit, MPEG-2 traite toutes les résolutions d’image depuis le format SIF jusqu’à la TVHD (télévision haute définition à opposer à la télévision SD, Standard Definition, actuelle). C’est la norme mondialement utilisée pour la diffusion des bouquets satellites et l’édition des DVD vidéo.
MPEG-4 (version 1 en 1998, version 2 en 1999), nativement dédié aux échanges multimédias entre ordinateurs, s’appuie sur les principes de QuickTime (format multimédia d’Apple) en définissant un « container » et une façon de synchroniser plusieurs informations dans le temps. Il ne définit cependant pas le type de compression vidéo mais permet l’utilisation de nombreux codecs (algorithmes de compression / décompression). MPEG-4 vise plusieurs catégories d’applications : très bas débits (40 à 64 kbits/s) pour la diffusion sur Internet et la téléphonie mobile, moyens débits (1,5 à 2 Mbits/s) pour la diffusion et le stockage de films sur support multimédia de type CD ou DVD, et enfin haut débit (supérieur à 2 Mbits/s) pour la télévision SD et HD. Avec la normalisation du codec H264 en 2003, qui améliore sensiblement la qualité de la vidéo à débit équivalent, MPEG-4 se positionne pour les années à venir comme le remplaçant naturel du MPEG1 et du MPEG2.
DivX est un dérivé du MPEG-4. Il s’est rendu très populaire grâce à sa capacité à faire tenir un film DVD vidéo complet sur un simple CD-Rom en conservant une qualité d’image honorable, d’où sa réputation d’outil de piratage pour copier illégalement des DVD vidéo. Fort de son succès d’usage, le DivX est désormais un format placé sous licence et exploité par la société DivX Networks.
MPEG-7 (standard en 2001). Cette norme propose un format d’échange de documents multimédias avec description des contenus et interréaction pour faciliter la recherche et le filtrage d’informations (par exemple, lors du visionnage d’une séquence, il devient possible de « cliquer » sur un objet, de le manipuler, d’obtenir une fiche texte, etc.). MPEG-7 se définit comme multimedia content description interface. Ce format encore peu utilisé permet de nouvelles applications grâce à l’intégration de métadonnées synchronisées avec le flux audiovisuel. Ainsi, on peut envisager des vidéos « cherchables » où sont décrits les principaux objets et personnages apparaissant à l’image, de façon à pouvoir effectuer des requêtes du type « Afficher toutes les séquences où apparaît tel personnage ».
Normes pour la diffusion Réseau / Internet. Dans ce domaine, la guerre des formats bat son plein. Il faut entretenir son ordinateur avec les constantes mises à jour et ajouts de codecs nécessaires à la lecture des flux et fichiers disponibles sur les réseaux. Les principaux formats sont :
  • MPEG-4 (normalisation ISO) ;
  • Windows Media (Microsoft) ;
  • QuickTime (Apple) ;
  • RealVideo (Real Networks) ;
  • DivX (DivX Networks).

26Quelques couleurs primaires, c’est-à-dire des émissions de lumière pures ou monochromatiques, mélangées entre elles, sont à même de reproduire une impression colorée proche de ce que nous voyons en réalité. La synthèse de la couleur pour la vidéo est fondée sur un mélange additif. Le dispositif génère de la lumière colorée ; le mélange des primaires donne du blanc. C’est le contraire dans l’imprimerie qui repose sur un mélange soustractif ; le mélange des primaires donne du noir. Les trois primaires choisies en vidéo et, par extension, pour l’affichage informatique, sont le rouge, le vert et le bleu. (RVB en français ou RGB pour Red Green Blue en anglais). Ils sont obtenus par filtrage à la captation de l’image dans la caméra.

27Une caméra couleur se comporte schématiquement comme trois caméras noir et blanc, une par primaire, qui fonctionnent en parallèle. En sortie, les trois signaux, appelés composantes, représentent un encombrement trois fois plus élevé qu’un signal noir et blanc seul.

28À la restitution, un tube cathodique couleur génère trois faisceaux d’électrons chacun responsable de la lumière dans sa couleur primaire. La surface émissive du tube reproduit une matrice de petits points (ronds ou oblongs) alternativement rouges, verts et bleus. Un triplet rouge, vert et bleu permet l’affichage couleur d’un pixel de l’image.

29Les écrans à matrice active LCD ou Plasma utilisent également des triplets rouge, vert et bleu.

2 – Numérisation et compression numérique

30Numériser un signal vidéo consiste à représenter ce signal par une suite de nombres sous forme binaire. Ceci présente de nombreux avantages. Contrairement aux systèmes d’enregistrement analogiques qui induisent pertes d’information et ajout de bruit à chaque recopie, un système numérique, comme un disque dur, n’a pas de limite théorique en nombre de générations. Une information sous forme de nombres offre des possibilités de traitements par calculs quasi illimitées. Certains effets sans équivalent en analogique deviennent possibles. Enfin, le stockage sur support informatique (disques durs ou mémoire vive) facilite et accélère l’accès. La navigation d’une séquence à une autre est suffisamment rapide pour autoriser, par exemple, les applications de montage virtuel.

31Le passage au numérique ne comporte cependant pas que des avantages. En effet, la vidéo numérique est très gourmande en volume. Si l’on souhaite conserver une haute qualité, il faut accepter en contrepartie de véhiculer et de stocker des volumes considérables d’informations.

32Dans la norme professionnelle 4.2.2 définie depuis 1982, encore appelée norme D1 (pour digital one), l’image vidéo impose un débit net de 166 mégabits/s (plus de 170 millions de « 0 » et de « 1 » par seconde). Chaque image, avec une définition 720 x 576 en 16,7 millions de couleurs, « pèse » environ un méga-octet. Dans ces conditions et sans tenir compte ni des temps d’accès ni des vitesses de transfert, un DVD de 4,7 giga-octets de capacité ne pourrait contenir que 200 secondes d’image vidéo. Les volumes et les vitesses de traitement limitent clairement l’utilisation de cette norme aux équipements professionnels.

33Une opération de compression, ou réduction de débit binaire, est nécessaire.

34Il s’agit de transmettre ou de stocker des données avec le moins possible d’occupation ou de bande passante, par élimination d’informations dans les suites numériques et dans le signal qu’elles représentent.

35Les techniques de compression appliquées à l’audiovisuel suppriment de façon définitive une partie du signal original. Elles sont destructrices, ce qui signifie qu’après compression le signal original ne peut plus être régénéré à l’identique. Cependant, les algorithmes de compression actuels ont pour but de ne supprimer que les informations « les moins importantes », sur la base de l’analyse du système sensoriel humain.

36Le premier niveau de compression consiste à réduire la bande passante de chaque image par suppression des détails et réduction des informations de couleur (l’œil humain y est moins sensible). On parle de compression intra-image. Elle est fondée sur une réduction, appelée aussi décimation, du nombre de pixels et de lignes utiles. L’image « réduite » ainsi obtenue est découpée en macro-blocks (8 pixels par 8 pixels généralement) sur lesquels sont appliqués des algorithmes mathématiques de type DCT (transformée en cosinus discret), du même type que ceux qui sont utilisés pour la compression des images fixes au format JPEG.

37C’est toutefois avec le deuxième niveau de compression, la compression temporelle, que sont obtenus les gains les plus spectaculaires. En effet, dans une même séquence vidéo, les images qui s’enchaînent ne présentent que peu de différences entre elles. Ne coder que ces différences, ce qui est véritablement pertinent, permet de gagner une place importante. Les séquences obtenues après compression présentent une structure en GOP (group of pictures) avec des images intra, appelées images pivots, qui peuvent être restituées indépendamment des images qui les entourent, et des images de différences qui n’ont d’existence qu’en référence aux images adjacentes. Le MPEG-1, l’une des premières normes de compression numérique, utilise généralement des GOP de 12 images, soit deux images pivots pour une seconde d’images. Certains formats d’encodage, qui recherchent un taux de compression très élevé, peuvent exploiter des GOP beaucoup plus longs (20 à 50 images).

38Il existe également de nombreux paramètres et algorithmes mathématiques (transformée en ondelettes, par exemple) qui peuvent intervenir lors de la compression de la vidéo. Il y aura cependant toujours une relation directe entre la qualité finale et le taux de compression appliqué. Les types de défaut engendrés sont nombreux (crénelage, pixellisation, effet de bloc ou de mosaïque, saccade, etc.) Les taux de compression appliqués à l’image peuvent être très élevés (rapport supérieur à mille). D’une manière générale, plus la compression est élevée, avec conservation d’une bonne qualité, et plus les calculs sont lourds et complexes. Cependant les algorithmes (procédés mathématiques) s’améliorent et les puissances machine aussi. La qualité subjective des images restituées suit le mouvement.

Les principaux formats numériques

39En adéquation avec les applications finales et généralement dans une logique d’usage, il existe de nombreux standards de compression vidéo. Les normes de compression les plus utilisées pour l’image sont décrites page 378.

3 – Vers une normalisation des formats ?

40Une production audiovisuelle est désormais déclinée dans plusieurs formats en fonction des usages :

  • faiblement ou non compressée pour la production, la réalisation de « Master » ou le stockage :
    • MPEG-2 (Transport Stream, format de fichier adapté à la transmission) pour la diffusion télévision par satellite, TNT ou ADSL ;
    • MPEG-2 (Program Stream) pour l’édition de DVD vidéo ;
    • MPEG-1 ou MPEG4 pour la diffusion ADSL haut débit ou la consultation informatique ;
  • formats vidéo bas débit pour la diffusion sur Internet.
La normalisation des systèmes de compression et de diffusion induit des enjeux financiers considérables. Beaucoup de systèmes sont en concurrence et la rivalité est féroce entre les principaux acteurs qui visent les mêmes cibles : l’industrie du cinéma, la télévision, la diffusion de vidéos en ligne et les appareils grand public (caméscopes, décodeurs, enregistreurs, etc.). Le choix d’un standard numérique en ce qui concerne la pérennité d’une production ou son archivage impose de partir vers une technologie « mature » et « normée », ce qui, à cause des évolutions permanentes dans ce domaine, est souvent difficile à réaliser.

41Avec une palette de possibilités très élevée, MPEG-4 propose cependant une solution d’unification crédible et devrait assez logiquement s’imposer en diffusion puis en environnement informatique.

4 – Utilisation des formats vidéo numérique compressés

42Plus un format est compressé et plus la complexité de celui-ci l’éloigne d’une structure image par image. Il y a généralement existence de GOP (group of pictures) et les images « pivots », de référence, peuvent se trouver très espacées les unes des autres. À la lecture, le système de décompression doit travailler sur au moins un GOP entier, qui peut correspondre à plusieurs dizaines d’images, pour reproduire la séquence en temps réel. Il est donc particulièrement difficile d’obtenir un défilement fluide en accéléré avant ou arrière puisque, dans ce cas, la décompression doit travailler à x fois le temps réel. Il est également difficile d’utiliser ces modes de compression pour effectuer des opérations complexes de repérage ou de montage sur les fichiers natifs. Les seules possibilités d’édition offertes se situent à un GOP près ce qui est rarement suffisant en production. Il faut donc décompresser, éditer, puis recompresser au final, ce qui implique une perte sensible de qualité par concaténation d’encodage.

43Dans la chaîne audiovisuelle actuelle, il est particulièrement difficile de suivre les multiples générations d’encodages et décodages. Contrairement aux générations en technologie analogique où les problèmes sont progressifs, les compressions et décompressions multiples provoquent des dégradations à effet d’effondrement.

44Les formats de production utilisent des procédés de numérisation et de compression différents de ceux retenus en diffusion. Il n’est pas rare d’exploiter sur son ordinateur une deuxième ou troisième génération d’encodage de qualité très inférieure à ce que pourrait offrir le standard exploité avec une entrée de première génération.

45Enfin, les techniques actuelles de compression utilisent des variations continues de débit (VBR, pour variable bit rate) et de tailles de GOP permettant, au fil de l’eau, d’augmenter ou de réduire le débit en fonction des difficultés et de la complexité des images. Un plan fixe est sensiblement moins difficile à traiter qu’un plan large en panoramique fourmillant de détails.

46En conséquence, la qualité d’une séquence, habituellement constante en analogique, varie en fonction de son contenu et de la compression appliquée dans l’instant.

5 – Les évolutions en cours

47De la définition standard (SD) à la haute définition (HD). Plusieurs facteurs concourent à la mise en place dans les prochaines années de la télévision haute définition. Notre antique « petite lucarne » possède désormais les moyens et les technologies pour évoluer de façon sensible en qualité. Les coûts de production en haute définition sont contrôlés. Les techniques de compression arrivent à maturité en particulier avec MPEG-4 et son codec associé H264 ou AVC (Advanced Video Codec). Avec le satellite, Internet haut débit et la libération prochaine de bande passante liée à la généralisation de la TNT (télévision numérique terrestre), les vecteurs de diffusion existent. Enfin, avec l’amélioration sensible des dispositifs de restitution (écrans de grande dimension et systèmes audio à sources multiples) et une consommation élevée de films au format 16/9, en diffusion, VOD (vidéo à la demande) et sur DVD, la demande est large.

48Le format 16/9 va s’imposer et le nombre de points en ligne ainsi que le nombre de lignes vont augmenter afin de proposer une image plus large et mieux définie. Une nouvelle fois, plusieurs standards et niveaux de qualité sont proposés (720p, 1035i, etc.). Les plus probables sont : le 1080/24p adapté aux productions cinéma (c’est-à-dire 1 080 lignes à une cadence de 24 images par seconde en balayage progressif) et le 1080/50i adapté aux productions télévision (1 080 lignes en balayage entrelacé à une cadence de 50 trames par secondes). Chacun de ces standards propose une définition native de 1 920 points en ligne, ce qui revient à augmenter l’actuelle définition de l’image SD (720 points / 576 lignes) dans un rapport cinq. Les équipements « HD Ready » anticipent dès aujourd’hui la restitution de ces différents standards.

Usage des formats vidéo compressés dans la gestion d’archives audiovisuelles

On assiste depuis quelques années à la généralisation du principe du double encodage en bas et haut débits synchronisés, le format bas débit permettant une consultation via les réseaux informatiques et Internet, et l’usage du format haut débit étant limité à la livraison des séquences sélectionnées en bas débit. Ce principe d’abord adopté par les centres d’archives, comme le dépôt légal de la radio et de la télévision dès 1995, s’est ensuite généralisé au sein des chaînes de télévision et se répand actuellement chez les producteurs et distributeurs, afin de présenter leurs fonds sur Internet.
Les formats utilisés sont généralement le MPEG-2 pour la qualité haut débit, et le MPEG-1 ou des formats propriétaires comme Windows Media 9 pour la qualité bas débit. Dans ce domaine aussi, le nouveau format MPEG-4 est amené à remplacer progressivement ses prédécesseurs, en commençant généralement par la qualité bas débit. Cependant, un problème demeure : les formats MPEG ne sont pas adaptés au montage, du fait de leur utilisation de la compression inter-images. C’est pourquoi certains centres d’archives, qui effectuent beaucoup de montages à base d’archives ou dont les délais de livraison doivent être très courts, ainsi que les chaînes de télévision ont souvent recours à des formats haut débit moins compressés qui n’utilisent pas la compression inter-images, comme les formats de la famille DV (DV25, DVCPRO, etc.) ou les formats issus de la norme MPEG-2, mais qui n’utilisent pas la compression inter-images (formats I-Frame only), comme l’IMX.
David Clemenceau
david. clemenceau@ opsomai. fr

49En ce qui concerne les archives audiovisuelles et hormis certaines sources d’origine film, les formats et standards habituels à la SD continueront d’être appliqués pour leur numérisation. S’il est possible de « gonfler » une archive pour une éventuelle diffusion sur un canal HD, elle sera toutefois toujours et au mieux au niveau des standards et des technologies qui l’ont générée.

6 – Documents multimédias et audiovisuel

50L’unicité de la représentation numérique et la banalisation des techniques et outils de transmission et de stockage ont définitivement fédéré l’information. Textes, liens hypermédias, bases de données, index, images, sons, séquences audiovisuelles cohabitent dans le même espace informatique. Le pas est franchi pour permettre de structurer des documents complexes pouvant contenir et faire intervenir plusieurs acteurs numériques. De nouveaux modes de présentation de l’information apparaissent. Il est par exemple simplement possible d’obtenir de nombreuses informations complémentaires pendant que l’on écoute de la musique (paroles, discographie, photos de l’artiste, partitions, fichiers midi, lien vers un guichet pour acheter sa place pour un prochain concert, etc.). Il faut bien sûr que le document multimédia original intègre ces données. Il y a un enrichissement du média « dominant » par adjonction d’information, mais peut-on encore parler de média « dominant » ? En ce sens, le multimédia ne correspond plus à une simple association d’informations de nature différente dans un même espace. Il existe en tant que document complexe.

51Si les traitements de textes récents permettent d’insérer facilement dans le texte des liens, des index, des images, des sons et des séquences vidéo, construire un document multimédia requiert encore de solides compétences en informatique. Les formats sont multiples et leur restitution doit également respecter les contraintes imposées par les réseaux, les supports de stockage utilisés ainsi que la disponibilité des ressources des plates-formes d’exécution.

52E. R.


Date de mise en ligne : 01/01/2009

https://doi.org/10.3917/docsi.426.0375

Domaines

Sciences Humaines et Sociales

Sciences, techniques et médecine

Droit et Administration

bb.footer.alt.logo.cairn

Cairn.info, plateforme de référence pour les publications scientifiques francophones, vise à favoriser la découverte d’une recherche de qualité tout en cultivant l’indépendance et la diversité des acteurs de l’écosystème du savoir.

Retrouvez Cairn.info sur

Avec le soutien de

18.97.9.174

Accès institutions

Rechercher

Toutes les institutions