> Accueil > Campus de Rennes > Personnel > Pierre LERAY > Enseignement > Codage Audio Imprimer :
Mon nouveau web ...
Pierre LERAY
 
Accueil
Enseignement
Recherche
Publications

Equipe de recherche SCEE

 
Pierre LERAY   -   Professeur (Equipe SCEE)   -   mail : Pierre LERAY

Chapitre 1. INTRODUCTION

Le signal audio perceptible par l'oreille humaine est caractérisé par une dynamique élevée et un spectre limité à 20 kHz. Un traitement numérique de qualité Hi-Fi impose des paramètres de numérisation, fréquence d'échantillonnage et résolution, menant à des débits de l'ordre de 800 kbits/s, soit 360 Mo pour 1h de son mono. Pour accroître la qualité de l'ambiance sonore, on augmente le nombre de voies ; ainsi le standard de codage Dolby-AC3 utilise 5 voies plus 1 voie de basse. La quantité d'information binaire nécessaire croît dans le même rapport.

Apparaît alors la nécessité de coder et de compresser ce signal audio multi-voies afin de pouvoir transmettre et archiver ces informations avec un débit et sur des supports de capacité acceptable, tout en conservant une excellente qualité de restitution.

Nous allons aborder les différentes techniques mises en œuvre dans ces opérations de compression du signal audio en distinguant le signal audio large bande et un sous-ensemble que constitue le signal parole.

Chapitre 2. NUMÉRISATION DU SIGNAL AUDIO

La première étape dans l'opération de codage numérique du son consiste à numériser le signal audio analogique.

2.1 Choix de la fréquence d'échantillonnage

D'après le théorème de Shannon, la fréquence d'échantillonnage assurant un non repliement du spectre doit être supérieure à 2 fois la fréquence haute du spectre du signal analogique.

Le signal audio pleine bande est caractérisé par un spectre s'étalant de 20 Hz à 20 kHz, nécessitant une fréquence d'échantillonnage supérieure à 40 kHz. La réduction de cette bande, notamment dans le cas du signal parole, autorise l'utilisation d'une fréquence d'échantillonnage réduite.

Le tableau suivant présente quelques valeurs courantes :

Spectre du signal
Fréquence d'échantillonnage
Applications
Qualité téléphonique
[300 ; 3 400 Hz]
8 kHz
Téléphonie
Qualité "bande élargie"
[50 ; 7 000 Hz]
16 kHz

22 kHz
PC, audio-conférence (ADPCM)
Haute qualité en radiodiffusion
[50 ; 15 000 Hz]
32 kHz
DAB, NICAM
Qualité "Hi-Fi"
[20 ; 20 000 Hz]
44.1 kHz

48 kHz
CD Audio, Studio numérique, DAT

2.2 Choix du nombre de bits par échantillon

Le nombre n de bits utilisés pour le codage des échantillons détermine l'erreur de quantification maximale proportionnelle à 1/2n. Dans le cas d'une quantification linéaire (pas de quantification constant sur toute la plage de conversion), on exprime l'erreur due à la quantification sous la forme d'un rapport Signal à Bruit (SNR : Signal to Noise Ratio) dont l'expression est la suivante :

Ainsi, en incrémentant le nombre n de bits d'une unité, on augmente le rapport SNR de 6 dB.

Le tableau suivant présente quelques exemples :

Qualité "Hi-Fi"
16-18 bits
SNRdB 95 dB
Codage la parole, NICAM
14 bits
SNRdB 80 dB
Codage son PC
8 bits
SNRdB 40 dB

2.3 Quantité d'information binaire

Le produit fréquence d'échantillonnage x nombre de bits par échantillon détermine la quantité d'éléments binaires nécessaire pour numériser une voie sonore.

Dans le cas d'un son de qualité "Hi-Fi", on obtient des valeurs de l'ordre de 800 kbits/s par voie, soit 100 ko/s par voie. L'amélioration de la restitution sonore passe par l'augmentation du nombre de voies. Le son numérique multicanal est déjà entré dans les salles de cinéma depuis quelques années. Différents systèmes (le DTS : Digital Theater System - l'AC3 ou SRD , le DSP : MPEG layer II) offrent 5 ou 6 voies indépendantes codées numériquement et inscrites sur le film ou sur un CD-ROM. Dans le domaine de la télévision, la stéréophonie a été introduite par le procédé NICAM. Avec la télévision numérique semblent émerger 2 standards de son numérique, le codage AC3 et le codage MPEG-2, le premier proposant un format 5.1 (5 voies "pleine bande" plus 1 voie sous-grave) et le second, plus flexible, couvrant des configurations allant de la stéréophonie classique jusqu'au format 7.1.

On obtient alors des débits de 4 à 5 Mbits/s. La réduction significative de ce débit conduit au développement de techniques de compression s'appuyant sur une modélisation de l'oreille (codage perceptuel), l'objectif prioritaire étant d'assurer une restitution sans dégradation perceptible. Un taux de compression d'un facteur 8 à 12 mène à des débits de l'ordre de 300 à 400 kbits/s pour un son multicanal 5.1.

Configuration 5.1

Les techniques mises en œuvre dans la compression de la parole visent en premier lieu à atteindre un taux de compression élevé, afin de minimiser la largeur du canal nécessaire à sa transmission. Ainsi, pour un signal parole échantillonné à 16 kHz et codé sur 14 bits, le débit initial de 224 kbits/s pourra être réduit à 32 kbits/s, voire même à des débits beaucoup plus faibles de 4,8 kbits/s.

Chapitre 3. MODÉLISATION DE LA PAROLE ET DE L'OREILLE

Le flux d'air en provenance des poumons est modulé par les cordes vocales, créant des ondes de pression qui se propagent à travers le conduit vocal. Ce dernier, constitué des cavités orales et nasales, se comporte comme un filtre caractérisé par des fréquences de résonance appelées formants.

Les sons de parole peuvent être classés en 3 catégories :

  • les sons voisés : les cordes vocales vibrent de façon quasi-périodique. Le signal de parole est alors quasi-périodique et est caractérisé par sa fréquence fondamentale appelée pitch. Typiquement, la période fondamentale des différents sons voisés varie entre 2 et 20 ms.
  • les sons non voisés : les cordes vocales ne vibrent pas. L'air passe à haute vitesse entre les cordes vocales. Le signal produit est équivalent à un bruit blanc.
  • les plosives : ces sons sont obtenus lorsqu'on libère soudainement l'air comprimé par fermeture totale du conduit vocal.

'a' 'ou'

Sons voisés

Mise à jour : le 20/05/2009 13:00

 
Copyright Supélec   | Intranet | E.N.T. | HAL (Supélec) | Contacts |