|
Chapitre 1. INTRODUCTION
Le signal audio perceptible par l'oreille humaine est caractérisé
par une dynamique élevée et un spectre limité
à 20 kHz. Un traitement numérique de qualité
Hi-Fi impose des paramètres de numérisation, fréquence
d'échantillonnage et résolution, menant à
des débits de l'ordre de 800 kbits/s, soit 360 Mo pour
1h de son mono. Pour accroître la qualité de l'ambiance
sonore, on augmente le nombre de voies ; ainsi le standard de
codage Dolby-AC3 utilise 5 voies plus 1 voie de basse. La quantité
d'information binaire nécessaire croît dans le même
rapport.
Apparaît alors la nécessité de coder et de
compresser ce signal audio multi-voies afin de pouvoir transmettre
et archiver ces informations avec un débit et sur des supports
de capacité acceptable, tout en conservant une excellente
qualité de restitution.
Nous allons aborder les différentes techniques mises en
uvre dans ces opérations de compression du signal
audio en distinguant le signal audio large bande et un sous-ensemble
que constitue le signal parole.
Chapitre 2. NUMÉRISATION DU SIGNAL AUDIO
La première étape dans l'opération de codage
numérique du son consiste à numériser le
signal audio analogique.
2.1 Choix de la fréquence d'échantillonnage
D'après le théorème de Shannon, la fréquence
d'échantillonnage assurant un non repliement du spectre
doit être supérieure à 2 fois la fréquence
haute du spectre du signal analogique.
Le signal audio pleine bande est caractérisé par
un spectre s'étalant de 20 Hz à 20 kHz, nécessitant
une fréquence d'échantillonnage supérieure
à 40 kHz. La réduction de cette bande, notamment
dans le cas du signal parole, autorise l'utilisation d'une fréquence
d'échantillonnage réduite.
Le tableau suivant présente quelques valeurs courantes
:
| Spectre du signal
| Fréquence d'échantillonnage
| Applications
|
| Qualité téléphonique
| [300 ; 3 400 Hz]
| 8 kHz
| Téléphonie
|
| Qualité "bande élargie"
| [50 ; 7 000 Hz]
| 16 kHz
22 kHz
| PC, audio-conférence (ADPCM)
|
| Haute qualité en radiodiffusion
| [50 ; 15 000 Hz]
| 32 kHz
| DAB, NICAM
|
| Qualité "Hi-Fi"
| [20 ; 20 000 Hz]
| 44.1 kHz
48 kHz
| CD Audio, Studio numérique, DAT
|
2.2 Choix du nombre de bits par échantillon
Le nombre n de bits utilisés pour le codage des
échantillons détermine l'erreur de quantification
maximale proportionnelle à 1/2n. Dans le cas
d'une quantification linéaire (pas de quantification constant
sur toute la plage de conversion), on exprime l'erreur due à
la quantification sous la forme d'un rapport Signal à Bruit
(SNR : Signal to Noise Ratio) dont l'expression est la
suivante :
Ainsi, en incrémentant le nombre n de bits d'une
unité, on augmente le rapport SNR de 6 dB.
Le tableau suivant présente quelques exemples :
| Qualité "Hi-Fi"
| 16-18 bits | SNRdB 95 dB
|
| Codage la parole, NICAM
| 14 bits | SNRdB 80 dB
|
| Codage son PC | 8 bits
| SNRdB 40 dB
|
2.3 Quantité d'information binaire
Le produit fréquence d'échantillonnage x nombre
de bits par échantillon détermine la quantité
d'éléments binaires nécessaire pour numériser
une voie sonore.
Dans le cas d'un son de qualité "Hi-Fi", on obtient
des valeurs de l'ordre de 800 kbits/s par voie, soit 100 ko/s
par voie. L'amélioration de la restitution sonore passe
par l'augmentation du nombre de voies. Le son numérique
multicanal est déjà entré dans les salles
de cinéma depuis quelques années. Différents
systèmes (le DTS : Digital Theater System - l'AC3 ou SRD
, le DSP : MPEG layer II) offrent 5 ou 6 voies indépendantes
codées numériquement et inscrites sur le film ou
sur un CD-ROM. Dans le domaine de la télévision,
la stéréophonie a été introduite par
le procédé NICAM. Avec la télévision
numérique semblent émerger 2 standards de son numérique,
le codage AC3 et le codage MPEG-2, le premier proposant un format
5.1 (5 voies "pleine bande" plus 1 voie sous-grave)
et le second, plus flexible, couvrant des configurations allant
de la stéréophonie classique jusqu'au format 7.1.
On obtient alors des débits de 4 à 5 Mbits/s. La
réduction significative de ce débit conduit au développement
de techniques de compression s'appuyant sur une modélisation
de l'oreille (codage perceptuel), l'objectif prioritaire étant
d'assurer une restitution sans dégradation perceptible.
Un taux de compression d'un facteur 8 à 12 mène
à des débits de l'ordre de 300 à 400 kbits/s
pour un son multicanal 5.1.
Configuration 5.1
Les techniques mises en uvre dans la compression de la parole
visent en premier lieu à atteindre un taux de compression
élevé, afin de minimiser la largeur du canal nécessaire
à sa transmission. Ainsi, pour un signal parole échantillonné
à 16 kHz et codé sur 14 bits, le débit initial
de 224 kbits/s pourra être réduit à 32 kbits/s,
voire même à des débits beaucoup plus faibles
de 4,8 kbits/s.
Chapitre 3. MODÉLISATION DE LA PAROLE ET DE L'OREILLE
Le flux d'air en provenance des poumons est modulé par
les cordes vocales, créant des ondes de pression qui se
propagent à travers le conduit vocal. Ce dernier, constitué
des cavités orales et nasales, se comporte comme un filtre
caractérisé par des fréquences de résonance
appelées formants.
Les sons de parole peuvent être classés en 3 catégories
:
- les sons voisés : les cordes vocales vibrent
de façon quasi-périodique. Le signal de parole est
alors quasi-périodique et est caractérisé
par sa fréquence fondamentale appelée pitch. Typiquement,
la période fondamentale des différents sons voisés
varie entre 2 et 20 ms.
- les sons non voisés : les cordes vocales ne
vibrent pas. L'air passe à haute vitesse entre les cordes
vocales. Le signal produit est équivalent à un bruit
blanc.
- les plosives : ces sons sont obtenus lorsqu'on libère
soudainement l'air comprimé par fermeture totale du conduit
vocal.

'a' 'ou'
Sons voisés
Mise à jour : le 20/05/2009 13:00
|