Trends in LIMS

Moving Picture Experts Group
Estensione.mpg, .mpeg, .mp2, .mp3
Tipo MIMEvideo/mpeg, video/x-mpeg, audio/mpeg, audio/x-mpeg, audio/x-mpeg-3
SviluppatoreMPEG Software Simulation Group (MSSG)
TipoVari contenuti multimediali
Sito webmpeg.chiariglione.org/

Il Moving Picture Experts Group, sigla MPEG, designazione formale ISO/IEC JTC 1/SC 29/WG 11 intitolata Coding of moving pictures and audio, è un comitato tecnico congiunto formato dalle organizzazioni internazionali ISO e IEC nel 1988.

Venne creato con lo scopo di definire standard la rappresentazione in forma digitale di audio, video e altre tipologie di contenuti multimediali in modo da soddisfare un'ampia varietà di applicazioni.

Storia

Il comitato è stato costituito nel gennaio 1988 da Leonardo Chiariglione e Hiroshi Yasuda e si è riunito per la prima volta nei giorni 10, 11 e 12 maggio 1988. La sua home page era originariamente ospitata dal sito del centro CSELT[1]. Normalmente si riunisce in media quattro volte l'anno. Alla prima riunione hanno partecipato 25 membri, mentre attualmente alle riunioni partecipano oltre 350 membri in rappresentanza di più di 200 aziende e organizzazioni appartenenti a circa 20 nazioni del mondo.

Standard MPEG

L'MPEG ha definito i seguenti standard:

Nome Designazione formale Titolo della designazione formale Traduzione del titolo della designazione formale
MPEG-1 ISO/IEC 11172 Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s Codifica di immagini in movimento e dell'audio associato per supporti di archiviazione digitale fino a circa 1,5 Mbit/s
MPEG-2 ISO/IEC 13818 Generic coding of moving pictures and associated audio information Codifica generica di immagini in movimento e informazione audio associata
MPEG-4 ISO/IEC 14496 Coding of audio-visual objects Codifica di oggetti audiovisivi
MPEG-7 ISO/IEC 15938 Multimedia content description interface Interfaccia di descrizione di contenuti multimediali
MPEG-21 ISO/IEC 21000 Multimedia framework (MPEG-21) Architettura per il multimedia (MPEG-21)
MPEG-DASH ISO/IEC 23009 Dynamic Adaptive Streaming over HTTP (DASH)
Fu progettato per rientrare nel bitrate del Compact Disc. Il Video CD, un tipo di supporto audiovisivo per la riproduzione domestica con qualità paragonabile a quella delle videocassette VHS, usava tale standard. Fa parte dell'MPEG-1 anche il noto formato audio MP3 che, in realtà, è MPEG-1 layer 3.
È utilizzato nella televisione digitale e nel DVD-Video. Ha una qualità superiore all'MPEG-1 ma richiede per contro maggiori risorse hardware di elaborazione.
È stato abbandonato. Inizialmente sviluppato per l'HDTV ma in seguito rivelatosi superfluo, in quanto si è visto che l'MPEG-2 era sufficiente per tale applicazione.
È un'estensione dell'MPEG-1 in grado di gestire flussi audio/video eterogenei, contenuti 3D, flussi video a bassa velocità di trasmissione e diritti digitali. Per la codifica video supporta il formato MPEG-2 oppure un nuovo codec molto efficiente chiamato MPEG-4 AVC.
È un sistema formale per la descrizione di contenuti multimediali.
È nato per sviluppare una piattaforma comune per le future applicazioni multimediali.

Caratteristiche

Ogni standard MPEG è suddiviso in parti, e ogni parte è suddivisa a sua volta in livelli (layer). Ogni parte corrisponde a un documento, che tratta aspetti specifici dello standard.

Le prime cinque parti degli standard MPEG-1 e MPEG-2 sono identiche; MPEG-2 aggiunge ulteriori cinque parti, risultando suddiviso in totale in dieci parti.

Gli algoritmi

Gli algoritmi sviluppati dal gruppo MPEG sono tutti algoritmi a perdita di informazione (lossy). La tecnica impiegata è la seguente:

  • il flusso video viene campionato, viene ridotto a segmenti;
  • questi segmenti vengono elaborati per estrarne le informazioni fondamentali;
  • le informazioni vengono codificate con degli algoritmi di compressione non a perdita di informazione.

Il gruppo di standardizzazione non pubblica delle specifiche su come debba essere realizzato il codificatore o il decodificatore MPEG. Il gruppo pubblica delle specifiche che indicano come debba essere composto il formato del file MPEG in modo che ogni costruttore possa realizzare il codificatore e il decodificatore come meglio crede pur attenendosi al formato del file definito dal consorzio MPEG.

Metodo di campionamento del flusso audio

Il formato WAV, precedente all'MPEG, utilizza una codifica PCM, che occupa una notevole quantità di spazio, circa 1,5 Mbit/s a 48 kHz. Un modo per ridurne l'occupazione di spazio e banda è utilizzare meno bit per rappresentare i campioni. Così facendo, però, diminuisce la qualità del suono riprodotto, fino a livelli scadenti. Una possibile soluzione è rappresentare il segnale nel dominio delle frequenze e poi campionarlo con pochi bit, in questo modo la perdita di fedeltà è molto minore. La trasformazione nel dominio delle frequenze viene effettuata dall'algoritmo MPEG tramite un banco di filtri che scompone il segnale in 32 sottobande d'uguale ampiezza. In molti hanno criticato questo approccio perché non rispecchia il modello percettivo umano, infatti, gli studi effettuati dimostrano che sarebbe più corretto dividere la banda di frequenze in 26 parti di dimensioni crescenti con andamento di tipo logaritmico.

Due suoni con frequenza diversa ma all'interno della stessa banda sono percepiti come identici. Il punto di confine fra due bande è chiamato banda critica. Il nostro orecchio è più sensibile alle variazioni in basse frequenze, dove sono sufficienti poche decine di hertz per farci percepire due suoni come diversi, mentre alle alte frequenze sono necessarie migliaia di hertz.

In difesa della decisione presa da MPEG vi è però la complessità dell'operazione di trasformazione, infatti il numero di operazioni elementari da compiere nel caso di sottobande con larghezza fissa è elevato ma accettabile (alcune migliaia di prodotti e somme), mentre nel caso di sottobande con larghezze diverse la complessità aumenta notevolmente e se in fase di codifica questa può essere trascurata, così non accade in fase di decodifica, fase che deve essere eseguita in tempo reale. Va inoltre ricordato il periodo storico in cui questa scelta fu effettuata: se oggi un carico di lavoro simile è accettabile per un normale computer, non era così alla fine degli anni ottanta, ed è dunque probabile che in futuro il modello a sottobande variabili venga implementato.

Il modello percettivo

Elaborare il segnale nel dominio delle frequenze offre anche altri vantaggi. Il nostro orecchio non è uno strumento lineare, cioè non percepisce tutti i suoni e soprattutto non li percepisce tutti nello stesso modo. Da qui l'idea di eliminare tutte quelle componenti frequenziali che non possiamo udire. Questa è ovviamente una tecnica con perdita: il suono compresso sarà diverso da quello originale ma i nostri sensi non riusciranno a percepirne la differenza. Si rende quindi necessario uno studio sul modello percettivo, cioè sulla percezione umana del suono. La banda di frequenze udibili va dai 16 Hz fino a 20 kHz. Nel modello MPEG-1 il primo taglio in frequenza viene effettuato eliminando le frequenze troppo basse o troppo alte. Affinché un suono sia percepibile deve essere sufficientemente forte, cioè deve esercitare un livello minimo di pressione sulla membrana del timpano dell'orecchio, tuttavia tale soglia non è costante ma varia, in funzione della frequenza.

In figura (dov'è?) è riportato un grafico qualitativo che mostra quale deve essere la pressione minima che un suono deve avere per poter essere percepito. Nelle ascisse (in scala logaritmica) ci sono le frequenze, mentre nelle ordinate ci sono i livelli di pressione sonora (in dB). Tutti i suoni che si trovano nella zona grigia possono essere eliminati.

A questo va aggiunto che la percettività del suono non è costante nel tempo, ma varia in funzione di ciò che ascoltiamo. In pratica un tono forte copre i suoni d'intensità minore, non solo a una determinata frequenza ma anche in quelle vicine, infatti come tutti i sensori, l'orecchio non ha tempi di reazione nulli cioè impiega un certo tempo per adattarsi alle nuove condizioni e soprattutto impiega tempo a tornare in quiete dopo una sollecitazione. Affinché un suono sia percepito è dunque necessario che si mantenga per un certo tempo senza disturbi. MPEG-1, in considerazione dei fattori sopra citati, filtra Il suono digitale utilizzando una maschera detta Global Masking Threshold o soglia d'udibilità dinamica, che elimina la parte dell'informazione che per l'orecchio umano è ininfluente.

Note

Bibliografia

  • (EN) Jonathan Sterne, MP3: The meaning of a format, Duke University Press, 2012.
  • Full motion video, in K speciale multimedia 2, supplemento a K n° 61, Glénat, maggio 1994, pp. 7-13.

Voci correlate

Altri progetti

Collegamenti esterni

Controllo di autoritàVIAF (EN190078066 · LCCN (ENsh99000015 · J9U (ENHE987007556406605171