1. Psychoakustyczna. Najbardziej rozpowszechnionym formatem pakowania plików muzycznych jest mp3, choć istnieją bardziej wydajne i pozwalające na osiągnięcie większego upakowania bez pogorszenia jakości dźwięku.
Wszystkie nowoczesne kompresory, takie jak: MP3, VQF,
OGG itp., bazują na tej samej zasadzie działania. Pierwszym krokiem jest transformacja próbki dźwiękowej z czasu na częstotliwość. Sygnał zawiera kolejne próbki dźwięku uzyskane w procesie próbkowania - próbki są to kolejne liczby całkowite odpowiadające amplitudzie sygnału w równych odstępach czasu (czas jest właśnie w tym wypadku funkcją amplitudy). Dzięki
szybkiej transformacie Fouriera (FFT) sygnał cyfrowy przekształacany jest na funkcję częstotliwości składowych sygnału. Oznacza to, że próbka dźwięku zapisana w postaci ciągu liczb przkształacana jest na ciąg liczb odpowiadających kolejnym współczynnikom transformaty - amplitudzie kolejnych tonów prostych. Algorytm FFT ma jednak pewne ograniczenia - analizowana może być tylko pewna liczba próbek (zazwyczaj odpowiada ona potędze liczby 2). Program kompresujący, tworząc widmo sygnału, dzieli plik audio na tzw. okienka (przedziały) - dla każdego z nich liczona jest FFT (zazwyczaj „okienko" to 264 próbki dźwięku). Powyższy proces nie powoduje zmiany brzmienia sygnału i jest odwracalny, co oznacza, żemożna z FFT dokładnie odtworzyć próbkę dźwięku.
Kolejnym etapem jest usuwanie z widma sygnału tonów, które są maskowane przez inne tony o większej amplitudzie. Program kodujący (na przykład koder MP3) analizuje widmo sygnału pod kątem maskowania tonów, używając do tego specjalnych tablic. Tablice maskowania tonów tworzone są na podstawie badań ludzkiego słuchu i w zależności od rodzaju kodowania mogą się od siebie różnić. Jeżeli w widmie sygnału znajdzie się maskowany ton, jest on usuwany. W kroku tym zmienia się brzmienie sygnału, jednak teoretycznie usuwane są tony, których nie słychać. Usuwanie maskowanych tonów zależne jest również od stopnia kompresji - jeśli jest duży, to usuwane są także tony, które mogą być słyszalne, lecz nie wpływają znacząco na jakość dźwięku. Zasadą jest, aby wyrzucić jak największą liczbę maskowanych dźwięków - zmniejszając tym samym liczbę współczynników zapisywanych w pliku wyjściowym.
Następnym krokiem jest wyznaczanie krzywej widma. Warto zauważyć, że amplituda poszczególnych tonów prostych wchodzących w skład widma leży na pewnym poziomie, odległym przynajmniej o 30 dB od poziomu zerowego - wynika to z faktu, że wyrzucone wcześniej maskowane tony leżą o około 30 dB poniżej tonów słyszalnych. Dzięki temu nie trzeba zapisywać liczb o dużych wartościach - za punkt odniesienia można przyjąć krzywą i od jej wartości w danym punkcie liczyć wartości współczynników FFT. W tym kroku brzmienie dźwięku praktycznie nie jest zmieniane - pewne zniekształcenia wprowadzają jedynie błędy zaokrągleń.
Ostatnim etapem jest kodowanie współczynników FFT zmodyfikowanego widma (dotyczy jednego "okienka"), dla którego punktem odniesienia jest krzywa widma. W zależności od współczynnika kompresji do wyznaczania kolejnych współczynników używane są różne liczby 1-, 2-, 3- lub 4-bitowe. Od rozdzielczości liczb przyjętych do kodowania zależy w dużej mierze dokładność, a tym samym ostateczna jakość skompresowanego pliku - na tym etapie mogą być używane wszelkie sposoby kodowania. Po przeprowadzeniu tego procesu do skompresowanego pliku zapisywane są parametry umożliwiające odtworzenie na przykład przez odtwarzacz MP3 zmodyfikowanego widma i na jego podstawie utworzenie strumienia dźwięku. Stąd też - w przytoczonym przykładzie - do pliku zapisywane są: współczynniki prostej i krzywej oraz współczynniki widma (FFT). W wyniku dla „okna" o długości 264 próbek i rozdzielczości 16 bitów otrzymuje się 128 kB danych. Przy kompresji opisaną powyżej metodą (współczynniki prostej i krzywej 10 bajtów + 16,5 kB - 3 bity/współczynnik) daje to objętość około 16,5 kB - współczynnik kompresji wynosi więc około 1:7,75 przy bardzo dobrej jakości skompresowanego dźwięku.
Powyższy schemat przedstawia tylko ideę „inteligentnych" kodeków. Szczegółowe algorytmy kompresji są przeważnie skrzętnie ukrywane przed światem - tak jak to ma miejsce w przypadku Instytutu Fraunhofera czy Microsoftu i Yamahy.
2. DPCM (i inne jej odmiany). Polega na zapisywaniu z mniejszą ilością bitów niż w oryginale samych różnic pomiędzy poszczególnymi próbkami, co czasami wiąże się z obcinaniem końcówek liczb reprezentujących próbki i często wprowadza słyszalny szum i zniekształcenia.
3. Termin "kompresja dźwięku" odnosi się również do kompresji bezstratnej, programami typu Shorten, FLAC czy Monkey's Audio, które stosują zaawansowane algorytmy, przeznaczone specjalnie dla dźwięku, by spakować go podobnie, jak ZIP czy RAR, ale do plików o mniejszej objętości w porównaniu z nimi.
4. Kompresja dynamiki. Termin kompresja dźwięku używany jest również czasem w odniesieniu do kompresji dynamiki, która jest czymś w rodzaju wyrównywania głośności różnych dźwięków i jako taka, z redukcją objętości plików, a tym samym z samą kompresją dźwięku, nie ma nic wspólnego.
Zobacz też:
Kompresja,
Pakowanie.