POWRÓT

SEMESTR I

Dźwięk cyfrowy w prezentacjach multimedialnych – teoria i zastosowania


Spis treści rozdziału - tutaj kliknij

Sposoby zapisu dżwieku
Formaty plików audio - konwersja między formatami
Analiza plików dźwiękowych
Edycja plików dźwiękowych
Literatura


 

Sposoby zapisu dżwieku

   


    Zapisywanie dźwięków w czasach nam współczesnych jest zjawiskiem powszechnym i oczywistym, a dźwięk jest zapisywany z wykorzystywaniem techniki cyfrowej. Jeszcze niedawno, bo w latach 90-tych XX w. podstawowym sposobem zapisu dźwięku byl zapis analogowy.
Termin technika analogowa oznacza, że przesyłany lub zapisywany sygnał elektryczny ma przebieg analogiczny do podawanego dźwięku padającego na mikrofon. A to oznacza, że sygnał jest rejestrowany na nośniku właśnie w naturalnej, ciągłej postaci. Mimo szeregu wynalazków i udoskonaleń nie udało się wyeliminować jej podstawowej wady, polegającej na sumowaniu się w całym torze przesyłowym szumów i zniekształceń. Jest to technika, która powoli odchodzi w zapomnienie. Podstawowymi nośnikami zapisanego dźwieku w technice analogowej były taśmy magnetofonowe, a wcześniej płyty gramofonowe.
Technika analogowa ma swoje wady i zalety, którymi są;

 • zaletą (niemożliwą do uzyskania w technikach cyfrowych) jest ciągłe odwzorowanie sygnału i przetwarzanie go w naturalnej postaci,
 • wadą jest trudność w eliminacji zakłóceń i szumów, której skutkiem jest słaba dynamika sygnału oraz niska wartość stosunku sygnał/szum.

    W technice cyfrowej sygnał przetwarzany jest z postaci naturalnej, ciągłej (analogowej), do reprezentacji numerycznej, czyli ciągu dyskretnych wartości liczbowych. Cały proces przetwarzania sygnału z postaci analogowej do cyfrowej obejmuje trzy procesy, tj.;

 • próbkowania
 • kwantyzacji
 • kodowania.

    Próbkowaniem nazywamy proces pomiaru wartości chwilowej danego sygnału ze stałą częstotliwością. Częstotliwość tą nazywamy częstotliwością próbkowania (Samplerate). Jest to jeden z podstawowych parametrów przetwarzania A/C - Rys. 1. Wskutek tego procesu, zamiast przebiegu ciągłego (analogowego), określonego w całym przedziale czasowym, uzyskujemy zbiór dyskretnych wartości. Pobranie próbek nie oznacza jeszcze, że jest to sygnał cyfrowy. Jest to nadal sygnał analogowy tylko, że nie jest on ciągły, ale dyskretny.


Rys 1. Próbkowanie sygnału anologowego, kwantowanie i kodowanie sygnału

Kwantyzacja
Następnym krokiem jest przyporządkowanie kolejnym próbkom sygnału analogowego określonego poziomu przedstawionego w postaci liczby, czyli tzw. kwantyzacja. Na tym etapie powstaje tzw. błąd kwantyzacji, wynikający z tego, że reprezentując ciągły zakres zmienności sygnału przy pomocy kilku wartości dyskretnych, tracimy bezpowrotnie informację o małych zmianach w obrębie przedziałów pomiędzy sąsiednimi wartościami.
Kodowanie
Na tym etapie liczbowe kody dyskretnych wartości, do jakich został sprowadzony sygnał źródłowy, zostają zapisane w postaci liczbowej, czyli w przypadku binarnej techniki cyfrowej, w formie liczb zapisanych w systemie dwójkowym, ciągu zer i jedynek.

Do góry


 

Formaty plików audio - konwersja między formatami

   


    W przypadku sygnału dźwiękowego zapisanego bez kompresji jego jakość zależy głównie od częstotliwości próbkowania i rozdzielczości bitowej. Pliki takie zwykle mają duży rozmiar, co jest niewygodne w ich praktycznym wykorzystaniu. Dlatego też aby uniknąć tego, stosuje się różne metody kompresji plików dźwiękowych. Są  dwa rodzaje kompresji:

 • kompresja bezstratna
 • kompresja stratna

    Kompresja bezstratna zachowuje pełną informację o przebiegu sygnału dźwiękowego. Polega ona na sprytnej zmianie sposobu zapisu danych, dzięki czemu zapis jest oszczędniejszy. Niestety, kompresja bezstratna zazwyczaj nie daje dużych możliwości zmniejszenia rozmiaru plików. Dlatego stosuje się nieco gorszą jeśli chodzi o wierność zapisu, ale znacznie wydajniejszą - kompresję stratną.
    Kompresja stratna - wykorzystuje niedokładności słuchu, które są kluczem do wydajności kompresji stratnej. W jej ramach sygnał dźwiękowy jest analizowany pod kątem owych niedostrzeganych słuchem elementów - np. maskowanie dźwięków cichych przez głośne, lub maskowanie gorzej słyszalnych dźwięków. Dzięki kompresji stratnej daje się (bez wyraźnego pogorszenia jakości dźwięku) upakować dane audio 10-cio, a nawet 20-to krotnie.

Formaty plików nieskompresowanych to;

 • MIDI (Musical Instrument Digital Interface) - specyficzny format, ponieważ nie zawiera spróbkowanego dźwięku, lecz rodzaj zapisu nutowego. Rozszerzenia: *.mid, *.midi, *.rmi.
 • CD Audio i WAVE - CD Audio jest jednym ze standardów zapisu danych na płytach kompaktowych. Compact Disc Digital Audio umożliwia nagranie 74 minut materiału muzycznego w maksymalnie 99 utworach. Częstotliwość próbkowania wynosi 44.1 kHz. Przy dwóch kanałach można otrzymać przepływność równą 1411.2 kb/s. Spotykane na płytach niewielkie pliki z rozszerzeniem .cda nie zawierają danych audio, lecz są wskaźnikami na miejsce utworu na płycie CD. Rozszerzenia: *.wav, *.cda

Formaty plików skompresowanych stratnie to;

 • MP3 - popularny format, który całkowicie zdominował rynek muzyczny. Format mp3 wykorzystuje stratną kompresję, która znacznie zmniejsza rozmiar pliku ok. 10-krotnie. Zazwyczaj rozmiar pliku mp3 stosowany w Internecie to ok. 1 Mb na każdą 1 minutę utworu muzycznego. Jakość dźwieku zapiasanego w formacie mp3 jest gorsza niż jakość dźwięku zapisanego na płycie CD Audio Rozszerzenia: *.mp3
 • MP3Pro - w założeniach format ten miał całkowicie zastąpić bardzo popularny format MP3. Nowa technologia, w której powstał Mp3Pro, pozwala na zmniejszenie objętości plików dźwiękowych nawet o 50% dzięki technice replikacji pasma częstotliwościowego stosowanej również w formacie ACC. MP3Pro jest w pełni kompatybilny jedynie z odtwarzaczami MP3 produkowanymi przez firmę Thomson, przez co format ten jest mało rozpowszechniony. Rozszerzenia: *.mp3
 • WMA i WMA PRO (Windows Media Audio) - Rodzina WMA to kodeki opracowane przez Microsoft. Jest to format, który miał być konkurencją dla mp3. Zasada działania jest podobna, ale niezależne testy wykazały, że wma ustępuje jakością mp3. Użytkownicy zauważyli, że o ile WMA znakomicie radzi sobie z kompresją muzyki, to kompresja nagranej mowy pozostawia wiele do życzenia. Wprawdzie wiele z tych wad wyeliminowano lub chociaż poprawiono w najnowszej wersji kodeka Windows Media Audio 8, ale jakościowo nadal brakuje mu dużo do MP3. Niestety WMAPro obsługiwane jest tylko przez niektóre odtwarzacze sprzętowe (np. Microsoft Zune czy Xbox 360). Rozszerzenia:*.wma
 • AAC (Advanced Audio Coding) - format stworzony przez firmę Apple. Powszechny na urządzeniach iPod, iPhone i w iTunes. Obsługuje częstotliwości próbkowania do 96 kHz, co w połączeniu z obsługą aż 48 kanałów czyni go bardzo dobrym formatem stratnej kompresji dźwięku wielokanałowego. Rozszerzenia:*.m4a, *.m4b, *.m4p, *.m4v, *.m4r, *.3gp, *.mp4, *.aac
 • Vorbis - określany często jako Ogg (z racji połączenia z kontenerem ogg), jest darmowym kodekiem rywalizującym z MP3. Może wydawać się niepopularny, jednakże korzysta się z niego na dużą skalę. Wiele popularnych gier posiada ścieżkę dźwiękową zapisaną właśnie w tym formacie. Rozszerzenia:*.ogg, *.oga
 • Musepack - format oparty o standard MPEG-1. Rozszerzenia: *.mpc

Formaty plików skompresowanych bezstratnie to;

 • FLAC (Free Lossless Audio Codec) - format bezstratnej kompresji dźwięku z rodziny kodeków Ogg. Kompresja FLAC potrafi zmniejszyć rozmiar pliku nawet o połowę zachowując oryginalną częstotliwość próbkowania oraz rozdzielczość bitową. Pomimo stosunkowo dużych rozmiarów plików format ten jest dosyć popularny. Rozszerzenia: *.flac
 • Monkey's Audio- format oferujący podobną kompresję jak FLAC (nieznacznie lepszą), jednak kodowanie i dekodowanie trwa odrobinę dłużej. Głównym problemem jest natomiast bardzo ograniczona kompatybilność z platformami nienależącymi do rodziny Windows oraz ze stosunkowo małą ilością odtwarzaczy odczytującą ten format. Rozszerzenia: *.ape
 • Apple Lossless- Popularny dzięki możliwości odtwarzania na urządzeniach Apple. Rozszerzenia:*.m4a

Konwersja między różnymi formatami plików dźwiękowych


Rys 2. Program Audacity

    Do konwersji między różnymi formatami plików dźwiękowych można użyć różnych programów. W zasadzie każdy program do zgrywania muzyki z CD lub edycji dźwieku ma funkcjonalność Zapisz jako ......., co pozwala otworzyć plik w jednym formacie i zapisać go w innym. Taką konwersję możemy przeprowadzić korzystając z darmowego programu Audacity. Zawiera wiele funkcji do edycji i analizy dźwięku.

Tutaj instrukcja posługiwania się Audacity http://www.bibliotekapraktyczna.pl/download/BIB_przewodnik_Audacity.pdf »»» 


Rys 3. Konwersja pliku dźwiękowego

Zadanie 1:
1. Na bieżącej stronie WWW o znajduje się fragment nagrania zapisanego jako plik z rozszerzeniem .ogg - cwiczenie1.ogg

 • Pytanie: Czy możemy odsłuchać to nagranie?
 • Przy użyciu Audacity możemy zamienić ten plik na popularny i obsługiwany przez wszystkie programy i urządzenia format mp3.
  [menu PLIK polecenie Eksportuj jako... mp3]
 • Aby ustawić parametry kompresji: [menu edycja polecenie USTAWIENIA] - patrz rysunek

2. Na bieżącej stronie WWW znajduje się krótki fragment nagrania zapisany jako plik z rozszerzeniem .wav. o nazwie cwiczenie2.wav

 • Ten plik również konwertujemy do formatu mp3.
 • Pytanie: Czy rozmiar nowego nagranego pliku formatu mp3 jest mniejszy?

Fragmenty nagrań; Ćwiczenie 1 »»» , Ćwiczenie 2 »»» 

Do góry


 

Wielkości charakteryzujące dźwięk - analiza plików dźwiękowych

   


     Wielkościami charakteryzującymi dźwięk są; składowa, wysokość dźwięku, widmo dźwieku i barwa dźwieku.
Składowa - prosty dźwiek o jednej częstotliwości, stałej w czasie, którego obrazem jest sinosoida.
Wysokość dźwięku - częstotliwość, którą najmocniej słychać w danym sygnale dźwiękowym, tzn. częstotliwość, dla której występuje maksimum natężenia dźwięku w widmie tego dźwięku.
Widmo dźwieku - zbiór składowych dźwięku (tonów) o określonej częstotliwości i amplitudzie, przedstawiony zwykle w postaci (wykresu) rozkładu amplitud drgań harmonicznych w funkcji częstotliwości drgań.
Barwa dźwieku - jest zależna od składu widmowego sygnału akustycznego, czyli inaczej mówiąc od proporcji poszczególnych częstotliwości składowych. Ta, która ma największą moc, słyszana jest jako wysokość dźwięku. Zróżnicowanie barw dźwięków pozwala nam odróżniać poszczególne głosy i instrumenty.
     Podstawowa analiza plików dźwiękowych obejmuje wykonanie takich czynności jak; głośność (volume) i jej wahania, barwa dźwięku, czas trwania, występowanie okresów ciszy, fragmenty w których dźwięk jest zbyt głośny (przesterowanie). Taką analizę można wykonać za pomocą programu Audacity. Program pozwala otworzyć plik audio (Plik/Otwórz), a następnie wyświetla jego wykres pokazujący zmiany natężenia dźwięku w czasie (rys.4).


Rys 4. Plik dźwiękowy w trakcie odtwarzania

     Interesującą funkcją programu jest wyszukiwanie ciszy i uderzeń (beat). Jest ona dostępna po wybraniu polecenia Analiza/Silence Finder. Po otwarciu okna dialogowego, możemy określić poziom natężenia dźwięku, który uznajemy za ciszę, którą chcemy wychwycić.
Wiecej informacji o dźwięku możemy uzyskać, poznając jego widmo. Właśnie analiza widma sygnału jest podstawową metodą analizy plików dźwiękowych. Taką analizę możemy wykonać za pomocą programu Audacity, w którym widmo syganału dostępne jest po wybraniu polecenia Analiza/Widmo. Po wybraniu polecenia otworzy się okno dialogowe, w którym przedstawiono widmo sygnału oraz kilka opcji do wyboru (rys.5).


Rys 5. Widmo sygnału w programie Audacity

     Największą część okna zajmuje wykres. jest on wypełniony, podobnie jak podstawowy wykres natężenia sygnału dźwiękoweg (I) w funkcji czasu (t). Na osi poziomej oznaczono częstotliwość w Hz i kHZ, na osi pionowej - natężenie dźwięku. Z wykresu możemy wiele cennych informacji, min. takich jak; stopień zaszumienia, zmianę jakości dźwięku po zmianie przepływności, wpływu zewnetrznych zakłóceń na obraz dźwieku.

Do góry


 

Edycja plików dźwiękowych

   


     Pod pojęciem edycji rozumiemy wprowadzanie zmian w plikach dźwiękowych. Taką edycję możemy przeprowadzić z wykorzystaniem programu Audacity. Zmiany które można wprowadzać do plików dźwiękowych, obejmują szeroki wachlarz opcji. Program pozwala m.in. na podstawową edycję, tj. wklejanie, kopiowanie, usuwanie, łączenie/dzielenie ścieżek, itd. sygnałów dźwiękowych. Oferuje ponadto wiele ciekawych i użytecznych efektów oraz filtrów. Posiada narzędzie do redukcji szumów,, które w wielu przypadkach działa bardzo skutecznie, a także generatory tonów. Możliwe jest normalizowanie i ustawianie poziomu dźwięku w poszczególnych ścieżkach i jego fragmentach oraz kształtowanie charakterystyki częstotliwościowej. Bardzo ważna jest możliwość tworzenia dźwięku w kilku formatach (np. w popularnym obecnie MP3 lub w OGG). Dodatkowo, można to zrobić w szerokim zakresie jakości, w zależności od potrzeby użytkownika, ustalając żądaną przepływność bitową (bitrate), która jest regulowana w bardzo szerokich granicach - od 8 kbit/s, do 320 kbit/s. Uzyskuje się to dzięki dużym możliwościom kodeka LAM. W efekcie otrzymuje się właściwy kompromis pomiędzy pożądaną jakością pliku dźwiękowego, a jego wynikowym rozmiarem na dysku.
Niektóre operacje edycyjne nie mają wpływu na kształt widma. Przykładem takiej operacji jest zmniejszenie lub zwiększenie głośności dźwięku lub jego skrócenie. Opracje te w programie Audacity wykonuje się stosunkowo prosto, o czym więcej w części zadaniowej.

Zadanie 2:
Na stronie WWW znajdują się 3 pliki dźwiękowe:
cwiczenie3.mp3 »»» ; cwiczenie4.mp3 »»» ; cwiczenie5.mp3 »»» ;
Należy połączyć je w jedną całość w kolejności 1, 2 i 3:

1. Wczytanie plików do jednego projektu:

 • Otwieramy pusty projekt
 • Pliki dodajemy za pomocą polecenia Importuj plik audio. [menu PROJEKT polecenie IMPORTUJ PLIK AUDIO] (zachowanie właściwej kolejności importowania plików nie jest niezbędne, lecz ułatwia pracę).
 • Okno programu wyglądać będzie podobnie jak na rys. 6. Zwróć uwagę na elementy sterujące dla każdej ścieżki.


Rys 6. Wczytanie plików

PYTANIE: Co słyszymy gdy odtworzymy taki plik?

2. Ustawienie kolejności odtwarzania

 • Aby zmontować nagranie należy ustawić widoczne na osi czasu fragmenty tak, aby nie zachodziły na siebie.
 • Do przesuwania nagrań używamy narzędzia <->
 • Efekt przesunięcia powinien wyglądać tak jak pokazano na rys. 7


Rys 7. Zapis w formacie mp3

3. Zapis wyniku

 • Tak przygotowany plik należy zapisać w formacie mp3 (patrz zadanie 1).
 • PYTANIE: Jaki efekt usłyszymy gdy odtworzymy plik??

4. Dokonaj naprawy źle zmontowanego pliku

Do góry


 

Literatura

   
 • R. Jaworski - Multimedia i grafika komputerowa (2009),
 • T. Rudny - Multimedia i grafika komputerowa (2011)
 • http://www.bibliotekapraktyczna.pl/download/BIB_przewodnik_Audacity.pdf

Do góry


   

 

 (C) 2011 - 2017 Wydział Przyrodniczo - Techniczny KPSW. All Rights Reserved