Pada tahun 1979 , Philips dan
Sony membentuk tim untuk merancang disk audio digital baru untuk merekam audio
musik dalam format digital . Setelah satu tahun percobaan dan diskusi , yang
dihasilkan adalah CD yang tersedia di
pasar pada akhir tahun 1982 . CD audio terdiri dari satu atau lebih stereo trek
disimpan menggunakan 16 - bit PCM coding pada tingkat sampling 44,1 kHz .
Compact disk standar memiliki diameter 120 mm dan dapat menampung sekitar 60-80
menit audio . Dari asal-usulnya sebagai format musik , CD telah berkembang
meliputi aplikasi lain , misalnya CD - ROM ( read-only memory ) dan CD- R / W.
Compact disk saat ini sudah banyak digunakan sebagai media penyimpanan data
untuk komputer dan elektronik konsumen . Kebutuhan kapasitas asli untuk merekam
audio digital adalah sekitar 635 megabyte ( MB ) per jam atau 1,411 Mbps .
Yang terkenal gelombang format
audio yang berbasis komputer penyimpanan, ( format audio yang gelombang ,
dengan ekstensi * . Wav ) WAV, pada awalnya dikembangkan oleh Microsoft dan IBM
. File-file audio yang biasanya tidak dikompresi (yaitu , lossless ) tetapi
dapat bertindak sebagai " wrapper " untuk berbagai codec kompresi
audio , seperti skema ADPCM lossy yang mencapai rasio kompresi yang sekitar 4 :
1 dan tetes bitrate ke bawah sekitar 350 kbps . Sayangnya , rasio kompresi ini
tidak memuaskan untuk banyak aplikasi . Untuk meningkatkan efisiensi kompresi
data lebih lanjut kita harus resor untuk teknik yang lebih maju .
3.1 psychoacoustics
Manusia
Sebagaimana disebutkan di atas , persepsi manusia suara
melibatkan beberapa efek psikologis .
Sebagai contoh, telinga manusia adalah sekitar logaritmik
respon subyektif untuk meningkatkan volume . Pendengaran manusia memiliki
dynamic range sekitar 110 desibel ( dB ) . Selain itu , respon telinga untuk
distribusi spektral tetap audio subyektif berbeda sebagai perubahan volume ,
misalnya , bass tampaknya menjadi lebih jelas dengan meningkatnya volume dan
subyektif " kekayaan " meningkat nada selama sekitar tingkat
kenyaringan 60 dB . Fakta-fakta ini membawa kita untuk mempelajari
psychoacoustics manusia , sebagai berikut
.
( 1 ) . Mendengar sensitivitas
Taruh seseorang di ruangan yang tenang . Meningkatkan
tingkat nada frekuensi tertentu sampai hanya nyaris tak terdengar . Variasikan
frekuensi dan plot ambang ini pendengaran .
( 2 ) . Frekuensi masking
Selidiki bagaimana nada keras mempengaruhi nada frekuensi
tetangga dalam persepsi manusia.
( 3 ) . Temporal masking
Selidiki bagaimana nada keras mempengaruhi berikutnya ( atau
sebelumnya ) nada dalam persepsi manusia .
3.1.1 sensitivitas Pendengaran
Cochleas telinga kita melakukan analisis perkiraan frekuensi
dalam kisaran antara 20 Hz sampai 20 kHz , ini mirip dengan Fourier transform
sempurna dengan resolusi frekuensi yang terbatas .
Selain itu , resolusi frekuensi telinga kita menurun dengan
meningkatnya frekuensi. Oleh karena itu kita dapat menentukan ambang mutlak
pendengaran ( atau bidang minimum terdengar, MAF ) , yang mencirikan jumlah
energi yang dibutuhkan dalam nada murni untuk itu untuk dideteksi oleh
pendengar di lingkungan bersuara.
Lebih khusus , ambang mutlak pendengaran , sebagaimana
didefinisikan dengan menggunakan tingkat tekanan suara ( SPL ) .
Dengan mengetahui sensitivitas pendengaran sistem
pendengaran kami , menjadi jelas bahwa kita dapat mengambil keuntungan dari ini
selama kuantisasi sampel audio. Lebih khusus , dalam rangka untuk quantize
audio sampel sehingga untuk kompres data , kita harus memilih cukup bit per
sampel untuk mengurangi kebisingan kuantisasi yang dihasilkan ke tingkat yang
memuaskan .
Rentang frekuensi audio dapat dibagi menjadi sekitar 25 band
kritis. Dibangun di atas definisi band kritis, cara lain untuk mendefinisikan
unit frekuensi , yang disebut " kulit , " diperkenalkan . Kulit A
didefinisikan sebagai unit frekuensi untuk satu pita kritis .
3.1.2 Frekuensi masking
Dalam persepsi telinga manusia , kanal frekuensi yang
berbeda dapat mengganggu satu sama lain . Lebih khusus lagi, mari kita
memainkan nada Hz 250 ( yang masker ) pada tingkat yang kuat tetap ( 65 dB )
dan memainkan nada tes kedua ( misalnya , 180 Hz ) pada tingkat yang lebih
rendah secara bersamaan dan meningkatkan tingkat sampai hanya dibedakan (
ambang pendengaran ) . Hal ini dapat diamati bahwa suara keras ( masker ) akan
mendistorsi ambang mutlak pendengaran sehubungan dengan logaritma dari
frekuensi dalam kHz dan membuat suara lebih tenang ( suara bertopeng ) , yang
semula terdengar, tak terdengar . Efek ini disebut " frekuensi masking
" . Dalam frekuensi seperti percobaan masking pendengaran ambang
sensitivitas dapat berubah secara drastis ketika beberapa masker yang hadir.
3.1.3 masking Temporal
Demikian pula, suara lemah yang dipancarkan segera setelah
akhir dari suara keras tertutup oleh lebih keras suara. Bahkan suara lemah
sebelum suara keras bisa ditutupi oleh suara keras! Kedua efek ini disebut
pre-temporal pasca-dan masking, masing-masing.
Durasi di mana pra-masking berlaku secara signifikan kurang
dari sepersepuluh dari yang dari posting-masking, yang berada di urutan 50
sampai 200 ms.
3.2 Subband
pemrosesan sinyal dan implementasi polyphase penyaring
Karena sifat masking frekuensi pendengaran manusia ,
representasi terbaik dari audio adalah representasi frekuensi domain , yang
diperoleh dengan menggunakan subband atau mengubah filter bank . Untuk
menganalisis psychoacoustics persepsi telinga manusia dari sinyal audio,
analisis masking dan penugasan bitrate harus disiapkan dan diproses dalam
bingkai dengan panjang yang telah ditentukan sinyal audio; ini mirip dengan
pidato coding , di mana STP juga diolah dalam bingkai dari panjang standar dari
suara manusia . Setiap kode audio frame berisi terutama kode audio, tetapi di
samping :
( 1 ) . tingkat puncak di setiap subband frekuensi ;
( 2 ) . tingkat masking di setiap subband ;
( 3 ) . jumlah bit untuk setiap sampel di setiap subband .
Encoder mengambil frame data audio dan memisahkannya menjadi
beberapa subbands tidak tumpang tindih dengan menggunakan bank filter yang
mencakup seluruh rentang frekuensi audio ( misalnya , 0-22 kHz ) . Sebuah
Transformasi Fourier diskrit ( atau beberapa jenis frekuensi mengubah seperti
discrete cosine transform , DCT ) dapat digunakan untuk menghitung frekuensi
keseluruhan bingkai audio ini sehingga kita dapat membandingkan energi sinyal
dengan ambang masking untuk setiap subband atas dasar para psychoacoustics . Skala
dan modul quantize menggunakan rasio signal-to - mask untuk memutuskan
bagaimana membagi jumlah kode bit yang tersedia untuk kuantisasi dari sinyal
subband sehingga dapat meminimalkan kemampuan mendengar dari kebisingan
kuantisasi .
Dalam pelaksanaan yang sebenarnya coding audio, seperti MPEG
audio, codec membagi setiap frame dari sinyal audio ke 32 sama - lebar (
seragam ) subbands frekuensi daripada band-band penting seragam , karena
penggunaan polyphase struktur filter relatif sederhana .
Dalam subband penyaringan , sinyal input x (n ) , dengan
sampel off rate, didekomposisi menjadi beberapa subbands frekuensi, dengan
menggunakan pendekatan yang seragam DFT penyaring bank .
3.3 MPEG - 1 audio
layer
The Moving Picture Experts Group ( MPEG - 1 ) algoritma
kompresi audio standar internasional pertama [ 11 ] untuk kompresi digital
high-fidelity audio, bersama-sama diadopsi oleh Organisasi Internasional untuk
Standardisasi dan International Electrotechnical Commission ( ISO / IEC ) di
akhir 1992 . Algoritma kompresi MPEG - 1 audio yang awalnya diusulkan sebagai
salah satu dari tiga bagian ( audio, video , dan sistem ) dalam standar
kompresi , pada bitrate total sekitar 1,5 megabit per detik ( Mbps ) .
Kompresi MPEG - 1 audio yang menerima menangkap audio dengan
tingkat sampling dari 32 , 44,1 , atau 48 kHz . Dikompresi bitstream dapat
mendukung satu atau dua saluran audio dan memiliki salah satu dari beberapa
tetap standar bitrate mulai 32-224 kbps per channel , setara dengan rasio
kompresi 24-2,7 . Hal ini umumnya percaya bahwa dengan 6 : 1 rasio kompresi
(yaitu , 16 - bit stereo sampel di 48 kHz sehingga dikompresi hingga 256 kbps )
dan kondisi mendengarkan yang optimal , pendengar ahli tidak bisa membedakan
antara klip audio kode dan asli .
Selain itu, menggunakan timbal balik antara coding
kompleksitas dan rasio kompresi , MPEG – 1 audio yang menawarkan tiga lapisan
independen kompresi .
( 1 ) . Layer 1 memiliki kompleksitas terendah dan bitrate
tertinggi , mulai 32-224 kbps per channel dengan target bitrate 192 kbps per
saluran . Hanya sensitivitas pendengaran dan frekuensi masking sifat
psychoacoustic digunakan . Setiap frame berisi 384 sampel yang diproses oleh 32
subbands sama - lebar, masing-masing berisi 12 subband sampel . Lapisan 1 skema
telah diadopsi di Philips Digital Compact Cassette ( DCC ) di 192 kbps per
saluran .
( 2 ) . Layer 2 memiliki kompleksitas menengah dan
ditargetkan bitrate sekitar 128 kbps per saluran . Kedua frekuensi dan teknik
masking temporal diadopsi . Setiap frame mengandung 1152 sampel yang diproses
oleh 32 subbands sama - lebar , setiap subband menggunakan 36 sampel.
Kemungkinan aplikasi untuk lapisan ini meliputi coding audio untuk penyiaran
audio digital ( DAB ) , penyimpanan disinkronkan urutan video - dan - audio
pada CD - ROM , perpanjangan full motion CD - interaktif ( CD- I) untuk
aplikasi multimedia gaming , video CD ( VCD ) , dan cakram digital serbaguna (
DVD ) untuk banyak film dan sinetron .
( 3 ) . Layer 3 memiliki kompleksitas tertinggi dan
menawarkan kualitas audio terbaik , terutama untuk bitrate sekitar 64 kbps per
saluran . Data terkompresi layer ini juga bernama format MP3 .
3.3.1 Pelaksanaan Polyphase dari MPEG - 1 filter bank
The polyphase pelaksanaan bank MPEG - 1 filter umum untuk
semua tiga lapisan MPEG-1 kompresi audio.
Perhatikan bahwa untuk setiap input sampel 32 Filter bank
menghasilkan 32 sampel output, yaitu masing-masing 32 filter subband
downsamples output sebesar 32 , untuk memproduksi hanya satu sampel output
dalam setiap subband untuk setiap 32 sampel audio baru .
3.3.2 MPEG - 1 audio yang psychoacoustics
psychoacoustics audio MPEG - 1 mengambil keuntungan dari
karakteristik tergantung pada frekuensi sistem pendengaran manusia , karena
ambang masking (untuk masking frekuensi dan / atau temporal masking ) pada
setiap frekuensi yang diberikan semata-mata bergantung pada energi sinyal di
dalam lingkungan yang terbatas bandwidth frekuensi itu, untuk kompresi yang
paling efisien . Lebih khusus lagi, setiap band harus dikuantisasi dengan tingkat
tidak lebih dari yang diperlukan untuk membuat kebisingan kuantisasi tak
terdengar . Encoder menggunakan posisi frekuensi dan kenyaringan yang sesuai
untuk memutuskan cara terbaik untuk mewakili sinyal audio input dengan jumlah
terbatas bit kode .
Setelah pemetaan frekuensi berdasarkan FFT dilakukan ,
langkah-langkah berikut diperlukan untuk analisis psychoacoustics lengkap .
( 1 ) . Grup nilai spektral sesuai dengan bandwidth kritis.
( 2 ) . Pisahkan nilai spektral menjadi komponen-komponen
tonal dan non - tonal atas dasar puncak lokal dari spektrum daya audio .
( 3 ) . Atas dasar dipisahkan komponen tonal dan non - tonal
, menerapkan fungsi masking ditentukan secara empiris untuk menentukan ambang
masking seluruh spektrum audio keseluruhan .
( 4 ) . Mengatur batas bawah pada kemampuan mendengar suara
menggunakan empiris ditentukan ambang masking mutlak.
( 5 ) . Cari ambang masking untuk setiap subband . Model 1
memilih ambang masking minimum dalam setiap subband , sedangkan model 2 memilih
minimal ambang masking ditutupi oleh subband hanya mana band ini relatif
terhadap band penting di wilayah itu frekuensi yang lebar . Ia menggunakan
rata-rata ambang masking ditutupi oleh subband ketika band sempit relatif
terhadap band kritis.
( 6 ) . Hitung rasio signal-to - mask ( SMR ) dan lulus
nilai ini ke bit ( atau kebisingan ) bagian alokasi encoder .
3.3.3 Layer-3 alokasi bit audio
Algoritma MP3 melibatkan pendekatan yang lebih canggih ,
yang, bagaimanapun , masih didasarkan pada filter bank yang sama seperti yang
digunakan pada lapisan 1 dan 2 . Algoritma ini mengkompensasi beberapa
kekurangan filter bank dengan mengolah output penyaring subband dengan discrete
cosine transform dimodifikasi ( MDCT ) dengan jendela panjang 36 . MDCT
selanjutnya membagi output subband frekuensi untuk memberikan resolusi spektral
yang lebih baik ( sekarang 576 band).
3.3.4 Bersama redundansi stereo coding
Algoritma kompresi MPEG - 1 audio yang mendukung dua jenis
stereo coding redundansi :
intensitas stereo coding dan menengah / side ( MS ) stereo
coding . Semua tiga lapisan mendukung Intensitas stereo coding , MP3 juga
mendukung MS coding stereo . Kedua bentuk redundansi coding memanfaatkan
properti lain persepsi dari sistem pendengaran manusia. Hasil Psychoacoustic
menunjukkan bahwa di atas sekitar 2 kHz dan dalam masing-masing band kritis,
sistem pendengaran manusia mendasarkan persepsi pencitraan stereo lebih pada
amplop temporal sinyal audio dari pada struktur temporal baik .
Dalam mode stereo intensitas , kode encoder beberapa output
subband atas frekuensi dengan sinyal tunggal disimpulkan daripada mengirim
independen kode saluran kiri dan kanan untuk masing-masing 32 output subband .
Intensitas stereo decoder merekonstruksi kiri dan kanan saluran hanya
menggunakan sinyal dijumlahkan tunggal dan faktor skala channel independen kiri
dan kanan . Dengan intensitas coding stereo , bentuk spektral dari saluran kiri
dan kanan adalah sama dalam setiap subband intensitas berkode tetapi besarnya
berbeda .
3,4 Dolby AC3 audio
codec
Dalam rangka memberikan audio yang superior coding untuk
multichannel surround sound , sehingga dapat digunakan untuk High Definition
Television ( HDTV ) sementara yang membutuhkan data rate yang sama seperti yang
digunakan dalam sistem suara stereo , AC3 diusulkan dan dikembangkan oleh Dolby
Inc untuk DVD , HDTV , home theater system ( htss ) , dll. Codec audio AC3 ,
yang disebut Dolby Digital Surround audio, mengikuti rekomendasi yang dibuat
oleh Society for Motion Picture dan Television Engineers ( SMPTE , http://www.smpte.org/home
) yang 5,1 saluran (kiri , tengah, kanan , kiri surround , kanan surround ,
subwoofer) dengan target bitrate 320 kbps harus cukup untuk memberikan kualitas
suara yang dicapai oleh format surround-sound 70 mm digunakan di bioskop sejak tahun
1979 .
3.4.1 Alokasi Bit di AC3
Tidak seperti MPEG - 1 coding audio, yang menggunakan metode
forward adaptif mana encoder menghitung alokasi bit dan eksplisit kode alokasi
ke bitstream kode , AC3 menggunakan metode backward adaptif . Lebih khusus ,
encoder MPEG - 1 maju adaptif justru menghitung alokasi bit optimal dalam
batas-batas dari model psychoacoustic digunakan . Meskipun skema coding maju
adaptif dapat melakukan adaptasi dinamis tanpa mengubah decoder terpasang ,
karena modifikasi dari model psychoacoustic berada hanya dalam encoder , ada
biaya dalam penurunan kinerja karena kebutuhan untuk memberikan alokasi bit
eksplisit untuk decoder .
3.4.2 Bank Filter
The AC3 mengambil blok tumpang tindih dari 512 sampel
berjendela (berdasarkan proprietary 512-point jendela Fielder [16]) dan
mengubahnya menjadi 256 poin frekuensi-domain. Setiap blok transformasi
terbentuk dari audio yang mewakili 10,66 ms (pada sample rate kHz 48), meskipun
transformasi dilakukan setiap 5,33 ms karena 50% tumpang tindih.
3.4.3 amplop spektral
Setiap koefisien transformasi individu dikodekan ke eksponen
dan mantissa a. Eksponen memungkinkan untuk dynamic range yang lebar sementara
mantissa dikodekan dengan presisi yang terbatas, yang menghasilkan
mengkuantisasi kebisingan. Himpunan kode eksponen membentuk representasi dari
spektrum sinyal secara keseluruhan dan disebut sebagai amplop spektral. The AC3
coder mengkodekan amplop spektral diferensial dalam frekuensi.
3.4.4 Coupling
Meskipun teknik coding dipekerjakan oleh AC3 sangat kuat,
ketika coder dioperasikan pada bitrate yang sangat rendah ada kondisi sinyal di
mana coder akan kehabisan bit. Ketika ini terjadi, teknik kopling dipanggil.
Coupling mengambil keuntungan dari fakta bahwa telinga tidak mampu mandiri
mendeteksi arah dua sinyal frekuensi tinggi yang sangat erat spasi frekuensi.
Ketika coder AC3 menjadi kekurangan bit, saluran secara selektif digabungkan
pada frekuensi tinggi. Frekuensi di mana kopling mulai disebut frekuensi
kopling. Atas frekuensi kopling saluran yang akan digabungkan digabungkan
menjadi kopling (atau umum) saluran.
Perawatan harus diambil dengan fase sinyal untuk digabungkan
untuk menghindari sinyal pembatalan. Encoder mengukur kekuatan Sinyal asli dari
saluran masukan individu dalam band frekuensi yang sempit, serta kekuatan dalam
saluran ditambah dalam pita frekuensi yang sama. Encoder menghasilkan kopling
koordinat untuk setiap saluran individu, yang menunjukkan rasio kekuatan sinyal
asli dalam sebuah band dengan daya saluran kopling di band. Saluran kopling
dikodekan dalam cara yang sama seperti saluran individu, ada amplop spektral
kode eksponen dan satu set Mantisa terkuantisasi.
3,5 MPEG-2 Advanced
Audio Coding (AAC)
Untuk memajukan teknologi pengkodean audio yang luar MP3 dan
AC3, upaya digagas untuk menciptakan coder audio baru yang dapat menghasilkan
kualitas dibedakan pada 64 kbps per saluran mono. Upaya ini menyebabkan
perkembangan dari MPEG-2 Advanced Audio Coding (AAC). Penelitian dan
pengembangan ini upaya gabungan dari laboratorium terkemuka audio dunia coding,
seperti Fraunhofer Institute, Dolby, Sony, dan AT & T. Secara teknis,
format AAC dapat mendukung hingga 48 saluran suara penuh frekuensi dan 16
saluran tambahan lowfrequency.
Format AAC, yang standar pada tahun 1997, dibangun di atas
struktur yang mirip dengan MP3 dan dengan demikian mempertahankan sebagian
besar fitur desain. Tapi tidak seperti lapisan MPEG sebelumnya, AAC menggunakan
pendekatan modular, yang memungkinkan ide-ide baru untuk dikembangkan dan
terhubung ke struktur dasar dan menyediakan signifikan lebih coding daya.
Pendekatan modular ini dapat diringkas sebagai berikut.
(1). Bank Filter Berbeda dengan MP3,
(2). Kebisingan Temporal membentuk (TNS)
(3). Prediksi Seperti dibahas di atas, sinyal yang bersifat
sementara dalam domain waktu tonal dalam domain frekuensi, yaitu, sebagian
besar terdiri dari sinus beberapa, yang dapat diprediksi dengan menggunakan
analisis LP dalam domain spektral.
(4). MS stereo
(5). Kuantisasi Dengan memungkinkan kontrol yang lebih baik
resolusi kuantisasi, bitrate yang diberikan dapat digunakan lebih efisien.
(6). Huffman coding
(7). Bitstream Format Entropy coding
3,6 MPEG-4 AAC
(HE-AAC)
MPEG-2 sistem AAC telah lebih ditingkatkan dan diubah
menjadi paling efisien audio yang coding standar saat ini, yang disebut
Efisiensi Tinggi AAC (HE-AAC atau HE-AAC v1) dan HE-AAC v2, perangkat ini
ditujukan terutama untuk aplikasi delay-kritis atau untuk pengkodean scalable
konten multimedia.
3.6.1 Band replikasi spektral (SBR)
Replikasi Band spektral dapat dioperasikan sebagai berikut:
codec sendiri mentransmisikan frekuensi yang lebih rendah dari spektrum
sedangkan SBR mensintesis isi frekuensi yang lebih tinggi terkait dengan
menggunakan frekuensi yang lebih rendah dan sisi informasi ditransmisikan.
Ketika diterapkan, melibatkan rekonstruksi spektrum frekuensi suara seperti
dengan menggunakan noise generator dengan beberapa informasi statistik
(tingkat, distribusi, rentang), sehingga hasil decoding tidak deterministik
antara beberapa proses decoding data dikodekan sama. Ide SBR didasarkan pada
prinsip bahwa otak manusia cenderung untuk mempertimbangkan frekuensi tinggi
(highband) untuk menjadi baik fenomena harmonik terkait dengan frekuensi yang
lebih rendah (low-band) atau kebisingan dan dengan demikian kurang sensitif
terhadap kandungan yang tepat dari frekuensi tinggi dalam audio sinyal.
3.6.2 MPEG-4 HE-AAC v2
MPEG-4 HE-AAC v2 standar [26] [27] menggabungkan HE-AAC
(AACþ) dengan stereo parametrik (PS) teknik untuk sangat-rendah-bitrate audio,
seperti 32 kbps untuk input stereo. Teknik PS mentransmisikan satu saluran mono
gabungan ditambah 2-3 kbps informasi samping dan mencapai efisiensi hampir 50%
lebih baik daripada AACþ bila digunakan untuk internet, mobile, penyiaran, dan
domain lainnya dengan sumber daya terbatas. HE-AAC v2 codec merupakan bagian
dari standar 3GPP untuk pengiriman konten audio ke perangkat 3G.
Sedangkan SBR mengeksploitasi kemungkinan representasi parameter
dari band tinggi, ide dasar di balik PS adalah untuk parameterisasi gambar
stereo sinyal audio sebagai "panorama," "suasana," atau
"perbedaan waktu fase" dari saluran stereo , dalam rangka
meningkatkan efisiensi coding dari codec. Dalam encoder, hanya downmix mono
dari sinyal stereo asli dikodekan setelah ekstraksi dari data PS. Sama seperti
untuk data SBR, parameter ini kemudian tertanam sebagai PS sisi informasi di bagian
tambahan dari bitstream.
Mind Mapping
Sumber :
Multimedia Networking from theory
to practice (Jeng Neng Hwang).
oleh:
Rahmah Noor Fadiyah - 5110100050