College Life

Pada tahun 1979 , Philips dan Sony membentuk tim untuk merancang disk audio digital baru untuk merekam audio musik dalam format digital . Setelah satu tahun percobaan dan diskusi , yang dihasilkan adalah CD yang tersedia di pasar pada akhir tahun 1982 . CD audio terdiri dari satu atau lebih stereo trek disimpan menggunakan 16 - bit PCM coding pada tingkat sampling 44,1 kHz . Compact disk standar memiliki diameter 120 mm dan dapat menampung sekitar 60-80 menit audio . Dari asal-usulnya sebagai format musik , CD telah berkembang meliputi aplikasi lain , misalnya CD - ROM ( read-only memory ) dan CD- R / W. Compact disk saat ini sudah banyak digunakan sebagai media penyimpanan data untuk komputer dan elektronik konsumen . Kebutuhan kapasitas asli untuk merekam audio digital adalah sekitar 635 megabyte ( MB ) per jam atau 1,411 Mbps .

Yang terkenal gelombang format audio yang berbasis komputer penyimpanan, ( format audio yang gelombang , dengan ekstensi * . Wav ) WAV, pada awalnya dikembangkan oleh Microsoft dan IBM . File-file audio yang biasanya tidak dikompresi (yaitu , lossless ) tetapi dapat bertindak sebagai " wrapper " untuk berbagai codec kompresi audio , seperti skema ADPCM lossy yang mencapai rasio kompresi yang sekitar 4 : 1 dan tetes bitrate ke bawah sekitar 350 kbps . Sayangnya , rasio kompresi ini tidak memuaskan untuk banyak aplikasi . Untuk meningkatkan efisiensi kompresi data lebih lanjut kita harus resor untuk teknik yang lebih maju .

3.1 psychoacoustics Manusia

Sebagaimana disebutkan di atas , persepsi manusia suara melibatkan beberapa efek psikologis .

Sebagai contoh, telinga manusia adalah sekitar logaritmik respon subyektif untuk meningkatkan volume . Pendengaran manusia memiliki dynamic range sekitar 110 desibel ( dB ) . Selain itu , respon telinga untuk distribusi spektral tetap audio subyektif berbeda sebagai perubahan volume , misalnya , bass tampaknya menjadi lebih jelas dengan meningkatnya volume dan subyektif " kekayaan " meningkat nada selama sekitar tingkat kenyaringan 60 dB . Fakta-fakta ini membawa kita untuk mempelajari psychoacoustics manusia , sebagai berikut .

( 1 ) . Mendengar sensitivitas

Taruh seseorang di ruangan yang tenang . Meningkatkan tingkat nada frekuensi tertentu sampai hanya nyaris tak terdengar . Variasikan frekuensi dan plot ambang ini pendengaran .

( 2 ) . Frekuensi masking

Selidiki bagaimana nada keras mempengaruhi nada frekuensi tetangga dalam persepsi manusia.

( 3 ) . Temporal masking

Selidiki bagaimana nada keras mempengaruhi berikutnya ( atau sebelumnya ) nada dalam persepsi manusia .

3.1.1 sensitivitas Pendengaran

Cochleas telinga kita melakukan analisis perkiraan frekuensi dalam kisaran antara 20 Hz sampai 20 kHz , ini mirip dengan Fourier transform sempurna dengan resolusi frekuensi yang terbatas .

Selain itu , resolusi frekuensi telinga kita menurun dengan meningkatnya frekuensi. Oleh karena itu kita dapat menentukan ambang mutlak pendengaran ( atau bidang minimum terdengar, MAF ) , yang mencirikan jumlah energi yang dibutuhkan dalam nada murni untuk itu untuk dideteksi oleh pendengar di lingkungan bersuara.

Lebih khusus , ambang mutlak pendengaran , sebagaimana didefinisikan dengan menggunakan tingkat tekanan suara ( SPL ) .

Dengan mengetahui sensitivitas pendengaran sistem pendengaran kami , menjadi jelas bahwa kita dapat mengambil keuntungan dari ini selama kuantisasi sampel audio. Lebih khusus , dalam rangka untuk quantize audio sampel sehingga untuk kompres data , kita harus memilih cukup bit per sampel untuk mengurangi kebisingan kuantisasi yang dihasilkan ke tingkat yang memuaskan .

Rentang frekuensi audio dapat dibagi menjadi sekitar 25 band kritis. Dibangun di atas definisi band kritis, cara lain untuk mendefinisikan unit frekuensi , yang disebut " kulit , " diperkenalkan . Kulit A didefinisikan sebagai unit frekuensi untuk satu pita kritis .

3.1.2 Frekuensi masking

Dalam persepsi telinga manusia , kanal frekuensi yang berbeda dapat mengganggu satu sama lain . Lebih khusus lagi, mari kita memainkan nada Hz 250 ( yang masker ) pada tingkat yang kuat tetap ( 65 dB ) dan memainkan nada tes kedua ( misalnya , 180 Hz ) pada tingkat yang lebih rendah secara bersamaan dan meningkatkan tingkat sampai hanya dibedakan ( ambang pendengaran ) . Hal ini dapat diamati bahwa suara keras ( masker ) akan mendistorsi ambang mutlak pendengaran sehubungan dengan logaritma dari frekuensi dalam kHz dan membuat suara lebih tenang ( suara bertopeng ) , yang semula terdengar, tak terdengar . Efek ini disebut " frekuensi masking " . Dalam frekuensi seperti percobaan masking pendengaran ambang sensitivitas dapat berubah secara drastis ketika beberapa masker yang hadir.

3.1.3 masking Temporal

Demikian pula, suara lemah yang dipancarkan segera setelah akhir dari suara keras tertutup oleh lebih keras suara. Bahkan suara lemah sebelum suara keras bisa ditutupi oleh suara keras! Kedua efek ini disebut pre-temporal pasca-dan masking, masing-masing.

Durasi di mana pra-masking berlaku secara signifikan kurang dari sepersepuluh dari yang dari posting-masking, yang berada di urutan 50 sampai 200 ms.

3.2 Subband pemrosesan sinyal dan implementasi polyphase penyaring

Karena sifat masking frekuensi pendengaran manusia , representasi terbaik dari audio adalah representasi frekuensi domain , yang diperoleh dengan menggunakan subband atau mengubah filter bank . Untuk menganalisis psychoacoustics persepsi telinga manusia dari sinyal audio, analisis masking dan penugasan bitrate harus disiapkan dan diproses dalam bingkai dengan panjang yang telah ditentukan sinyal audio; ini mirip dengan pidato coding , di mana STP juga diolah dalam bingkai dari panjang standar dari suara manusia . Setiap kode audio frame berisi terutama kode audio, tetapi di samping :

( 1 ) . tingkat puncak di setiap subband frekuensi ;

( 2 ) . tingkat masking di setiap subband ;

( 3 ) . jumlah bit untuk setiap sampel di setiap subband .

Encoder mengambil frame data audio dan memisahkannya menjadi beberapa subbands tidak tumpang tindih dengan menggunakan bank filter yang mencakup seluruh rentang frekuensi audio ( misalnya , 0-22 kHz ) . Sebuah Transformasi Fourier diskrit ( atau beberapa jenis frekuensi mengubah seperti discrete cosine transform , DCT ) dapat digunakan untuk menghitung frekuensi keseluruhan bingkai audio ini sehingga kita dapat membandingkan energi sinyal dengan ambang masking untuk setiap subband atas dasar para psychoacoustics . Skala dan modul quantize menggunakan rasio signal-to - mask untuk memutuskan bagaimana membagi jumlah kode bit yang tersedia untuk kuantisasi dari sinyal subband sehingga dapat meminimalkan kemampuan mendengar dari kebisingan kuantisasi .

Dalam pelaksanaan yang sebenarnya coding audio, seperti MPEG audio, codec membagi setiap frame dari sinyal audio ke 32 sama - lebar ( seragam ) subbands frekuensi daripada band-band penting seragam , karena penggunaan polyphase struktur filter relatif sederhana .

Dalam subband penyaringan , sinyal input x (n ) , dengan sampel off rate, didekomposisi menjadi beberapa subbands frekuensi, dengan menggunakan pendekatan yang seragam DFT penyaring bank .

3.3 MPEG - 1 audio layer

The Moving Picture Experts Group ( MPEG - 1 ) algoritma kompresi audio standar internasional pertama [ 11 ] untuk kompresi digital high-fidelity audio, bersama-sama diadopsi oleh Organisasi Internasional untuk Standardisasi dan International Electrotechnical Commission ( ISO / IEC ) di akhir 1992 . Algoritma kompresi MPEG - 1 audio yang awalnya diusulkan sebagai salah satu dari tiga bagian ( audio, video , dan sistem ) dalam standar kompresi , pada bitrate total sekitar 1,5 megabit per detik ( Mbps ) .

Kompresi MPEG - 1 audio yang menerima menangkap audio dengan tingkat sampling dari 32 , 44,1 , atau 48 kHz . Dikompresi bitstream dapat mendukung satu atau dua saluran audio dan memiliki salah satu dari beberapa tetap standar bitrate mulai 32-224 kbps per channel , setara dengan rasio kompresi 24-2,7 . Hal ini umumnya percaya bahwa dengan 6 : 1 rasio kompresi (yaitu , 16 - bit stereo sampel di 48 kHz sehingga dikompresi hingga 256 kbps ) dan kondisi mendengarkan yang optimal , pendengar ahli tidak bisa membedakan antara klip audio kode dan asli .

Selain itu, menggunakan timbal balik antara coding kompleksitas dan rasio kompresi , MPEG – 1 audio yang menawarkan tiga lapisan independen kompresi .

( 1 ) . Layer 1 memiliki kompleksitas terendah dan bitrate tertinggi , mulai 32-224 kbps per channel dengan target bitrate 192 kbps per saluran . Hanya sensitivitas pendengaran dan frekuensi masking sifat psychoacoustic digunakan . Setiap frame berisi 384 sampel yang diproses oleh 32 subbands sama - lebar, masing-masing berisi 12 subband sampel . Lapisan 1 skema telah diadopsi di Philips Digital Compact Cassette ( DCC ) di 192 kbps per saluran .

( 2 ) . Layer 2 memiliki kompleksitas menengah dan ditargetkan bitrate sekitar 128 kbps per saluran . Kedua frekuensi dan teknik masking temporal diadopsi . Setiap frame mengandung 1152 sampel yang diproses oleh 32 subbands sama - lebar , setiap subband menggunakan 36 sampel. Kemungkinan aplikasi untuk lapisan ini meliputi coding audio untuk penyiaran audio digital ( DAB ) , penyimpanan disinkronkan urutan video - dan - audio pada CD - ROM , perpanjangan full motion CD - interaktif ( CD- I) untuk aplikasi multimedia gaming , video CD ( VCD ) , dan cakram digital serbaguna ( DVD ) untuk banyak film dan sinetron .

( 3 ) . Layer 3 memiliki kompleksitas tertinggi dan menawarkan kualitas audio terbaik , terutama untuk bitrate sekitar 64 kbps per saluran . Data terkompresi layer ini juga bernama format MP3 .

3.3.1 Pelaksanaan Polyphase dari MPEG - 1 filter bank

The polyphase pelaksanaan bank MPEG - 1 filter umum untuk semua tiga lapisan MPEG-1 kompresi audio.

Perhatikan bahwa untuk setiap input sampel 32 Filter bank menghasilkan 32 sampel output, yaitu masing-masing 32 filter subband downsamples output sebesar 32 , untuk memproduksi hanya satu sampel output dalam setiap subband untuk setiap 32 sampel audio baru .

3.3.2 MPEG - 1 audio yang psychoacoustics

psychoacoustics audio MPEG - 1 mengambil keuntungan dari karakteristik tergantung pada frekuensi sistem pendengaran manusia , karena ambang masking (untuk masking frekuensi dan / atau temporal masking ) pada setiap frekuensi yang diberikan semata-mata bergantung pada energi sinyal di dalam lingkungan yang terbatas bandwidth frekuensi itu, untuk kompresi yang paling efisien . Lebih khusus lagi, setiap band harus dikuantisasi dengan tingkat tidak lebih dari yang diperlukan untuk membuat kebisingan kuantisasi tak terdengar . Encoder menggunakan posisi frekuensi dan kenyaringan yang sesuai untuk memutuskan cara terbaik untuk mewakili sinyal audio input dengan jumlah terbatas bit kode .

Setelah pemetaan frekuensi berdasarkan FFT dilakukan , langkah-langkah berikut diperlukan untuk analisis psychoacoustics lengkap .

( 1 ) . Grup nilai spektral sesuai dengan bandwidth kritis.

( 2 ) . Pisahkan nilai spektral menjadi komponen-komponen tonal dan non - tonal atas dasar puncak lokal dari spektrum daya audio .

( 3 ) . Atas dasar dipisahkan komponen tonal dan non - tonal , menerapkan fungsi masking ditentukan secara empiris untuk menentukan ambang masking seluruh spektrum audio keseluruhan .

( 4 ) . Mengatur batas bawah pada kemampuan mendengar suara menggunakan empiris ditentukan ambang masking mutlak.

( 5 ) . Cari ambang masking untuk setiap subband . Model 1 memilih ambang masking minimum dalam setiap subband , sedangkan model 2 memilih minimal ambang masking ditutupi oleh subband hanya mana band ini relatif terhadap band penting di wilayah itu frekuensi yang lebar . Ia menggunakan rata-rata ambang masking ditutupi oleh subband ketika band sempit relatif terhadap band kritis.

( 6 ) . Hitung rasio signal-to - mask ( SMR ) dan lulus nilai ini ke bit ( atau kebisingan ) bagian alokasi encoder .

3.3.3 Layer-3 alokasi bit audio

Algoritma MP3 melibatkan pendekatan yang lebih canggih , yang, bagaimanapun , masih didasarkan pada filter bank yang sama seperti yang digunakan pada lapisan 1 dan 2 . Algoritma ini mengkompensasi beberapa kekurangan filter bank dengan mengolah output penyaring subband dengan discrete cosine transform dimodifikasi ( MDCT ) dengan jendela panjang 36 . MDCT selanjutnya membagi output subband frekuensi untuk memberikan resolusi spektral yang lebih baik ( sekarang 576 band).

3.3.4 Bersama redundansi stereo coding

Algoritma kompresi MPEG - 1 audio yang mendukung dua jenis stereo coding redundansi :

intensitas stereo coding dan menengah / side ( MS ) stereo coding . Semua tiga lapisan mendukung Intensitas stereo coding , MP3 juga mendukung MS coding stereo . Kedua bentuk redundansi coding memanfaatkan properti lain persepsi dari sistem pendengaran manusia. Hasil Psychoacoustic menunjukkan bahwa di atas sekitar 2 kHz dan dalam masing-masing band kritis, sistem pendengaran manusia mendasarkan persepsi pencitraan stereo lebih pada amplop temporal sinyal audio dari pada struktur temporal baik .

Dalam mode stereo intensitas , kode encoder beberapa output subband atas frekuensi dengan sinyal tunggal disimpulkan daripada mengirim independen kode saluran kiri dan kanan untuk masing-masing 32 output subband . Intensitas stereo decoder merekonstruksi kiri dan kanan saluran hanya menggunakan sinyal dijumlahkan tunggal dan faktor skala channel independen kiri dan kanan . Dengan intensitas coding stereo , bentuk spektral dari saluran kiri dan kanan adalah sama dalam setiap subband intensitas berkode tetapi besarnya berbeda .

3,4 Dolby AC3 audio codec

Dalam rangka memberikan audio yang superior coding untuk multichannel surround sound , sehingga dapat digunakan untuk High Definition Television ( HDTV ) sementara yang membutuhkan data rate yang sama seperti yang digunakan dalam sistem suara stereo , AC3 diusulkan dan dikembangkan oleh Dolby Inc untuk DVD , HDTV , home theater system ( htss ) , dll. Codec audio AC3 , yang disebut Dolby Digital Surround audio, mengikuti rekomendasi yang dibuat oleh Society for Motion Picture dan Television Engineers ( SMPTE , http://www.smpte.org/home ) yang 5,1 saluran (kiri , tengah, kanan , kiri surround , kanan surround , subwoofer) dengan target bitrate 320 kbps harus cukup untuk memberikan kualitas suara yang dicapai oleh format surround-sound 70 mm digunakan di bioskop sejak tahun 1979 .

3.4.1 Alokasi Bit di AC3

Tidak seperti MPEG - 1 coding audio, yang menggunakan metode forward adaptif mana encoder menghitung alokasi bit dan eksplisit kode alokasi ke bitstream kode , AC3 menggunakan metode backward adaptif . Lebih khusus , encoder MPEG - 1 maju adaptif justru menghitung alokasi bit optimal dalam batas-batas dari model psychoacoustic digunakan . Meskipun skema coding maju adaptif dapat melakukan adaptasi dinamis tanpa mengubah decoder terpasang , karena modifikasi dari model psychoacoustic berada hanya dalam encoder , ada biaya dalam penurunan kinerja karena kebutuhan untuk memberikan alokasi bit eksplisit untuk decoder .

3.4.2 Bank Filter

The AC3 mengambil blok tumpang tindih dari 512 sampel berjendela (berdasarkan proprietary 512-point jendela Fielder [16]) dan mengubahnya menjadi 256 poin frekuensi-domain. Setiap blok transformasi terbentuk dari audio yang mewakili 10,66 ms (pada sample rate kHz 48), meskipun transformasi dilakukan setiap 5,33 ms karena 50% tumpang tindih.

3.4.3 amplop spektral

Setiap koefisien transformasi individu dikodekan ke eksponen dan mantissa a. Eksponen memungkinkan untuk dynamic range yang lebar sementara mantissa dikodekan dengan presisi yang terbatas, yang menghasilkan mengkuantisasi kebisingan. Himpunan kode eksponen membentuk representasi dari spektrum sinyal secara keseluruhan dan disebut sebagai amplop spektral. The AC3 coder mengkodekan amplop spektral diferensial dalam frekuensi.

3.4.4 Coupling

Meskipun teknik coding dipekerjakan oleh AC3 sangat kuat, ketika coder dioperasikan pada bitrate yang sangat rendah ada kondisi sinyal di mana coder akan kehabisan bit. Ketika ini terjadi, teknik kopling dipanggil. Coupling mengambil keuntungan dari fakta bahwa telinga tidak mampu mandiri mendeteksi arah dua sinyal frekuensi tinggi yang sangat erat spasi frekuensi. Ketika coder AC3 menjadi kekurangan bit, saluran secara selektif digabungkan pada frekuensi tinggi. Frekuensi di mana kopling mulai disebut frekuensi kopling. Atas frekuensi kopling saluran yang akan digabungkan digabungkan menjadi kopling (atau umum) saluran.

Perawatan harus diambil dengan fase sinyal untuk digabungkan untuk menghindari sinyal pembatalan. Encoder mengukur kekuatan Sinyal asli dari saluran masukan individu dalam band frekuensi yang sempit, serta kekuatan dalam saluran ditambah dalam pita frekuensi yang sama. Encoder menghasilkan kopling koordinat untuk setiap saluran individu, yang menunjukkan rasio kekuatan sinyal asli dalam sebuah band dengan daya saluran kopling di band. Saluran kopling dikodekan dalam cara yang sama seperti saluran individu, ada amplop spektral kode eksponen dan satu set Mantisa terkuantisasi.

3,5 MPEG-2 Advanced Audio Coding (AAC)

Untuk memajukan teknologi pengkodean audio yang luar MP3 dan AC3, upaya digagas untuk menciptakan coder audio baru yang dapat menghasilkan kualitas dibedakan pada 64 kbps per saluran mono. Upaya ini menyebabkan perkembangan dari MPEG-2 Advanced Audio Coding (AAC). Penelitian dan pengembangan ini upaya gabungan dari laboratorium terkemuka audio dunia coding, seperti Fraunhofer Institute, Dolby, Sony, dan AT & T. Secara teknis, format AAC dapat mendukung hingga 48 saluran suara penuh frekuensi dan 16 saluran tambahan lowfrequency.

Format AAC, yang standar pada tahun 1997, dibangun di atas struktur yang mirip dengan MP3 dan dengan demikian mempertahankan sebagian besar fitur desain. Tapi tidak seperti lapisan MPEG sebelumnya, AAC menggunakan pendekatan modular, yang memungkinkan ide-ide baru untuk dikembangkan dan terhubung ke struktur dasar dan menyediakan signifikan lebih coding daya. Pendekatan modular ini dapat diringkas sebagai berikut.

(1). Bank Filter Berbeda dengan MP3,

(2). Kebisingan Temporal membentuk (TNS)

(3). Prediksi Seperti dibahas di atas, sinyal yang bersifat sementara dalam domain waktu tonal dalam domain frekuensi, yaitu, sebagian besar terdiri dari sinus beberapa, yang dapat diprediksi dengan menggunakan analisis LP dalam domain spektral.

(4). MS stereo

(5). Kuantisasi Dengan memungkinkan kontrol yang lebih baik resolusi kuantisasi, bitrate yang diberikan dapat digunakan lebih efisien.

(6). Huffman coding

(7). Bitstream Format Entropy coding

3,6 MPEG-4 AAC (HE-AAC)

MPEG-2 sistem AAC telah lebih ditingkatkan dan diubah menjadi paling efisien audio yang coding standar saat ini, yang disebut Efisiensi Tinggi AAC (HE-AAC atau HE-AAC v1) dan HE-AAC v2, perangkat ini ditujukan terutama untuk aplikasi delay-kritis atau untuk pengkodean scalable konten multimedia.

3.6.1 Band replikasi spektral (SBR)

Replikasi Band spektral dapat dioperasikan sebagai berikut: codec sendiri mentransmisikan frekuensi yang lebih rendah dari spektrum sedangkan SBR mensintesis isi frekuensi yang lebih tinggi terkait dengan menggunakan frekuensi yang lebih rendah dan sisi informasi ditransmisikan. Ketika diterapkan, melibatkan rekonstruksi spektrum frekuensi suara seperti dengan menggunakan noise generator dengan beberapa informasi statistik (tingkat, distribusi, rentang), sehingga hasil decoding tidak deterministik antara beberapa proses decoding data dikodekan sama. Ide SBR didasarkan pada prinsip bahwa otak manusia cenderung untuk mempertimbangkan frekuensi tinggi (highband) untuk menjadi baik fenomena harmonik terkait dengan frekuensi yang lebih rendah (low-band) atau kebisingan dan dengan demikian kurang sensitif terhadap kandungan yang tepat dari frekuensi tinggi dalam audio sinyal.

3.6.2 MPEG-4 HE-AAC v2

MPEG-4 HE-AAC v2 standar [26] [27] menggabungkan HE-AAC (AACþ) dengan stereo parametrik (PS) teknik untuk sangat-rendah-bitrate audio, seperti 32 kbps untuk input stereo. Teknik PS mentransmisikan satu saluran mono gabungan ditambah 2-3 kbps informasi samping dan mencapai efisiensi hampir 50% lebih baik daripada AACþ bila digunakan untuk internet, mobile, penyiaran, dan domain lainnya dengan sumber daya terbatas. HE-AAC v2 codec merupakan bagian dari standar 3GPP untuk pengiriman konten audio ke perangkat 3G.

Sedangkan SBR mengeksploitasi kemungkinan representasi parameter dari band tinggi, ide dasar di balik PS adalah untuk parameterisasi gambar stereo sinyal audio sebagai "panorama," "suasana," atau "perbedaan waktu fase" dari saluran stereo , dalam rangka meningkatkan efisiensi coding dari codec. Dalam encoder, hanya downmix mono dari sinyal stereo asli dikodekan setelah ekstraksi dari data PS. Sama seperti untuk data SBR, parameter ini kemudian tertanam sebagai PS sisi informasi di bagian tambahan dari bitstream.

Mind Mapping

Sumber :

Multimedia Networking from theory to practice (Jeng Neng Hwang).

oleh:

Rahmah Noor Fadiyah - 5110100050

College Life

Rabu, 16 Oktober 2013

DIGITAL AUDIO CODING

Senin, 23 September 2013

Digital Life in Ubiquitous World

About Me

Followers

About Me

Blog Archive

Followers

Followers

Blog Archive

Followers