マルチメディア表現 課題

4399098 樋口 岳

音声

まず、サンプル音声信号のピッチ周波数とフォルマント周波数を調べた。
ピッチ周波数[Hz] 第1フォルマント周波数[Hz] 第2フォルマント周波数[Hz]
サンプル1
onsei
61.5 6000 1750
サンプル2
aiueo
50 700 1800

次に自分の音声信号をサンプルし、ピッチ周波数とフォルマント周波数を調べた。
ピッチ周波数[Hz] 第1フォルマント周波数[Hz] 第2フォルマント周波数[Hz]
自分の声 32.6 800 3200
また、そのとき使用した音声のスペクトラムを下図に示す。


次に、TTSデモで合成音声を作成した。スペクトラムを下図に示す。



MPEG1の圧縮率と画質

MPEG1動画を圧縮した。元々大きく動いている部分が中央の女性だけである上に、モノクロであるため、600kbpsでもかなり良好な画質が得られている。300kbpsになるとブロックノイズが目立つようになり、認識には問題はないが、鑑賞という点では既に大きな問題となる。高周波のランダムノイズは壁などではビットレートが低くなるとむしろ目立たなくなるが、カレンダーなどは文字が動きぶよぶよとした感じになる。

 また、エンコーダに低いbitrateを設定しても、実際には下がりきらない。MPEG1の限界であると思われる。実際問題として、300kbpsを切る低帯域では画質もサイズも有利なMPEG4などの低帯域用CODECを利用する方が多い。

設定bitrate
[kbps]
filesize
[KB]
実bitrate(概算)
[kbps]
1200 494 1200
600 247 600
300 121 295
150 110 265
80 109 265



JPEGの圧縮率と画質

JPEGのquarity設定と画質、圧縮率の比較。画像はクリックで拡大。
画質に関しては、設定5ではさすがにもとの画像との差は歴然であり、元が何の画像かは判別できるものの、鑑賞に堪えうるものではない。一方、20以上の設定となると、画像表示ソフトなどで拡大すればブロックノイズが見て取れるものの、等倍の画像ではぱっと見た限りでは差はさほど感じなくなる。従って、ファイルサイズと画質のバランス的には20が最適であると考えられる。
quality 圧縮率[%] SNR[dB] 画像サムネイル
5 0.693 25.7
10 1.39 28.6
20 2.25 31.1
30 2.95 32.5
40 3.47 33.5
50 3.99 34.4


圧縮率とSNRの関係