超人ＭＳＸ

ＭＳＸに口をつける！

文字通り「ＭＳＸに喋らせる」、すなわち、ＭＳＸで音声再生する方法は色々と有りますが、ここではＭＳＸ１本体のみを使って出来る方法（、ただし、何らかの記録メディアは必須です。ここではフロッピーディスクを使っています）について書いてみます。ただし、私は物理も数学も分からないので、全て理解して書いているわけでは有りません。本人にはその気はありませんが、このページに書いていることはウソかもしれません。ご了承の程をお願いします

ＭＳＸに喋らせる実験ファイル　MSX1 RAM64K ﾃﾞｨｽｸﾄﾞﾗｲﾌﾞ必須

ＰＳＧ－ＰＣＭについて

ＰＳＧで再生できるのは４ｂｉｔモノラルＰＣＭデータです。ＰＣＭとは何か？というと「Pulse Code Modulation」の頭文字です。日本語だと「脈符号変調」ですが、パルス符号変調／パルス符号化などと言います。以下は『コンピュータ音声処理』（安居院猛／中嶋正之著１９８０年）という本を読んで、私の理解で書いたＰＣＭの説明です

パルス符号変調（Pulse Code Modulation）

アナログの信号の波形の振幅を、一定間隔で記録してデジタル化すること。これをＰＣＭと略す。この場合に記録することをサンプリングと言い、１秒間のサンプリングの頻度をサンプリング周波数と呼ぶ。
　振幅を数値化する際は、コンピュータで扱いやすい２進数で区切りの良い段階に分ける。例えば２進数４ビットで表せる数値でＰＣＭデータにするとすれば、１６段階（又は１５段階）となり、波形が０と交差する所を0000とする方法と、1000とする方法（とその他？）がある

　４ビットでＰＣＭする場合　　　　　　　　　　符号あり　符号なし　　　　　最大値→　0111　　　1111　←最大値　　　　　　　　　　0110　　　1110 　　　　　　　　　　0101　　　1101 　　　　　　　　　　0100　　　1100 　　　　　　　　　　0011　　　1011 　　　　　　　　　　0010　　　1010 　　　　　　　　　　0001　　　1001 　ここを０とする→　0000　　　1000　←ここを０とする　　　　　　　　　　1111　　　0111 　　　　　　　　　　1110　　　0110 　　　　　　　　　　1101　　　0101 　　　　　　　　　　1100　　　0100 　　　　　　　　　　1011　　　0011 　　　　　　　　　　1010　　　0010 　　　（最小値→）　1001　　　0001　（←最小値）　　　　　最小値→　1000　　　0000　←最小値

サンプリングをする前に、サンプリング周波数の１／２に相当する周波数以上の高周波成分を取り除かなければ、上手くサンプリング出来ない。例えば８ｋＨｚでサンプリングするなら、４ｋＨｚ以上の成分をカットしておく。これをアンチエイリアスフィルタ（anti-alias filter）と呼ぶ。

変調時の信号対雑音比（Ｓ／Ｎ比)は、数式の「６（ビット数－１）」で求められる。例えば、Ｓ／Ｎ比６０ｄＢ、１０ｋＨｚ、１秒間なら

　　　　6(bits-1)=60　→　bits=11

となり、メモリは１１×１０ｋＨｚで、１１０Ｋビット≒１４Ｋバイト必要となる。

ＰＳＧは４ビット固定なので、変調時の理想的なＳ／Ｎ比１８ｄＢ、８ｋＨｚなら４×８ｋＨｚで、１秒３２Ｋビット＝４Ｋバイト必要

（１９８０年当時の）電話の音質が３ｋＨｚ程なので、サンプリングに必要な周波数は２倍（そういう定理がある）の６ｋＨｚ程となり、７ｋＨｚのサンプリングで電話以上の音質となる。８ｋＨｚ有れば、音質重視以外の大抵の用途に使える

今、ＭＳＸ用にＰＣＭデータを作るとすれば、Ｗｉｎｄｏｗｓ等のパソコンを使うのが一番簡単だと思います。試しに、Ｗｉｎｄｏｗｓで８ビットモノラルＷＡＶ録音（又は変換）したファイル（中を見たら「符号なし」、すなわち０が１２８（８０Ｈ）だった。えっ、違う？）のヘッダ情報を飛ばしてデータだけ読んで、１バイトずつ１６分の１して間を詰めて４ビットデータファイル（４ｂｉｔＰＣＭ）にして、ＭＳＸのＰＳＧで鳴らしたら、ちゃんと鳴ってる様に聞こえました（？）。所謂ＰＳＧ－ＰＣＭです、実験ファイルで試聴してみて下さい

ページのＴＯＰへもどる

１ビットサウンドポートについて

ＭＳＸの内蔵音源には、ＰＳＧ（やＦＭ音源）の他に「１ビットサウンドポート」という音声出力があって、ＢＡＳＩＣではキークリック音の発生にのみ使用されています（もったいない！！）。１ビットで電圧のオンオフをするだけですが、PC-8801等の音源のない８ビットパソコンで使用された「ＢＥＥＰ音楽」相当の事が出来ますし、データレコーダー端子からの入力のハイとローを拾って記録すれば、“超低音質”且つ“数秒間の”録音再生機となります。また、幾つかのゲーム（例「レイドック２」）では、音声再生に使われています。
　ＰＳＧ－ＰＣＭに比べてデータが４分の１で済む所が優位点、ノイズが全く取れないところが不利な点です

　参考：ＭＳＸでデータレコーダー端子からの入力音を鳴らす 　　　　データレコーダーの入力はＰＳＧレジスタ１４のビット７から読める。　　　　１ビットサウンドポートはＩ／Ｏの０ＡＢＨに在り、０Ｆを受けると　　　　ハイを出力し、０Ｅを受けるとローを出す　　　　OUT (0A0H),14 ; PSGﾚｼﾞｽﾀ14 ｦｼﾃｲ　　　　IN A,(0A2H) ; 14ｶﾗﾖﾐｺﾑ　　　　AND 80H ; ﾋﾞｯﾄ7ﾀﾞｹﾉｺｽ　　　　RLCA ; ﾋﾞｯﾄ7 -> ﾋﾞｯﾄ0 　　　　OR 0EH ; A=0Eｶ 0Fﾄﾅﾙ　　　　OUT (0ABH),A ; SOUND PORTﾆｼｭﾂﾘｮｸ　　　　これを繰り返す。また、ビット７の値を記録していけば、録音できる

この１ビットサウンドポート用の音声データを作るには、データレコーダー端子からの入力を記録する方法の他に、ＰＣＭデータを加工する下記の方法が使えます。次の説明も『コンピュータ音声処理』からの受け売りです

デルタ変調（Delta Modulation）

まず、アナログデジタル変換した音声信号（ＰＣＭ）データを１回分ずつ（例えばＷｉｎｄｏｗｓのモノラル８ビット非圧縮ＷＡＶなら１バイト）読んで、前回の予測信号（後で説明）と比較し（残差をとるという）、前回の値より大きければ“１”、小さければ“０”とする（１ビットで符号化する）。この“１”と“０”を、正符号（プラス）と負符号（マイナス）とみなす

　　残差　＝　音声信号データの値　－　予測信号　　例．音声データが「５４４４３２１・・・」と並んでいる場合　　　１番最初のデータは５。前回の予測信号は無いので０として　　　　残差　＝　５　－　０　＝　５　　　残差が正（プラス）なら符号１、負（マイナス）なら符号０とする　　　今回の残差は５で正なので、符号は１

あらかじめ任意で大きさを決めておいたΔ（デルタ＝変化量）に符号を付けて前回の予測信号に足し、今回の予測信号を得る

　　　　予測信号　＝　前回の予測信号　＋　Δ 　　仮にΔを２とすれば、１番初めの予測信号は、前回が無いので０として　　　　予測信号　＝　０　＋　（＋２）　＝　２　　予測信号は２となる

２回目のデータは４。よって残差は、４－２＝２。２は正なので符号は１。予測信号にΔを足して今回の予測信号を得ると、２＋（＋２）＝４。予測信号は４となる。
　以下、同じ動作すなわち「次のデータを読んで、予測信号を引いて残差をとる。その残差の正負でΔの符号を決めて予測信号に足し、次の予測信号を得る」を繰り返し、符号を記録していく。これを、デルタ変調（Delta Modulation）と言い、ＤＭと略す

この０と１の符号列と変調時のΔの値があれば、符号を読んでΔの正負を決めて順に足していけば、元の音声信号に近い信号が求められる、これを復号化（de-code）という

　　例．音声データ「５４４４３２１・・・」、デルタを２として　　　　得られる符号列は「１１０１００１・・・」となり、それを　　　　復号化すると「２４２４２０２・・・」という音声データになる　　　　この例だけでは判らないが、これを繰り返して作った復号データを　　　　波形グラフ化すれば、元の音声データと似た波形だと判る　　表にしてみる　　　　ＤＭ流れ表　　　→　　→　　→　　→　　→　　→ 　　　　　音声データ　５　　４　　４　　４　　３　　２　　１　　　　　残差　　　　５　　２　　０　　２　－１　　０　　１　　　　　符号　　　　１　　１　　０　　１　　０　　０　　１　　　　　デルタ　　　２　　２　－２　　２　－２　－２　　２　　　　　予測信号　　２　　４　　２　　４　　２　　０　　２　　　　↑まず縦方向を下に進んで、次に隣の列の上に移るように見ていく　　　　再生時に必要なのは、符号行のデータとΔのサイズだけ

ここで、上の表の音声データの４と４が並んでいる所の様に、前後の音声データで差が無い場合が続けば残差は０と成るが、１ビット符号化のゆえに残差０には割り当てがない。残差０に符号１を割り当てると信号がどんどん大きくなってしまうので、符号０を割り当てる。結果として、音声データに変化が無ければ残差はΔの分だけ上下動を繰り返し、符号は０と１を繰り返す。元の音声データでは何も変化が無いのに、復号化した音声データは最小の凹凸を繰り返してしまうわけである。これによって生ずる音の歪みを、グラニュラー雑音（granular noise）という
　また、Δの値が一定な為、元の音声データの変化が急で大きい場合に、予測信号が追いつかずに波形にズレが生じる。これをオーバーロード雑音（overload noise）という

グラニュラー雑音を抑えるにはΔを小さくし、オーバーロード雑音を抑えるにはΔをやや大きくする必要があるので、トレードオフ関係となる。
　出来たデータを再生する場合に、ローパスフィルタを使って周波数以上の高周波成分を取り除かなければ、雑音の嵐となる

おまけ

適応デルタ変調（Adaptive Delta Modulation）

ＤＭに於いて、同じ符号が続く場合に音の変化が激しいと見て、同符号が３回続けば、３回目からは同符号が続く限り毎回Δを２倍する、異符号が来れば２分の１すると決めて、オーバーロード雑音を抑えようとする方法がある。この方法では、同じ符号が続けば、どんどんΔが大きくなるので、Δの最大値をあらかじめ任意に決めておく。これを適応デルタ変調（Adaptive Delta Modulation）方式と呼び、ＡＤＭと略す

　　ＡＤＭのΔの設定表　　　前々回　前回　現在　Δの大きさ　方向　　　　１　　１　　１　　２倍　　　　＋　　　　１　　０　　１　　１／２　　　＋　　　　０　　１　　１　　そのまま　　＋　　　　０　　０　　１　　１／２　　　＋　　　　０　　０　　０　　２倍　　　　－　　　　０　　１　　０　　１／２　　　－　　　　１　　０　　０　　そのまま　　－　　　　１　　１　　０　　１／２　　　－

おまけのＡＤＭ方式は不可能でしょうが、 ＤＭ方式のΔを１と見れば、ＭＳＸの１ビットサウンドポート用の再生データになります。ただし、ＭＳＸの場合、再生時のローパスフィルタは無いわけです。

１ビットサウンドポート再生時のΔは常に１なので、ＤＭせずとも、データを一回分ずつ比較してプラスなら１、マイナスか０なら０とするだけで良さそうなものですが、ＤＭすると自動的に（多少は）ノイズ除去されるので、たとえ再生Δが１固定でも、少し雑音がへります。その代わり少しこもった音になります。

ＭＳＸ用ではなく音声ファイル一般について、超高音質素材でない限り何らかのノイズ除去処理を行えば、幾分は「宇宙ボイス」になります（はぁ？）。それを避ける為、今回の実験ファイルに使用した素材ＷＡＶのノイズ除去はしていません（注１）。実験ディスクに入っているＤＭデータの WIN98.DM や INTRO1.DM には、元の素材ＷＡＶにある声の「かすれ」や言葉尻の「息」が見事に「轟音ノイズ」として乗っています。私の１ビットサウンドポート用ＤＭでは、「息」や「かすれ」程度のどんな小音でも全開の音量で記録されてしまうのです。（オイオイ！でも、きっと誰が作っても同・・・？？）

ノイズ除去と音質劣化はトレードオフ関係ですが、雑音はＤＭする前にＷｉｎｄｏｗｓ上のソフト等で可能な限り綺麗にしてください(^^;)

　ＭＳＸのＤＭに最適なＷＡＶ素材 　・声優が録音スタジオで録音したような無雑音のハッキリした人声　・声の質に「かすれ」や「ブレス」成分が少ない　・太い、低い声　ＭＳＸのＤＭで不可能なＷＡＶ素材 　・音楽　・屋外で録音したような騒音／雑音入り　・二人以上で同時に話している

上手くいけば、何を言っているか聞き取れる音質で再生可能な１ビット符号データ化出来るでしょう。超暇人ＭＳＸとしては、８０年代当時のファミコンのＤＰＣＭ（『燃えプロ』など一言喋るアレ）より、良い再生音質に聞こえます。

また、４ｂｉｔＰＣＭデータをＰＳＧで再生した場合は音量がかなり小さくなりますし、ＤＭ時に小音除去フィルタは必須なので、どちらに変換する場合でも元のＷＡＶファイルの音量は正規化 （割れない範囲でバランス良く最大化すること） しておいた方が上手く変換できます。

一度試してみてＤＭで無理があるＷＡＶは素直に諦めるか、データレコーダ端子からの録音（ソフトを自作(^^;)）や４ｂｉｔＰＣＭの方でチャレンジしてください

　注１．無関係ではないがちょっと脱線した話　　　日本の戦前の映画等の古い素材は、しばしば酷いノイズが乗ったまま放送等に　　　使用されるが、ハリウッドの名作等では、例えば２０人で３ヶ月かけて、一々　　　人の耳や眼で部分部分の雑音や、一コマずつ映像のノイズを取ってから放送や　　　ＤＶＤに使用する。現時点では機械的に行えば、ノイズ以外にも変化（劣化）　　　が起きる為である。　　　　これは、白人英語圏を含む全世界のコンテンツ商売を握る米メディアなれば　　　こそ、名作とはいえ古い作品の再利用に＋アルファの「大金」を使えるワケ。　　　　本当はこういう作業こそ、日本人の得意とする所であるのになぁ

ページのＴＯＰへもどる

このページは、1024×768画面に合わせて作りました。ちゃんと見えなかったらスミマセン