2011/12/04

Audacity Audio Track について

150720更新
オーディオトラックは大きく分けて、以下のステレオとモノラルに分けられる。

ステレオトラック:左右のチェンネルがセットになったトラックで、上段が左トラックで、下段が右トラックとなる。

モノラルトラック:通常のモノラルか、ステレオの左か右の場合がある。



Track Drop-Down Menu メニュー
トラックコントロールパネルの名前(三角)をクリックするとメニューが表示される。ここでしか操作できない項目もあり、どれも重要な機能ばかり。ここのメニューは各トラックごとに別々の設定ができる。

Name
トラックに任意の名前をつけることが出来る。

英語でguitarとかの楽器の名称をつけると、Viewメニューのミキサーボードのアイコンが楽器になる。


Move Track Up / Move Track Down / Move Track to Top / Move Track to Bottom
トラックが複数ある場合は、上下に移動できる。これはマウスでコントロールパネルをつかんでドラッグして移動も可能。

Waveform ~ Pitch(EAC) 表示の切替
設定で表示波形のデフォルトを任意に決められる。

Waveform

デフォルトの波形、リニア表示。個人的には電圧として見ている。最大値が1Vと考えるとラインレベルの規格と一致する。 波形の濃い青はピーク値で、薄い青は実効値(RMS)となる。実効値とは2乗平均平方根で、計算式もそのまま。ある範囲の値をそれぞれ2乗して、それらの平均を出した上で平方根をとると実効値が出てくる。 リニア表示のレベルは、人間の耳の感覚とは違う。人間の感覚に近いのはdB表示と言われている。

また録音しているときにリアルタイムに表示されるのは、これと下のdB表示のみ。

Waveform(dB)

音処理の多くはdBが基本なので、波形もdB表示にしないと、まともに作業が出来ないことも多い。dBは人間の感覚に近い。デシベルとビットの関係についてはこちらのページ

Spectrogram

scaleは周波数(Hz)になっている。Preferences > Spectrograms > Show the spectrum using grayscale colors のチェックするとグレー表示。



Spectrogram Log(f)
上の対数表示。音程などを見る場合はこちらのほうが都合が良い。



Pitch (EAC)
ピッチを視覚的に表示。ただし処理が重め。下は55、110、220、440、880、1760Hz・・・と、Aの音をオクターブずつ上げた波形をEACで表示させたところ。高い音ほど細い線になって数が増える。大雑把に半分の太さになっている。間隔も半分ぐらいになっている。色は音量を示す。

下はsine波をA440Hzから半音ごとにA880Hzまで並べてみたところ。段々と細くなるだけでなく、上にシフトして間隔が狭まっているのが分かる。


Mono 
Left Channel 
Right Channel 
トラックがモノラルの場合以下の3つのどれかにチェックが入る。


Make Stereo Track:
モノラルトラックを複数選んだとき、メニュー操作したトラックが左チャンネル、その下のトラックが右チャンネルとして、ストレオトラックになる。

下が作られたステレオトラック。


Swap Stereo Channels:
ステレオチャンネルの左右を入れ替える。

Split Stereo Track:
ステレオトラックを左チャンネル、右チャンネルとしてモノラルに分離。

下は分離されたステレオトラック。上が左チャンネル、下が右チャンネルになっている。パンの操作バーも表示されているが、左チャンネルの場合、L~Centerは変化なく、R側にすると音量が減り、R100%にすると音は消えてしまう。
普通のモノラルにしたいときは同じようにメニューでMonoを選べばよい。


Split Stereo to Mono:
ステレオチャンネルをそれぞれ、モノラルトラックとして分離。パンは普通に効く。

Set Sample Format
音量の分解能を選択できる。

16-bit PCM:
オーディオCDの分解能で、古くから使われていて互換性が高い。デジタルオーディオの音量は-1~+1の間で記録されている。0は無音となる。16bitは10進数で0~65535の数字を表せる。これを2の補数を使ってマイナスを扱えるようにする。その範囲は-32768~32767。これらを-1~+1にマッピングさせて対応している。-1から1までの分解能は65536段階になる。wavについてはこちらのページを参照。

24-bit PCM:
最近の高音質な録音機材は24bitをサポートしている。24bitは10進数で16,777,216まで扱えて、16bitの最小単位をさらに256分割できる分解能がある。bitが増えた分だけファイルサイズも大きくなる。16bitの約1.5倍となる。フォーマットも様々なので、互換性という意味ではいろいろ問題が出る場合がある。

32-bit float:
Audacityの内部処理はこれで行われているようだ。浮動小数点数のフォーマットでIEEE754では 1.401298e-45(非正規化数) ~  3.40282347e+38 まで扱える。他との違いは0dB以上もデータとして存在している点。オーディオで通常使う0dB以下は、そのまんまの-1~1で扱っている。それでも24bitを超える高分解で、0に近づくほど更に分解能が上がっていくと考えてよいと思う。ただし計算によっては誤差が出やすい。IEEE754の資料が難しく十分理解できないので間違っているかもしれないが・・・ 32bit floatはAudacity内での作業用と考えた方がよく、データのやり取りには向かないフォーマット。16bitに対して約2倍のファイルサイズになる。32-bit floatについて調べたり、プログラムして確認したことをこちらのページにまとめてみた。

あとビットとデシベルについては、こちらのページも参考になると思う。

Set Rate 8000~384000Hz もしくは任意に設定可能
時間軸に対する分解能。1秒間に何回音の点を打つかということ。表現出来る最高音の周波数はその1/2となる。そのサンプリング周波数を選択できる。ここでの変更はリサンプリングではなく、時間軸に対して伸縮する。音は加工されない。

Other...を選択すると、別ウィンドウが表示されるので、そこで任意のサンプリング周波数を打つことができる。

下は1秒間の長さの44100Hzのオーディオファイルをコピーしてサンプリング周波数を変更してみた。2倍の任意88200Hzにしたところ。時間はちょうど半分になっている。波形は全くいじられていない。時間の解釈が変わったというところか。

時間軸をそのままにして、サンプリング周波数を変更するには、Tracksメニュー > Resample を選択する。波形は加工される。


Track Control Panel

名称
名称表示とクリックによるメニュー表示。

トラックの情報表示
トラック種類、サンプリング周波数、ビット数。

Mute / Solo

Editメニュー > Preferences > Tracks > Solo Button で Simple を選んだ状態で、Torack Control Panel の Solo を押すと他のトラックはミュートされて再生する。その状態で他のトラックのSoloを押すと、再生トラックが切り替わる。

デフォルトだとStandardが選ばれている。この状態だとSoloボタンが押されたトラックはすべて再生する。Noneを選ぶと、ボタンそのものが表示されない。

- + スライダー 音量レベル -36dB~0dB~36dB

トラックの音量を調整する。単位はdBで、普通にマウスでドラッグすると1dB単位で調整できる。shiftキーを兼用すると0.2dB単位になる。またダブルクリックすれば、別ウィンドウがが開いて、数値入力も可能。トラックをミックスする場合、この音量が反映される。


L R スライダー PAN パン L100%~Center~R100%

左右の定位を設定する。単位は%。普通にマウスでドラッグすると10%単位で調整できる。shiftキーを兼用すると1%単位になる。ダブルクリックすれば、別ウィンドウがが開いて、数値入力も可能。トラックをミックスする場合、パンは反映される。


三角マーク

縦に小さく折りたたむことが出来る。もう一度クリックすると戻る。

折りたたまれた状態では、三角は下向きになる。

トラックのサイズの変更はマウスを使っても可能。下のようにマウスでカーソルが上下矢印になる位置でドラッグすれば自由なサイズに変更できる。


Vertical Scale
音量レベルの目盛が書かれてる部分。Waveformのリニア表示(下左図)だと中心が0で上下が最大1、-1となっている。Waveform dB表示(下右図)だとPreferencesの設定に応じて中心付近が-48など表示。最大が0となる。

下がPreferences > Tracks > Mater/Waveform dB range。いくつか選べるようになっている。

Vertical Scaleを左クリックすると拡大、右クリックすると縮小表示する。
さらに拡大したいときはドラッグすることで、下図のように任意の位置の拡大も可能。コンプなどの設定をするときには必須。DCオフセットを決めるときなどもよく使う。
拡大しすぎて、縮小を使って元に戻すのが大変だと思えたら、左クリック(拡大)を数回(3~4回)やっていると、あるとき標準のスケールに戻る。この辺りはやりながら発見したことで、オリジナル英語マニュアルにも明記がない。


レベル1(0dB)以上の拡大
オーディオファイルが16bitの場合、 リニア でレベル1(もしくは-1以下)を超えるとクリップしてしまう。下のように完全に頭が平ら。音はブチット鳴る。16ビットの実体は -32768~32767の数値を-1~1に対応させているに過ぎなく、-1以下、1以上はデータとして存在し得ない。こうなってしまったファイルはもう元には戻せない。

32bit floatだと、下のように1を超えてもデータ上はクリップせずにデータが存在している。でも音は出力の段階でまるめられるので、16bitと同じようにクリップする。データはドラッグして、さらに上のレベルであっても見ることができる。32bit floatは1.175494E-38~3.402823E+38までの数値を扱えるので、理論上は相当なレベルでも表現可能。オーディオとしては-1~1までの範囲しか扱っていないだけの話。音としてはクリップしても、データとしては存在しているので、加工途中でこうなったのなら、復活させることができる。

Audacityの処理は基本的に32bit floatで行われているので、積極的に加工するならば32bit-floatにして作業する方がよい。他のbit数で処理すると、32bit floatで計算した後にビット変換をするのでロスもあるし、誤差も出やすくなってしまう。またVSTエフェクトも32bit-floatで処理されている。

試しに32bit-floatで極端に増幅してみた。最大音量レベルがリニアで50000の場合が下。計算はfloatの範囲内であれば問題なく出来ていることがわかる。それを大真面目に表示するAudacityってステキ。


Waveform Display
選択しているツールによって機能が変わる。カーソル等で判断できる。

各ツールの名称(ショートカット)
セレクション(F1)、エンベロープ(F2)、ドロー(F3)、
ズーム(F4)、タイムシフト(F5)、マルチ(F6)


セレクション、ズーム、ドロー、タイムシフトツールの時のカーソルを並べてみた。ドローはサンプル単位の編集用なので、サンプルの点が見えるまで拡大しないと使えない。


タイムシフトは、トラック全体や、一部を移動させることができる。


ズームで波形を拡大してみると、波形の特徴が見えてくる。ギザギザがあるほど高周波を含んでいる。ドラッグすることで任意の範囲を拡大することも可能。

 
ドローでサンプルポイントを編集しているところ。サンプリング周波数が44100Hzの場合は、1秒間に44100の点がある。各点は、その1点1点となる。マウスで適当にドラッグして編集する。現状では数値制御はできないようだ。現状ポイントの情報と、数値制御できれば素晴らしいのだが。


エンベロープツールを選ぶとカーソルだけでなく、トラックの表示も変化する。自由に制御ポイントをつけることできて、波形のレベルをマウスで調整することができる。細かな音量調整では威力を発揮する。

またエンベロープを使って音量などを調整する場合、オーディオファイルを直接加工していないため、簡単に元に戻すことができる。エンベロープなどを有効のまま保存するにはプロジェクト(Audacity専用)として保存する必要がある。


マルチツールを選ぶとエンベロープツールに似た表示になる。すべてのツールの機能を内包しているので便利そうだが、誤操作してしまいやすい。


Audacity マニュアル 目次はこちら