世界を動かす技術を、日本語で。

耳はフーリエ変換を行わない

概要

  • 耳の構造コクレア(蝸牛) の役割の解説
  • 基底膜 による周波数分離の仕組み
  • 毛細胞 の振動が 電気信号 へ変換されるプロセス
  • フィルター による時間・周波数情報の抽出
  • 効率的符号化環境適応 の理論的背景

コクレア(蝸牛)の周波数分離と計算機構

  • 鼓膜(tympanic membrane)音波 による空気圧変化で振動
  • 中耳の骨 が振動を増幅し、 液体で満たされたコクレア(蝸牛) に伝達
  • 振動が 基底膜(basilar membrane) を伝わり、 周波数分離 を実現
    • 基底部(base) は高周波数、 頂部(apex) は低周波数に共鳴
    • 共鳴周波数は膜上を 対数的 に減少
  • 毛細胞(hair cells) が各位置で対応する周波数で振動
  • 機械電気変換(mechanoelectrical transduction) によって、毛細胞の動きが イオンチャネル の開閉を引き起こし、神経伝達物質が放出

コクレアと信号処理の比較

  • 聴神経線維 がフィルターとして機能し、信号の時間・周波数情報を抽出
  • フィルターには 時間局在性が高いもの周波数分布が均一なもの の2種類が存在
    • :時間精度高いが周波数分布は不均一
    • :時間精度低いが周波数分布は均一
  • コクレアのフィルターは Fourier変換 とは異なり、 ウェーブレットやGabor に近い性質
    • 高周波数では 時間分解能重視
    • 低周波数では 周波数分解能重視

時間-周波数分解能のトレードオフとその意義

  • コクレアのトレードオフは 自然音の冗長性削減 戦略との仮説
  • Lewicki 2002 による 独立成分分析(ICA) で、環境音・動物の鳴き声・人間の音声のフィルター特性を比較
    • 環境音・人間の音声 :ウェーブレット的
    • 動物の鳴き声 :Fourier変換的
  • 人間の音声 は独特な時間-周波数空間を占有
    • 言語が他の音と重ならない空間に進化した可能性

生態学的適応と効率的符号化

  • 感覚表現環境に依存 し、 効率的符号化 理論の基礎
  • 聴覚以外にも、 視覚(retinotopy)触覚(somatotopy) でも類似の空間マッピングが存在
  • 今後の講義で、 ニューロン内の計算バイオフィジクス に焦点

用語補足

  • トノトピー(tonotopic organization) :周波数から空間への写像。聴覚以外にも存在
  • 人間の音高知覚 と周波数の関係は 対数的
  • 短時間Fourier変換 も完全にはコクレアの挙動を説明できない

参考文献

  • Lewicki, M. S. (2002). Efficient coding of natural sounds.
  • Olshausen, B. A., & O’Connor, K. N. (2002).
  • 講義スライドより

Hackerたちの意見

ニット:名前の付け方の混乱が残念だけど、厳密に言えばフーリエ変換は無限の「サンプリング」期間を意味するんだよね。一方で、有限の「サンプル」期間に対応するのはフーリエ級数なんだけど、普段は互換的に使っちゃってる。ここで「サンプリング」と言ったのは、実際にはこの連続時間の積分の文脈では「積分期間」だからなんだけど、一般的に馴染みのある概念を直接的に思い起こさせるわけじゃないからね。もし実際に有限の時間分解能の制約を課すと、本当に「サンプリング」になるから、それは離散フーリエ変換になるんだ。その中の一つの実装が高速フーリエ変換だね。この記事のタイトルが批判しているのはこの厳密な定義だけど、普段フーリエ変換と言うときに多くの人が思い浮かべるのとはちょっと違うんだよね。だから、この記事は厳密な意味でのフーリエ変換じゃなくて、フーリエ級数分析と比較すべきだったと思う。まぁ、それだとちょっと刺激が足りないかもしれないけど。とはいえ、この素晴らしい記事の重要なポイントは全然損なわれてないよ。耳がメカニズム的にやってることは、時間的な「重み付け関数」(フィルター)を適用することで、フーリエ級数とフーリエ変換の中間に位置してるんだ。この文章は、共役ドメインのトレードオフのスライディングスケールをうまく表現してるよ(ハイゼンベルグを考えてみて)。

タイトルにはちょっとイラッとしたけど、クリックベイトとしては妥当だと思う。この記事には人間の音響に関する知らなかった細かい詳細がたくさんあったから(例えば、蝸牛の繊毛の変換実装についての入門リンクとか)。でも、ここには厳密な意味と口語的な意味の衝突があるね。

そうだね、耳が「1つの」フーリエ変換をしてるわけじゃなくて、データのサンプルに対していくつものフーリエ変換をしてるって感じだよね。時間解像度と周波数解像度のトレードオフが変わるけど。ほとんどの人はそれをフーリエ変換をしてるって言うだろうけど。記事でもちょっと触れてるけど、人間の言葉の音響特性と聴覚システムの物理的・神経的構造との関係があるっていうのは魅力的な仮説だよね。これについて明確な証拠を得るのは難しいけど、多くの人が共進化があったんじゃないかって直感的に感じてると思う。耳のフィルタ機能が言葉の音に使われる周波数範囲を好んでるんじゃないかな。

要約すると、耳はフーリエ変換をしているわけではなく、ウェーブレットに似た時間局所化された周波数領域変換を行っているんだ(具体的には、ウェーブレットとガボール変換の中間に位置してる)。耳が処理する音はしばしば時間的に局所化されているから、こうなるんだ。この記事では、人間の言語が周波数とエンベロープの持続時間の空間で未占有のスペースを占めるように進化したという理論も説明している。耳が行う変換の種類とその事実の間に明示的な関連は示されていないけど、人間の蝸牛の特性が人間の言語に合わせて調整されている可能性がある一方で、環境音や動物の音も十分に処理できるかもしれない。思いつくままのもう少し複雑な仮説としては、人間の言語の周波数/エンベロープの位置は、(1)音空間の未充填のニッチを占めること、(2)脳の処理速度を考慮した最適な情報密度、(3)音の生成と聴覚の生理学的制約のトレードオフの結果だと思う。

この考えをさらに進めると、特定の言葉や音素はトレードオフ空間の特定のスライスを占めるべきだと思う。すべての言語や文化において、虎が飛びかかろうとしているという即時の警告は、母親が赤ちゃんを慰めるのとは違う場所にあるべきだよね(もちろん、実際にそうなってる)。これが普通の会話の中にも影響しているかもしれない。

アナロジー:ドアをノックするとき、どんなリズムや長さを使うかはどうやって決める?間違ってドアを叩いたと勘違いされないようにするために。

高周波では、周波数解像度が時間解像度のために犠牲にされ、低周波ではその逆が起こる。これが時間-周波数の不確定性原理だ。直感的には波長を考えると理解できる。波形が時間的に伸びるほど、その周波数を良く表現するためにはもっと多くの波形が必要になるけど、見れば見るほど、正確にどこにあるかを知ることが難しくなる。> でも、耳はウェーブレットに似た時間局所化された周波数領域変換を行っている。まずは生理学的結果に基づいた恣意的に定義されたフィルターバンクとして考える方が簡単かもしれない。整然と定義された直交基底関数のセットに直接飛び込もうとするよりもね。さらに、直交基底関数は定義上、マスキング効果のようなものを捉えることができない。> もう少し複雑な仮説を思いつくままに言うと、人間の言語の周波数/エンベロープの位置は、(1)音空間の未充填のニッチを占めること、(2)脳の処理速度を考慮した最適な情報密度、(3)音の生成と聴覚の生理学的制約のトレードオフの結果だと思う。(4)動物のサイズ。特に、小さな生き物の中には超音波の発声能力や感覚能力を持つものがいて、これは捕食者を避けるための視覚的知覚を補完するためだと仮定されることもあるし、単に彼らが小さな発声器官と小さな発声を持っているからかもしれないね!

耳は言葉が発達するずっと前から進化してたんだよね。たぶん、声を出すことと一緒に進化したんだろうけど。

それって人間の理解なの?それともただテキストを読んで画像を無視したAIなの?新しい情報を何も加えない投稿に要約が必要なの?

ウェーブレット変換をしてても、結局はフーリエ変換でできてると思うんだ。これをうまく説明する方法があるかはわからないけど、短時間フーリエ変換やウェーブレット変換は次のように作れるよ: - 時間で信号を統合するフィルターバンクアプローチ - 時間スライスのフーリエ変換を取り、周波数で統合する。フィルターが違うだけで、同じ仕組みだね。

「人間の言葉の周波数/エンベロープの位置は、(1) 音空間の未充填ニッチを占めること、(2) 脳の処理速度を考慮した最適な情報密度、(3) 音の生成と聴覚の生理学に関する進化的制約の間のトレードオフである」 進化的な観点から見れば、これは驚くべきことじゃないよね。他の言語の形は目的に合わなかったから消えていっただろうし。これは本当に人間原理の一種だね。

耳で処理される音は、時間的に局所化されていることが多いから、そうなるんだ。音が時間的に局所化されていないって、どういうことなんだろう?

もしかしたら基本的なことを見落としてるかもしれないけど、耳に入る音にフーリエ変換をかけたいなら、一生待たなきゃいけないんじゃない?実際には、起こっていることをその場で聞けるから、そんなことはないって明らかだよね。

人間の蝸牛の特定の特徴は、人間の言葉に調整されている一方で、環境音や動物の音も十分に処理できるかもしれないと思う。これを使って映画やテレビの音声をもっとマスタリングして、対話が聞き取りやすくできるんじゃないかな。

フーリエ変換には明示的な時間精度がなく、右側の波形に近いものに似ている。これは蝸牛のフィルターの見た目とは違うかも。おそらく耳はデータのサンプルに対して離散フーリエ変換に似た何かを行っているんだ。信号処理では、ウィンドウを使ったサンプルを取り、それに対して離散変換を行う。これによってある程度の時間精度が得られる。周波数と時間精度の間にはトレードオフがあって、これは量子力学のパウリの排他原理に似ている。周波数を正確に知れば知るほど、タイミングについては正確に知ることができなくなる。無限の周期信号だけが、周波数領域で無限に狭いピークを持つ単一の正確な周波数(または正確なハーモニクスのセット)を持っている。連続フーリエ変換は周期信号だけを扱う。sin(x)のような全体の関数を全域にわたって変換するんだ。そのドメインを時間として解釈すると、負の無限大から正の無限大まで、いわば永遠を含むことになる。

パウリの排他原理に類似している もしかしてハイゼンベルグの不確定性原理のことを言いたかったの?それとも、パウリの排他原理と共役変換の間に実際に何か関係があるのかな?

「周波数と時間的精度の間にはトレードオフがある」 そうだね、FFTはどちらか一方に偏ってるわけじゃないよ。長い時間ウィンドウでFFTを取ると(ナローバンドスペクトログラム)、時間解像度を犠牲にして良い周波数解像度が得られるし、短い時間ウィンドウ(ワイドバンドスペクトログラム)だとその逆になる。音声認識には両方を使うのが理想的だね、だってそれぞれ違うものを検出してるから。TFAは、実際に私たちの蝸牛フィルターバンクが異なる周波数範囲で異なるタイプのフィルターを使ってるって言ってるんだ。低い周波数ではフォルマントがあって(発音情報を持ってる)、高い周波数ではフリカティブによって生成される音があって、周波数は重要じゃないけど、破裂音を検出するためには正確な発声開始の検出が役立つんだ。

STFTって何?

人間の言葉が混雑してないスペクトラムを占めるっていう仮説は、「グレート・アニマル・オーケストラ」って本とよく合ってるよ。この著者は、「夜明けのコーラス」がたくさんの種が音を出してるけど、独自の音のニッチに進化したことで求愛の声や他の信号を聞き分けられるようになったって詳しく書いてる。すごく興味深いけど、環境破壊とかでこの現象の強度が減ってるのを記録してるから、ちょっと悲しい気持ちにもなるね。

鳥も声を出すタイミングを選ぶように進化してるんだよね。都市部では後で交通音が増えるから早めに鳴くし、森の中では早起きのうるさい虫にかき消されないように遅めに鳴くんだ。

自然でうまく競争できる進化が消えていく一方で、都市でうまく競争できる進化がその代わりに現れるってことは言っておくべきかも。進化は常にトレードオフの連続だからね。音の変化はないかもしれないけど、時間的な変化はあるかも。

タイトルがちょっとクリックベイトっぽいし、基本的に間違ってる気がする。ガボール変換やウェーブレット変換なんかは、フーリエ変換の一般化で、各時点でのスペクトル分析を提供するんだよね。内容自体はまあまあだけど、耳は確かにフーリエ的なことをやってると思う。

これを深く掘り下げたいなら、リチャード・ライオンが人間の聴覚のCARFACモデルを数十年かけて開発してきたことを知っておくといいよ。これは「急速に作用する圧縮を持つ非対称共鳴器のカスケード」っていうモデル。私の知る限り、これが人間の聴覚の最も正確なデジタルモデルだと思う。彼のウェブサイトには人間の聴覚に関する本のPDFがあるよ: https://dicklyon.com/hmh/Lyon_Hearing_book_01jan2018_smaller...

これ、面白いね。軍事用ハードウェアにあるボコーダーが、声を圧縮のためにもっとシンプルにエンコードすることを知ってる(低音の男性の声みたいに)。この耳の進化は、私たちの声帯や口とも進化して、通信のために利用可能な周波数を占めるようになったんだろうね。波形との類似性はここで終わらないよ。波形は異なる地形(都市、ジャングル)に最適化されてるし。言語は民族や地形に最適化された有機的な波形なのかな?確かに面白い記事だね。

補足: 神経解剖学、聴覚経路 https://www.ncbi.nlm.nih.gov/books/NBK532311/ 蝸牛神経と中枢聴覚経路 https://www.britannica.com/science/ear/Cochlear-nerve-and-ce... 聴覚ニューロンの発達と機能の分子面 https://pmc.ncbi.nlm.nih.gov/articles/PMC7796308/

「人間の言語は特有の時間-周波数空間を占めているようです。いくつかの人は、言語が他の音にまだ占有されていない時間-周波数空間を埋めるために進化したのではないかと推測しています。」 これ、すごく面白いと思った! 僕も高ノイズ環境で声を聞き分けられることに気づいたから。例えば、HFラジオでは、デジタルモードを使わないとノイズがほぼ常にあるしね。