耳はフーリエ変換を行わない

2025年10月31日原文(dissonances.blog)

概要

耳の構造 と コクレア（蝸牛） の役割の解説
基底膜 による周波数分離の仕組み
毛細胞 の振動が 電気信号 へ変換されるプロセス
フィルター による時間・周波数情報の抽出
効率的符号化 や 環境適応 の理論的背景

コクレア（蝸牛）の周波数分離と計算機構

鼓膜（tympanic membrane） が音波による空気圧変化で振動
中耳の骨 が振動を増幅し、 液体で満たされたコクレア（蝸牛） に伝達
振動が 基底膜（basilar membrane） を伝わり、 周波数分離 を実現
- 基底部（base） は高周波数、 頂部（apex） は低周波数に共鳴
- 共鳴周波数は膜上を 対数的 に減少
毛細胞（hair cells） が各位置で対応する周波数で振動
機械電気変換（mechanoelectrical transduction） によって、毛細胞の動きが イオンチャネル の開閉を引き起こし、神経伝達物質が放出

コクレアと信号処理の比較

聴神経線維 がフィルターとして機能し、信号の時間・周波数情報を抽出
フィルターには 時間局在性が高いもの と 周波数分布が均一なもの の2種類が存在
- 左：時間精度高いが周波数分布は不均一
- 右：時間精度低いが周波数分布は均一
コクレアのフィルターは Fourier変換 とは異なり、 ウェーブレットやGabor に近い性質
- 高周波数では 時間分解能重視
- 低周波数では 周波数分解能重視

時間-周波数分解能のトレードオフとその意義

コクレアのトレードオフは 自然音の冗長性削減 戦略との仮説
Lewicki 2002 による 独立成分分析（ICA） で、環境音・動物の鳴き声・人間の音声のフィルター特性を比較
- 環境音・人間の音声 ：ウェーブレット的
- 動物の鳴き声 ：Fourier変換的
人間の音声 は独特な時間-周波数空間を占有
- 言語が他の音と重ならない空間に進化した可能性

生態学的適応と効率的符号化

感覚表現 は 環境に依存 し、 効率的符号化 理論の基礎
聴覚以外にも、 視覚（retinotopy） や 触覚（somatotopy） でも類似の空間マッピングが存在
今後の講義で、 ニューロン内の計算バイオフィジクス に焦点

用語補足

トノトピー（tonotopic organization） ：周波数から空間への写像。聴覚以外にも存在
人間の音高知覚 と周波数の関係は 対数的
短時間Fourier変換 も完全にはコクレアの挙動を説明できない

参考文献

Lewicki, M. S. (2002). Efficient coding of natural sounds.
Olshausen, B. A., & O’Connor, K. N. (2002).
講義スライドより

Hackerたちの意見

ニット：名前の付け方の混乱が残念だけど、厳密に言えばフーリエ変換は無限の「サンプリング」期間を意味するんだよね。一方で、有限の「サンプル」期間に対応するのはフーリエ級数なんだけど、普段は互換的に使っちゃってる。ここで「サンプリング」と言ったのは、実際にはこの連続時間の積分の文脈では「積分期間」だからなんだけど、一般的に馴染みのある概念を直接的に思い起こさせるわけじゃないからね。もし実際に有限の時間分解能の制約を課すと、本当に「サンプリング」になるから、それは離散フーリエ変換になるんだ。その中の一つの実装が高速フーリエ変換だね。この記事のタイトルが批判しているのはこの厳密な定義だけど、普段フーリエ変換と言うときに多くの人が思い浮かべるのとはちょっと違うんだよね。だから、この記事は厳密な意味でのフーリエ変換じゃなくて、フーリエ級数分析と比較すべきだったと思う。まぁ、それだとちょっと刺激が足りないかもしれないけど。とはいえ、この素晴らしい記事の重要なポイントは全然損なわれてないよ。耳がメカニズム的にやってることは、時間的な「重み付け関数」（フィルター）を適用することで、フーリエ級数とフーリエ変換の中間に位置してるんだ。この文章は、共役ドメインのトレードオフのスライディングスケールをうまく表現してるよ（ハイゼンベルグを考えてみて）。

└

タイトルにはちょっとイラッとしたけど、クリックベイトとしては妥当だと思う。この記事には人間の音響に関する知らなかった細かい詳細がたくさんあったから（例えば、蝸牛の繊毛の変換実装についての入門リンクとか）。でも、ここには厳密な意味と口語的な意味の衝突があるね。

└

そうだね、耳が「1つの」フーリエ変換をしてるわけじゃなくて、データのサンプルに対していくつものフーリエ変換をしてるって感じだよね。時間解像度と周波数解像度のトレードオフが変わるけど。ほとんどの人はそれをフーリエ変換をしてるって言うだろうけど。記事でもちょっと触れてるけど、人間の言葉の音響特性と聴覚システムの物理的・神経的構造との関係があるっていうのは魅力的な仮説だよね。これについて明確な証拠を得るのは難しいけど、多くの人が共進化があったんじゃないかって直感的に感じてると思う。耳のフィルタ機能が言葉の音に使われる周波数範囲を好んでるんじゃないかな。

要約すると、耳はフーリエ変換をしているわけではなく、ウェーブレットに似た時間局所化された周波数領域変換を行っているんだ（具体的には、ウェーブレットとガボール変換の中間に位置してる）。耳が処理する音はしばしば時間的に局所化されているから、こうなるんだ。この記事では、人間の言語が周波数とエンベロープの持続時間の空間で未占有のスペースを占めるように進化したという理論も説明している。耳が行う変換の種類とその事実の間に明示的な関連は示されていないけど、人間の蝸牛の特性が人間の言語に合わせて調整されている可能性がある一方で、環境音や動物の音も十分に処理できるかもしれない。思いつくままのもう少し複雑な仮説としては、人間の言語の周波数/エンベロープの位置は、（1）音空間の未充填のニッチを占めること、（2）脳の処理速度を考慮した最適な情報密度、（3）音の生成と聴覚の生理学的制約のトレードオフの結果だと思う。

└

この考えをさらに進めると、特定の言葉や音素はトレードオフ空間の特定のスライスを占めるべきだと思う。すべての言語や文化において、虎が飛びかかろうとしているという即時の警告は、母親が赤ちゃんを慰めるのとは違う場所にあるべきだよね（もちろん、実際にそうなってる）。これが普通の会話の中にも影響しているかもしれない。

└

アナロジー：ドアをノックするとき、どんなリズムや長さを使うかはどうやって決める？間違ってドアを叩いたと勘違いされないようにするために。

└

高周波では、周波数解像度が時間解像度のために犠牲にされ、低周波ではその逆が起こる。これが時間-周波数の不確定性原理だ。直感的には波長を考えると理解できる。波形が時間的に伸びるほど、その周波数を良く表現するためにはもっと多くの波形が必要になるけど、見れば見るほど、正確にどこにあるかを知ることが難しくなる。> でも、耳はウェーブレットに似た時間局所化された周波数領域変換を行っている。まずは生理学的結果に基づいた恣意的に定義されたフィルターバンクとして考える方が簡単かもしれない。整然と定義された直交基底関数のセットに直接飛び込もうとするよりもね。さらに、直交基底関数は定義上、マスキング効果のようなものを捉えることができない。> もう少し複雑な仮説を思いつくままに言うと、人間の言語の周波数/エンベロープの位置は、（1）音空間の未充填のニッチを占めること、（2）脳の処理速度を考慮した最適な情報密度、（3）音の生成と聴覚の生理学的制約のトレードオフの結果だと思う。（4）動物のサイズ。特に、小さな生き物の中には超音波の発声能力や感覚能力を持つものがいて、これは捕食者を避けるための視覚的知覚を補完するためだと仮定されることもあるし、単に彼らが小さな発声器官と小さな発声を持っているからかもしれないね！

└

耳は言葉が発達するずっと前から進化してたんだよね。たぶん、声を出すことと一緒に進化したんだろうけど。

└

それって人間の理解なの？それともただテキストを読んで画像を無視したAIなの？新しい情報を何も加えない投稿に要約が必要なの？

└

ウェーブレット変換をしてても、結局はフーリエ変換でできてると思うんだ。これをうまく説明する方法があるかはわからないけど、短時間フーリエ変換やウェーブレット変換は次のように作れるよ： - 時間で信号を統合するフィルターバンクアプローチ - 時間スライスのフーリエ変換を取り、周波数で統合する。フィルターが違うだけで、同じ仕組みだね。

└

「人間の言葉の周波数/エンベロープの位置は、(1) 音空間の未充填ニッチを占めること、(2) 脳の処理速度を考慮した最適な情報密度、(3) 音の生成と聴覚の生理学に関する進化的制約の間のトレードオフである」進化的な観点から見れば、これは驚くべきことじゃないよね。他の言語の形は目的に合わなかったから消えていっただろうし。これは本当に人間原理の一種だね。

└

耳で処理される音は、時間的に局所化されていることが多いから、そうなるんだ。音が時間的に局所化されていないって、どういうことなんだろう？

Hacker Newsで議論の続きを見る

ハクソク