入力がほとんどノイズでも、ニューラルネットはなぜ学習できるのか
/ 6 min read
Table of Contents
Learning from almost nothing: How neural networks survive heavy input corruption (2026/06) Justin Tahmassebpur, Asadullah Bhuiyan, Hyejin Kim, Omri Lesser https://arxiv.org/abs/2606.11319
「入力特徴量の大半がノイズでも、ニューラルネットは意外と学習できる」
短期FX予測はなぜ学習できるのか
ドル円のような短期金融データは、極めてノイズが大きい。
数分後、数十分後の価格変動を予測しようとしても、
- ランダムな注文フロー
- 一時的な需給
- ニュースへの反応
- アルゴリズム売買
などが混ざり、人間にはほとんどランダムに見える。
実際、
- RSI
- モメンタム
- ボラティリティ
- 高値安値位置
といった特徴量も単体では非常に弱い。
それでもニューラルネットは、わずかな予測力を獲得できる場合がある。
なぜなのだろうか。
論文の主張
この論文では、
入力の大部分がノイズで破壊されても、ニューラルネットは学習できる
ことを示している。
さらに興味深いのは、
なぜ学習できるのか
を説明している点だ。
著者らは、重い入力ノイズ環境ではニューラルネットが複雑な関数を学習しているのではなく、
「クラス平均への近さ」
を利用していると主張する。
最近傍平均ルール
例えば上昇クラスと下落クラスがあるとする。
学習データ全体を見ると、
- 上昇したサンプル群の平均特徴
- 下落したサンプル群の平均特徴
が存在する。
ニューラルネットは、
この入力がどちらの平均パターンに近いか
を判定しているだけかもしれない。
論文では、入力ノイズが極めて大きい場合、ニューラルネットの振る舞いが「Nearest Class Mean(最近傍平均)」に近づくことを示している。
ドル円予測への示唆
これは短期FX予測を考える上で非常に興味深い。
私たちはつい、
ニューラルネットが複雑な非線形法則を発見している
と考えたくなる。
しかし実際には、
上昇した局面の平均像
と
下落した局面の平均像
を作り、
現在の状態がどちらに少し近いかを判定しているだけなのかもしれない。
もしそうなら、
個々のサンプルがほぼノイズでも学習できる理由が説明できる。
なぜMLP数層で十分なのか
論文では、この現象が
- ネットワークの深さ
- 活性化関数
- ノイズ分布
にあまり依存しないことも示されている。
もし本質が「平均への近さ」の判定であるなら、
巨大なTransformerや複雑なアーキテクチャを導入しても、本質的な性能向上が得られない場合がある。
重要なのはモデルの複雑さではなく、
上昇クラスと下落クラスの平均像がどれだけ分離しているか
である。
実運用で考えること
この解釈が正しいなら、
モデル開発で本当に重要なのは
- 特徴量追加
- ラベル改善
- データ品質向上
である。
モデル構造を複雑化するよりも、
クラス平均の差を大きくする
方向の改善が効く可能性が高い。
また、多数の弱いシグナルを平均化して拾うモデル設計にする。
まとめ
この論文は、
ノイズだらけでもニューラルネットは学習できる
という話では終わらない。
むしろ興味深いのは、
ニューラルネットは何を学習しているのか
への説明である。
短期FX予測のような強烈なノイズ環境では、ニューラルネットは複雑な法則を発見しているのではなく、
「上昇の平均像」と「下落の平均像」の差
を利用しているだけなのかもしれない。
もしそうなら、個々のサンプルがほとんどノイズに見えても、モデルが予測力を持つ理由をうまく説明できる。
ニューラルネットワークは、複雑な法則を学んでいるのではなく、平均像(セントロイド)を比較しているだけかもしれない。