コンテンツにスキップ

EAの品質ゲートを「AI会議」に任せたら、安いAI3体が最強AIのバグを見つけた話

会議1.0と会議2.0の対比

私のPCでは毎晩、AIがFXのEA(自動売買プログラム)を自動生成しています。問題は品質でした。コンパイルは通るのに一度も取引しないEA、もっともらしいのに実際には動かないロジック。この品質ゲートを「AI同士の会議」に任せて3週間、会議のやり方自体を大きく作り替えることになりました。きっかけは、最強クラスのAIが書いたコードのバグを、1回3円で動く安いAIが3体同時に見つけたことです。

「完璧です」を、安いAI3体が覆した

コードを書かせたAIに、自分の書いたものをレビューさせると、たいてい高い自己評価が返ってきます。今回も「テスト全部green、完璧です」でした。

念のため、別のAI3体に同じコードを見せて、独立にレビューさせました。すると3体とも、バラバラに同じ箇所を指摘してきたのです。しかも、書いたAIは最強クラス。指摘したのは、1回あたり数円で動く安いAIたちでした。

これは知識量の差ではありません。自分が書いたコードは、「こう動くはずだ」という設計意図というレンズ越しにしか読めなくなる。人間のコードレビューが機能する理由と同じ「著者バイアス」です。モデルが賢くなっても、この構造そのものは消えません。

会議1.0の限界:良い指摘が、要約で消える

これまでのAI会議は、複数のAIが順番に発言し、最後に要約するだけの仕組みでした。これには2つの穴がありました。

  • 良い指摘をしても、次の議題に移ると要約に埋もれて消えてしまう
  • 「これは効くはずです」という主張が、検証されないまま言いっぱなしで終わる

会議の記録を後から見返しても、「誰が何を言ったか」は残っていても、「その指摘が正しかったのか」は残らない。これでは品質ゲートとして頼りになりませんでした。

会議2.0の設計:3つの原則

そこで、会議の仕組みそのものを作り替えました。3つの原則です。

①発言ではなくクレーム 指摘は全部「主張+証拠+状態(未確認→確定/否定→修正済)」という形で記録に残ります。要約で消えることはありません。

②議論ではなく実行 再現できる手順つきの主張は、隔離された環境で実際に動かします。正しいか間違っているかは、実行結果が決めます。AIの賢さや説得力が審判に介在する余地はありません。

③予測には期日 「このロジックは効くはずです」という予測は、期日つきで登録されます。期日が来たら、自動で答え合わせが行われ、的中率がAIごとの成績として蓄積されていきます。

実測:36件のクレームと、1件の冤罪

導入から3回の会議で、指摘は36件に膨らみました。うち10件は実行によって白黒がつき、7件が「実在するバグ」、3件は「実は問題なし」と判定されました。議論に費やした時間はゼロです。

そして導入初日に、事件が起きました。あるバグ(検証コマンドが途中で切り詰められる不具合)が、別のAIが出した正しい指摘の検証そのものを壊し、「間違い」と誤判定される“冤罪”を生んだのです。

もし普通の会議のまま要約だけを残していたら、この冤罪は誰にも気づかれなかったはずです。今回は全ての判定に至る過程が記録として残っていたため、記録をさかのぼって冤罪を発見し、訂正することができました。バグそのものが、この仕組みの必要性をライブで実演してみせた瞬間でした。

追加でかかった課金は、1会議あたり約3円です(レビューに使った安いAI分のみ。主力の2体は自分のサブスクの範囲内で動いています)。

FX・EA開発への応用:予測を資産に変える

EA開発の現場は、「このロジックは効くはず」というもっともらしい主張だらけです。パラメータ調整、ロジックの追加、フィルターの導入——どれも「たぶん良くなる」という感覚で判断しがちです。

これを全部「期日つきの予測」として登録すると、感覚が資産に変わります。1週間後、1ヶ月後に自動で答え合わせされることで、「効くはずだった」の的中率が積み上がっていく。誰の勘が当たりやすいか(人間かAIかを問わず)が、データとして見えてきます。

AIごとの成績表は今のところ100%、100%、62%です。62%のAIも会議から外していません。外れる視点は、次に当たる視点を見つけるための材料になるからです。

まとめと次回予告

  • 賢いAI同士なら知識差は消える。残る価値は「盲点の検出」だけ
  • 指摘は要約で消さず、証拠と状態つきの記録として残す
  • もっともらしい主張は、実行か期日つきの予測かのどちらかに変えて初めて意味を持つ

7/7には、今回の会議でAIたちが立てた予測のうち2件が、自動で答え合わせされる予定です。EAの自動生成ラインの改善が実際に効いたのか、結果が出たらまたご報告します。


本記事は個人の検証メモです。AIサービスの料金・利用規約・仕様は2026年7月時点のもので、今後変わる可能性があります。


関連リンク

— SPONSORED —