【AI競馬開発記#7】やっと楽しいシミュレーションの時間、データリークに気をつけよ!

こんばんは!AI競馬研究室のナギサ室長です。
さて、天皇賞は凄いレースでしたね!私のAIも1,2着完璧的中でしたが3着のジャスティンパレスは抜け目でした。
AIは3歳世代を相当強いと判断したようです。世代間の話をすると主語が大きくなりすぎると思いますが、少なくとも今年の3歳、クロワ、マスボ、ミュージカミューズアムマイルは相当強いかなぁという印象です。
ミュージアムマイルは名前通りマイル戦線に出てきてくれたりしてくれたら来年以降のマイルも楽しそうだなぁと。
と、競馬ファンの妄想はさておき、今日も今日とてAIについての話をしていこうと思います。 さて、前回はいよいよシミュレーションをはじめようというところまで行きました。
細かい話になるのですが使う頭脳もいろいろ選べます、大きくLightGBMとXGBooSTを勧められると思いますがそこは本当に好みだと思うのでAIなどと話し合いながら進めてみてください。 この頭脳を使っていよいよシミュレーションをするのですがここで今まで作った特徴量を色々使います、それらを取捨選択しながらシミュレーションをするわけです。
学習が済むと単勝や複勝の結果が出てきます。 必ずと言っていいほど陥る罠だと思うのですが、AIの一番の敵の話が今日のメインの話であります。
その敵と言うのは「データリーク」です。
シミュレーションが済むと、的中率80%、回収率350%など狂った数値が出てくることがあります。 私も最初はこれを見て自分が天才かと思いました、そして同時にAIってここまで賢いんだと感心しました。
しかしよくよく考えてみるとこんな数値ありえないのです。こんなこと出来たらみんなとっくにAIを使っていますしもっと普及しているはずです。
実は学習させたデータの中に分かるはずのない未来のデータが混入しているときにこの現象が起きます(なら100%あたれよ!と思うのですがそれでもなかなか100%までは行きません)
これがデータリークです。
これを取り除くのが面倒くさいです。例えば、レース中に生成される特徴量(そのレースの最終オッズや、直前の馬体重増減など)は、基本的にシミュレーションや予想では使えないのです。これは泣く泣く削除、もしくは使わないという選択肢を取らざるおえません。
データリークを防いで作るとおそらくですがだいたい回収率が70~80%くらいのシミュレーション結果が出てくると思います。
これで、まずは「成功」と言っていいでしょう。
なぜなら、こここそがAI開発の本当のスタートラインであり、「まずは控除率の壁を越えない、現実的なベースモデルが作れた」という証拠になるからです。
本当に夢の無いことを言いますがAIなんてそんなもんなのです。これをこれから精度をどんどん上げていくのがAI開発の作業となるわけです。
ここからが、自分の納得のいく特徴量を加え、AI(=分身)を育てていく本当の楽しみなのです。
この記事が役に立ったら、他の方にもシェアしてみませんか?
コメント
コメントを読み込み中...