All Articles

機械学習まわりの用語理解

下記本を読んでみたので雑感と頻出用語でわからないものの理解をしておく。

出版は2020年9月。内容は、競馬AIを手掛けるエンジニアにインタビューをしていくもの。 その中でわからなかった用語や、内容についてまとめる。

用語

機械学習とでディープラーニングの違い

本の中では、競馬予想をまず機械学習でやっているのか、ディープラーニングでやっているかの導入から始まることが多かった。 そもそも、ディープラーニングとは機械学習の一種。
機械学習は、データを解析し、データを元に学習した内容をある判断を下すためのアルゴリズムを導き出す。 ディープラーニングは機械学習から人間の判断が不要になるくらい独自で進化することが可能。有名なものは Google 開発の AlphaGo。
機械学習の場合は、一定人間が結果などからチューニングを行って判断精度を向上させていく。機械学習が判断を出すソースはモデル。モデルに対して大量のデータを与えて学習させることで精度をあげていく。モデルにも種類がある。

  • 教師あり

    • 学習データとともに正解パターンも教える。正解とそうでないデータの関連を学習していく。予測やフィルタなどに使われる。
  • 教師なし

    • 正解データは与えない。データの関連具合を学習させる。グループ分けや異常検知に使われる。グループの意味付けは人間が行う。
  • 強化学習

    • ある状況下において、目的となるスコアを最大化する方法を学習していく。ゲームなどに用いられる。

競馬予想を行っている人たちは、機械学習が多かった。ディープラーニングは少数派。おそらく膨大なマシンリソースや高度な知識が必要だからだろう。アルゴリズムが自身でさらに学習していくなんて難しさが想像すらつかない。

AI予想家の半数くらいは LightGBM を使っていた。解説はここが詳しいと思った。Udemy で講座をやっていたり、30回に渡る機械学習向け記事を書いていたので。すごく簡単に言うと、現時点では最も軽量(早い)モデルらしい。

機械学習に使うデータの加工手段例

  • ワンホットエンコーディング

    • カテゴリに対応するかどうかを 0, 1 で割り当てる
  • ターゲットエンコーディング

    • ある目的変数に対して、対象の数値がどの程度寄与するか、重み付けした値を割り当てる

内容について

どの予想家も今後 AI player が増えることによる利益の取り合いを危惧していた。AI との戦争になると強化学習みたいになっていくと言っている人がいてなるほどなと。公開されている AI 予想がオッズに与える影響もあるようで、有名なゆまさんは 2022/08 で予想公開をやめる模様。ゆまさんと同じものに BET するユーザが増えるとオッズが下がり、回収率が悪くなるため。もっと早くしっていれば私も活用してみたかった。

競馬で勝つためには的中させるだけではなくて、来るだろう馬をどう買うかを工夫しないといけない。いわゆる回収率である。この回収率を目的変数としてとり、100 %を超えられるのが理想。そんなことができるのはほんの一握りであり、的中しそうな馬を教えてくれてもどう買うかまでは教えてくれない。もちろん、ロジックも表にはでない。当たり前だが完全に予想家のブラックボックスである。