競馬を予想しようと思ったとき、まず何を予想対象とするかですが、通常は各競走馬の在るべき勝率、オッズあるいは着順(入線順位)ではないかと思います。私も過去、このようなものを求めようとして試行錯誤を繰り返していました。とくに着順は数量化2類と言う手法で、在るべき着順を外的基準にしてプログラムを組んだのですが、最後までG1の1着と重賞でないレースの1着を区別する方法が掴めず挫折してしまいました。そしてあるとき閃いたのです。馬の能力は速度ではないかと。即ち各競走馬の速度を外的基準として数量化1類を行う訳です。
予想ないし正確には予測を行う時に、予測対象としてどのような性質が必要かという事です。それは不動、即ち、動かないと事です。まず、勝率を考えて見ますと、闘う相手の強さによって変わってきます。例えば、中学生が大学生と100m競走を行えば中学生は殆ど勝てないでしょうし、相手が小学生であれば逆に高い勝率が得られるのは自明です。勝率は相手によって変化してしまいます。即ち不動ではありません。着順も同じ性質を持っています。従って勝率並びに着順は予測対象としては失格となります。
オッズはどうかとなりますが、オッズは基本的に2次以上の情報となりますので、競走馬の真の能力は推定出来ません。人気順位はオッズから導出されるものですので、さらに質の悪い情報となります。ところで1次情報と2次情報の区別ですが、当事者コメントとして予想対象のレースに出走する競走馬の騎手によるもの、あるいは当該競走馬を調教した調教師によるものは、競馬マスコミでは1次情報の如く扱われてしまいますが、これらは2次情報です。1次情報は当該競走馬の騎乗する騎手そのものが1次情報となります。具体的には武豊騎手のコメントは2次情報となり、騎手が武豊である事が1次情報となる訳です。数量化分析では1次情報のみを使用して、2次情報は用いません。所謂厩舎情報が間違いであるから使わないという事では無く、2次以上の情報であるから使わないだけです。それとオッズを考える際に、因果の方向が非常に重要です。即ち、馬の当該レースにおいての能力(馬そのもの能力+騎手などの能力)からオッズは生成されるがオッズから馬の真の能力は推定できない。言い換えると能力→オッズは存在するがオッズ→能力は存在しない訳です。
最後に基準タイムですが、これも残念ながら理屈の時点で破綻しています。基準タイムは同じ背景(例えば同一クラスで)を持った馬が違う競馬場で走破した時の走破タイムを平均したものが基準タイムとされる訳ですが、厳密には全く同一馬が求める要因(例えば開催場所)以外の要因(騎手、距離等等)を全く同一にして走破しなければなりませんが、このような要件を満たして走破するのは不可能です。従って基準タイムを元にしたロジックは破綻してしまう訳です。
破綻例としては中央における表開催と裏開催の関係があります。表裏とも1000万クラスであれば競走馬としては同じ能力と考えられ、求められた基準タイムは比較可能である筈ですが、表開催には有力な騎手が多く騎乗しており、良血と言われる競走馬が多く参戦しているなどの理由により表裏間にバイアスを恣意的に付けている等です。本来騎手は騎手で評価し、種牡馬は種牡馬で別々の評価して、本来求めるべき表裏の競馬場間にある環境(気候、路面の作り、コース形状などなど)差を評価すべきであるのに恣意的なバイアスを附加してしまえば、基準タイムの趣旨からすれば本末転倒で、意味のある数字とは思えません。