競馬データベースの選定

データ収集

競馬予想には、競馬データが必要です。当たり前ですね(笑)。
そこで、どこからデータを入手すべきか悩みましたが、条件は無料、信頼性が高い、取得できること、の観点から、まとめてみました。

クリーン(安心)

  • JRA-VAN, NAR, SPAT4 など公式サービス
  • netkeiba プレミアムのCSV機能
  • 書籍や公的資料

グレー(リスクあり)

  • netkeiba 等のスクレイピング
  • 非公式APIや有志が配布しているデータ
  • 有料会員ページの自動取得(不正アクセス禁止法に抵触の恐れ)

法的に問題のない方法(クリーン)

1. 公式データ提供サービスを利用

  • JRA-VAN DataLab. / JRA-VAN Next
    • 日本中央競馬会(JRA)の公式データ提供サービス
    • レース結果、出馬表、オッズ、血統、調教など幅広くカバー
    • 有料(月額利用料 + APIライセンス料)がかかるが、商用利用も可能
  • 地方競馬 データ(SPAT4, NAR)
    • 地方競馬全国協会が公式にデータ提供
    • 開催日程や結果が公表されている

2. 有料データベース / ソフトウェア

  • TARGET frontier JV(JRA-VANと連携)
  • netkeiba プレミアム会員(CSVダウンロード機能あり)
  • 血統書籍・データブック(サラブレッド血統センター等)

👉 お金はかかるけど ライセンス的に安心して使える
商用プロジェクトや論文にはこのルートがベスト。


3. 公的に公開されているデータ

  • JRA 公式サイトにある開催日程、レース結果(ニュースリリース形式)
  • 各競馬場の公式ページ(重賞情報や結果速報)

👉 ただし スクレイピングは規約上NG になることが多い。
コピーではなく「人間が読んで引用する」レベルなら問題なし。


⚠️ グレーな方法(リスクあり)

1. スクレイピング(自動収集)

  • netkeiba.com
    • 利用規約で「自動取得禁止」と明記されている → 規約違反
    • 無料で大量に取るとアクセス制限・法的リスク(損害賠償請求等)
  • Yahoo!競馬 / Umajin / 他ポータル
    • 同様に規約で禁止されていることが多い
    • データ自体は「事実」なので著作権ではなく、規約違反が問題

👉 スクレイピング自体は違法ではないが、規約違反なので「グレー」という位置づけ。


2. 非公式APIや有志データ

  • GitHubなどで「netkeiba API」的なライブラリが公開されていることがある
  • これらは実際にはスクレイピングをラップしているだけ
  • 規約的にはNG、法的に使うと危険(特に商用はアウト)

3. 個人利用の範囲での収集

  • 学習・研究用に少量を自動取得 → 実務上は大きな問題になりにくい
  • 公開・商用利用 → 利用規約違反でリスク大

したがって、クリーンな入手法をお勧めします。

コメント

タイトルとURLをコピーしました