競馬予想には、競馬データが必要です。当たり前ですね(笑)。
そこで、どこからデータを入手すべきか悩みましたが、条件は無料、信頼性が高い、取得できること、の観点から、まとめてみました。
クリーン(安心)
- JRA-VAN, NAR, SPAT4 など公式サービス
- netkeiba プレミアムのCSV機能
- 書籍や公的資料
グレー(リスクあり)
- netkeiba 等のスクレイピング
- 非公式APIや有志が配布しているデータ
- 有料会員ページの自動取得(不正アクセス禁止法に抵触の恐れ)
法的に問題のない方法(クリーン)
1. 公式データ提供サービスを利用
- JRA-VAN DataLab. / JRA-VAN Next
- 日本中央競馬会(JRA)の公式データ提供サービス
- レース結果、出馬表、オッズ、血統、調教など幅広くカバー
- 有料(月額利用料 + APIライセンス料)がかかるが、商用利用も可能
- 地方競馬 データ(SPAT4, NAR)
- 地方競馬全国協会が公式にデータ提供
- 開催日程や結果が公表されている
2. 有料データベース / ソフトウェア
- TARGET frontier JV(JRA-VANと連携)
- netkeiba プレミアム会員(CSVダウンロード機能あり)
- 血統書籍・データブック(サラブレッド血統センター等)
👉 お金はかかるけど ライセンス的に安心して使える。
商用プロジェクトや論文にはこのルートがベスト。
3. 公的に公開されているデータ
- JRA 公式サイトにある開催日程、レース結果(ニュースリリース形式)
- 各競馬場の公式ページ(重賞情報や結果速報)
👉 ただし スクレイピングは規約上NG になることが多い。
コピーではなく「人間が読んで引用する」レベルなら問題なし。
⚠️ グレーな方法(リスクあり)
1. スクレイピング(自動収集)
- netkeiba.com
- 利用規約で「自動取得禁止」と明記されている → 規約違反
- 無料で大量に取るとアクセス制限・法的リスク(損害賠償請求等)
- Yahoo!競馬 / Umajin / 他ポータル
- 同様に規約で禁止されていることが多い
- データ自体は「事実」なので著作権ではなく、規約違反が問題
👉 スクレイピング自体は違法ではないが、規約違反なので「グレー」という位置づけ。
2. 非公式APIや有志データ
- GitHubなどで「netkeiba API」的なライブラリが公開されていることがある
- これらは実際にはスクレイピングをラップしているだけ
- 規約的にはNG、法的に使うと危険(特に商用はアウト)
3. 個人利用の範囲での収集
- 学習・研究用に少量を自動取得 → 実務上は大きな問題になりにくい
- 公開・商用利用 → 利用規約違反でリスク大
したがって、クリーンな入手法をお勧めします。
コメント