競馬データをWeb Scraperで抽出してみた

毎週金曜日に馬柱を眺めて競馬を予想していますが、馬柱の文字が小さくて必要なデータを見つけるのがしんどくなってきました。

競馬関係で登録している有料サイトはnetkeibaとグリーンチャンネルのみです。JRAVANやJRDB等の分析ソフトなんて使いこなせないと思うので使っていません。馬柱や調教だけでも十分かなと思うので。

これ以上競馬の予想にお金使いたくないなとも思うので、netkeibaからデータを引っ張ってみました。

スポンサードリンク

Web Scraperでデータを引っ張る

スクレイピングというものをしてnetkeibaの競走成績をひっぱることを目標とします。

ウェブスクレイピング(英: Web scraping)とは、ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。ウェブ・クローラー[1]あるいはウェブ・スパイダー[2]とも呼ばれる。 通常このようなソフトウェアプログラムは低レベルのHTTPを実装することで、もしくはウェブブラウザを埋め込むことによって、WWWのコンテンツを取得する。

ウェブスクレイピングは多くの検索エンジンによって採用されている、ボットを利用してウェブ上の情報にインデックス付けを行うウェブインデクシングと密接な関係がある。ウェブスクレイピングではウェブ上の非構造化データの変換、一般的にはHTMLフォーマットからデータベースやスプレッドシートに格納・分析可能な構造化データへの変換に、より焦点が当てられている。また、コンピュータソフトウェアを利用して人間のブラウジングをシミュレートするウェブオートメーションとも関係が深い。ウェブスクレイピングの用途は、オンラインでの価格比較、気象データ監視、ウェブサイトの変更検出、研究、ウェブマッシュアップやウェブデータの統合等である。

引用:Wikipedia

手動でコピペすることもウェブスクレイピングと言えます。今回はクロームの拡張機能であるWeb Scraperを使用します。

必要なデータが馬柱や競走成績だけで集まるタイプの人間なのでこれで簡単にCSV化してエクセルでソートして使ってみましたがなかなか。もっとデータが欲しい人はTARGETやJRDBを使うのがよろしいかと・・・

ただTABLE抽出したときにnullになる項目があるのが我慢ならん!もっといい方法はないものか模索してみます。

スポンサードリンク