Chainer/market

提供: fukudat
移動: 案内検索

インターネットで公開されている金融市場のインデックスをいくつか集めたので, neural network でも他の機械学習のテクニックでも構わないので,これを使って,例えば1週間後のTOPIXの値を予測してほしい.

データはここからダウンロードできる.

目次

データの説明

以下のようなCSV形式のデータで,3カラムからなる.

"2010-04-01","dji-close",10927.070312
"2010-04-01","dji-high",10956.389648
"2010-04-01","dji-low",10857.30957
"2010-04-01","dji-open",10857.30957
"2010-04-01","eurjpy-close",127.430523
"2010-04-01","eurjpy-high",127.51497
"2010-04-01","eurjpy-low",126.238882
"2010-04-01","eurjpy-open",126.754947
"2010-04-01","ftse-close",5744.899902
"2010-04-01","ftse-high",5744.899902
...
第1カラム
"YYYY-MM-DD" 形式の日付
第2カラム
"label-suffix" 形式の変数名.suffix には "open", "close", "high", "low" がある.それぞれ始値,終値,高値,安値を意味する.
第3カラム
第1カラムで示される日の,第2カラムの label-suffix で示される商品の値段 (始値,終値,高値,安値).

例えば,1行目の "2010-04-01","dji-close",10927.070312 は,

  • 2010年4月1日の
  • dji (Dow Jones Index) の終値が
  • 10927.070312 であったことを表す.

商品の説明

第2カラムに現れるlabelには以下のものがある.

label 商品名 説明
dji Dow Jones Industrial Average 所謂ダウ工業株30種平均.単位はUSドル
eurjpy Euro-JPY currency exchange rate ユーロ・日本円の為替レート
ftse Financial Times Stock Exchange 100 Index ロンドン証券取引所における株価指数
gold-etf ETF SPDRゴールド・シェア (1326) 金の価格に連動するETF
gspc Standard&Poor's 500 Stock Index アメリカの上場株500種の時価総額加重平均指数
ixic NASDAQ Composite Index ナスダック総合指数
jasdaq JASDAQ Index ジャスダック市場の株価指数
nikkei Nikkei 225 Index 日経平均株価
oil-etf ETF WTI原油上場投資信託 (1690) 原油価格に連動するETF
rut Russell 2000 Index ラッセル2000指数.アメリカの小型株の株価指数
tnx CBOE Interest Rate 10-Year T-No アメリカ10年国債金利
topix TOPIX Index 東証株価指数
usdjpy USD-JPY currency exchange rate ドル・日本円の為替レート
vix Volatility Index 市場の不透明感の高さを現す指数.シカゴ・オプション取引所がS&P500のオプション取引を元に算出.

予測のポイント

  • 株価インデックス (例えば TOPIX, 日経平均) を 予測 したいのだから,過去のデータで未来の値を当てなければならない.つまりある予想対象日に対して,それよりも過去のデータだけを使って,対象日の株価インデックスの値を予想する機械学習モデルを作成すべきである.予測対象日その日のデータや,予測対象日以降のデータを使うの(たとえ一見関係ない変数であっても)は反則である.
  • 天気予報と同じで,1日後の値を予測する方が10日後や1ヶ月後の値を予測するよりも簡単であると考えられる.ここではだいたい1週間後の値を予測できれば良いものとする.だいたいと言うのは,市場は土日・祝日が休みになるため,カレンダー上の1週間はデータ上は一定の間隔ではなくなってしまう.祝日のない週ならば,5営業日後が1週間後となるので,5営業日後の値を予測することにしても良いだろう.
  • 欠損値がある.海外と日本の休日の違いから生じるものが多いが,それ以外にもデータが存在しないケースがある.欠損値をどう扱うかも工夫のしどころである.
  • あまり昔の株価の動きをしっかり覚えてしまうと,それとは違った動きをする新しいデータに対して予測精度が下がってしまう.適度に昔のことを忘れる(か,昔のデータを使わないで学習する)モデルが求められているのかもしれない.

評価方法

出来上がった予測モデルの良し悪しの判定には,(公開したデータよりもあとで収集された,ここでは公開されていない)別のデータを使って行う.その際,はじめに一定の資金を持っていると仮定し,予測モデルの予測に従ってインデックスに理想的に連動する資産を売買し,最後に残った金額の大小で決することにする.

データのダウンロード

個人用ツール
名前空間

変種
操作
案内
ツールボックス