2014年1月5日 星期日

[Kaggle] Digit Recognizer


Random forest.


因為 Python 記憶體的限制,所以我只有跑 25000 train data,而且不是全部的 pixel 都餵進去,如果全餵進去記憶體會爆掉。此外,n_trees 也沒拉到 1000,200 差不多就緊繃了。

但全部有 40000 個 train data,benchmark 可是全部把原汁原味的資料賞給 random forest,而且 n_trees 設成 1000,所以我的分數比 benchmark 低


喵的。

246newMeng-Gen Tsai0.962293Sun, 05 Jan 2014 12:20:47
接下來可以往 RandomizedPCA 研究看看,不然 features 全塞也不是辦法。今天測一下沒有掌握到要訣,而且 train model 好花時間。繼續研究。



安裝 R software。

n_trees = 1000 跑一次,0.96743。
n_trees = 800 跑一次,0.96843,終於擊敗 RF benchmark。

140newMeng-Gen Tsai0.968435Tue, 07 Jan 2014 02:22:13

Your Best Entry

You improved on your best score by 0.00100.
You just moved up 37 positions on the leaderboard.
152↓29Ravi Chandibhamar0.968296Mon, 09 Dec 2013 21:04:39 (-44.9h)
Random Forest0.96829
154↓29Thomas Hepner0.968291Sat, 14 Dec 2013 22:50:53




沒有留言:

張貼留言