現在是5月8 日,如果今年EMBA要畢業,最晚6月底要提口試,
也就是 6/30要完成論文, 7月份口試,然後通過辦離校手續等,7月底前要完成.

想當初來唸EMBA,在入學口試講的意氣風發,真正想作 Data mining 實際的研究,

因為Data mining 真的是蠻有趣的,最簡單易懂的如氣象預測
,要預測降雨機率,溫度,一定是要日積月累的收集資料,觀察統計分析而來.
就比如 孔明要能預測東風,也是要觀測天象與歸納預測,
(最近那部決戰赤壁蠻好看的, 裡面演的最傳神的就是金城武飾演的孔明了)

由於這塊據我所知,在目前服務的公司還是一片空白,空有大量的資料,
但是未能歸納整理,分析, 進而預測, 或推薦 是真的十分可惜的.
然而現在有一半覺得當初的決定是錯的原因是,如果你白天的工作跟這部份相關,
或是主管很支持你利用上班時間作 Data mining的研究,還是不要走我這條路.

現在真正頭洗下去了,才知道其中學問可大了,
要學的還真不少,之前因為我們實驗室才兩個emba的同學,大家白天上班,晚上顧小孩, 假日要 約來討論都湊不出時間
加上我去國家圖書館找過,真正把幾十萬筆投資型保單拿來做分析的真的是寥寥無幾,所以我有點落得閉門造車的下場,
還要在白天下班後,晚上11點老婆小孩都睡後,偷偷用家裡的PC跑資料,把資料倒進去設變數,改參數,用決策樹或類神經等不同
的理論建模,但是就一直跑不出 誤判率 與  漏判率 低的模型.

昨天meeting 過後,才知道自己為何會作不出理想的模型,關鍵在一開始的取樣就很有學問了.
原來就是我的統計沒學好,只知道死記不知活用,空有大量的資料,取樣方式不對,反而會造成過度學習某個變數,導致模型的錯誤 .
還好遇到貴人,有位同實驗室的博士班學長,就在某大金控工作,作的就是這種資料探勘的工作,所以擁有很豐富的data mining 經驗
在我報告完我這段時間所作的樣本分析,資料預處理方式, 採礦架構,產生出的結果後,他就給我很多寶貴的建議,
如我應該用年度 -分層抽樣 ,各種類別應該樣本要平均,避免過度學習等, 真是獲益良多.

理論 vs 實務 ,老師給了我們很多理論 ,但是data mining 要能建出理想的模型,還是需要經驗,避免原本該被重視的變數,
卻被取樣錯誤而忽略.

6/13畢業典禮, 我希望我能在畢業典禮前完成論文,在6/12 申請口試,
雖然這條路走來真的蠻辛苦的,但我就是死腦筋,因為我個人還是真的認為,只有個案訪談或問卷,所作出的研究結果,
真的不能讓我完全信服,對公司來說,感覺不出來有什麼貢獻.

所以我還是會繼續努力的,希望6/13畢業典禮時,論文可以完成初稿送口試申請,讓心中放下一塊大石,
可以真正擁有畢業如釋重負的快樂!

創作者介紹
創作者 網魚 的頭像
網魚

網魚的生活日記

網魚 發表在 痞客邦 留言(2) 人氣()