Orange3 是一套開源、以 Python3 為基礎寫成的流程式資料科學模組,它的前身是以 Python2 寫成的 Orange。通過流程建立及各細節調整,能夠很快速地進行資料科學實作,更特別的是,對於熟悉 python 生態系的分析人員,更可以通過「自訂 sript」這個功能來擴充各個元件!換句話說,對於沒有提供的模組或實驗流程、前置處理算法都可以清楚地結合進去。不過,我還沒有仔細的評估過 orange3 分析大量資料的效能。Github Repo

安裝

不論是 OSX 或 Windows 都可直接下載 installer 安裝,這部分整個系統都被封裝好了。如果是進階用戶,我推薦使用 anaconda 來安裝。安裝腳本則可以參考這個 Gist 去改造。(有機會再來介紹 anaconda,不是今天的主題。Python 程式能夠再也無懼於跨平台,continum.io 開發的 anaconda 體系功不可沒啊!)

官方教學講解

官方教學。開啟程式後,進入歡迎畫面。點 Get Started 一個 sample case 來看看。選定例子點確定後,進入 canvas

canvas

一般情況下,流程需要從第一步開始逐步設定細項,如:設定檔案來源。在這個例子中,細項都已設定好,程式便會自動按照分析流程進行處理。不過值得注意的是,例如下圖這樣,你要首先開啟 hierarchical clustering 選取資料,才能夠進行後續的 box plotting 及 data collecting。

all orange

來個實際例子

用 Yahoo Finance 的 Nasdaq 歷史數據,來玩玩看 XD 但是真的不太好弄啊!而且我的程式感覺少了不少功能,可能是模組沒裝吧 :P 想看更多的人可以看網站的 Screenshot

Nasdaq