於 2016/07/13 前往摩茲工寮參加放文化基金會,這是我的小筆記

資料科學的推廣與實踐

謝宗震:DSP 智庫驅動 的企業資料科學顧問

  • DSP DataCamp 核心價值
    • 實作:即刻開始寫 code
    • 團訓:混合組隊,在四天營隊中嘗試與不同領域的人合作
  • 提升資料素養的六種方法
    • 實體課程(長、短期)
      • 基礎知識如:統計(迴歸分析、時間序列分析)、資料結構、機器學習演算法
      • 程式語言R、Python、SQL
    • 自學讀書
      • 《聰明學統計的 13 又 1/2 堂課》
      • 《統計學:最強的商業武器》、《統計學:最強的商業武器:實踐篇》
      • 六十本免費的資料科學書籍
      • 《An Introduction to Statistical Learning with Applications in R》
    • 線上課程
      • Coursera 與 R 翻轉教室
      • Kaggle Tutorial
      • JHU: Launch Your Career in Data Science
    • 資料人聚會
      • DSP 舉辦的的 Data Mixer 每月一次
      • Taiwan R User Group 每周一次
    • 參加比賽
      • 例如:高醫舉辦的 KAMERA 急診資料挑戰賽
  • 資料英雄計畫
    • 由政府機構或企業單位提供資料使參與者有長期可合作的專案
    • 例如:家暴案件預防、火災、醫院按摩站分布、農藥、社福補助概況

跨校合作資料分析

許文才

  • 碩士班題材:R/quantmod
  • 團隊建立
    • 領域專家:提供想法、確認問題有意義
    • 程式專家:資料處理
    • 文案寫手:視覺化、呈現文本
  • 2016 DSP 資料科學冬令營
  • 提案決定
    • 台中市老人宜居空間
    • WHO 八宜居指標:如無礙、暢行、安居、親老(社會參與)、敬老、不老(義工)、聯通、康健(社區)
  • 資料處理流程
    • 取得:政府開放平台、主計處、衛服部
    • 清理:dplyr
    • 分析
      • 迴歸(問:甚麼樣的迴歸呢?沒有特別說明)
      • 研究限制:政府公開資料不齊全(較小的鄉鎮市)或未開放、已開放的資料格式及單位各有不同
    • 繪圖:使用 ggplot2 / geographic
    • 成果
      • 推廣至全台灣
      • 以此成果投稿 UseR! 會議

UseR!2016 Conference 及趨勢

林庭蔚

  • UseR!
    • 2016 Stanford University
    • 2017 Brussels,官方 Twitter (目前還沒有官方網站)
    • (補充:講者大大有參加 UseR! 大會會後緊接著的 Bioconductor 會議,詳情有待講者大大從北京回來後於波北聯聚分享!)
  • 投稿時程
    • 2016/01/19 - 智庫營隊結束
    • 2016/03/25 - Abstract 繳交死線及說明是 poster / oral
    • 2016/04/06 - 大會回復接受否
      • 中間尋找贊助
    • 2016/06/18 - Poster 檔案給大會
    • 2016/06/27 ~ 2016/06/30 - 大會
  • 投稿規定
    • 摘要、專案相關網站、程式碼 Github 頁面
  • 補助規定
    • 教育部
      • 要求發表論文,以專業學術會議為優
      • 申請關卡繁複,審核需要一個月左右
      • 個人為主,團隊難申請,也不容易核銷花費
    • 系所
      • 以論文發表為主
      • 需要系所有剩餘經費且須有指導老師署名
    • 開放文化基金會
  • UseR!2016 內容與特色
    • 今年贊助商:矽谷(廠商贊助,目標是招聘!)
    • 特色
      • 教學工作坊
      • Keynote
      • Lighting talk、Poster talk、Sponsor talk
      • Contribute talk
        • 來自不同子群體的討論!
        • 例如:statistics、bioinformatics、kaleidoscope、regression、other language/Julia
  • 極富特色的個人議程管理網站 SCHED
    • 行程管理
    • Networking!可以認識同場會議的人!
    • 知道想來看自己 poster 的人
    • 推薦想辦活動的人參考
  • 會議內容收穫分享
    • Workshop
      • 現場提供組合好的軟體:RStudio Server + AWS service 或 Jupyter notebook with R core
      • 筆記已經上傳到 Github,一邊上課一邊 accept pull request
    • 大咖
      • Richard Becker - S language(疑似大會找來,用來反面宣傳 R 的開放與 S 之死)
      • Donald Knuth - literature programming
      • Deborah Nolan
        • UCB 的資料科學老師
        • 從最低階的原始資料(raw data)分析開始玩
        • 學習如何學習新的技術、使用已經有的工具而非從頭打造
      • Hadley Wickham
        • Consortium and RStudio
        • 接下來要發展甚麼 R 包?讓使用者掉入「成功的陷阱」A_A
        • import => tidy-tibble => transform/visualize/model => communicate
          • 今年發展重點:一致性包 tibble,與 dplyr 有關聯性。但是被社群評論為,意圖創造一個在 R base 之外新的語法!
    • Poster 報告建議
      • 練習很多版本的說法:因為每個詢問者對於報告的各部感興趣程度不一!
      • 觀察大家喜歡甚麼:今年大家特別愛看機器學習相關的 poster
      • 觀察大家怎麼設計 poster
    • Lighting Talk
      • 新手建議 by Larl Broman
        • 慎選 lib:是否時常更新?開發者過去的 credit
        • 有問題直接問開發者!因為有時候開發者不一定能了解使用者的苦處,寫信給開發者溝通有助於改善軟體親合度或難理解部分(註解:可發 issue?)
        • 自己開發時,注意 dependency,因為軟體會彼此更新,小心像後相容的問題!
        • 如何建設自己的 lib community?(沒有特別提到 :P)

有趣的 R 開源專案

公司 產品
H20 machine learning implentation
Seven Bridges Seven Bridges Platform 雲端基因體運算庫
MonetDB MonetDB.R 原生資料庫
Google Rho R 底層改寫
RStudio Htmlwidge / dashboard / R notebook
Ryan Hafen Rbokeh 視覺化
Ryan Hafen ggduo 視覺化
Plumber web API