學程簡介:學程引言

362
次閱讀

 

資料科學  ───

Data Science
 

海量資料 (Big data) 是由 IBM 在 2010 年觀察到並提出的概念名詞,其特色是 : 龐大、即時性及多樣性。

由於目前資訊技術發達 3C產品普及,資訊很容易被轉換為數位資料而被儲存下來。這些資料包括文字、影像及聲音等,再加上網路發達,資料傳輸容易,在電腦上就可立即搜尋及使用這些資料,因而產生海量資料這種現象。

在這些龐大複雜資料下,常有特定模式隱藏於其中運作。處裡海量資料之目的及方法,就是找出這些隱藏模式並加以運用,這方法即為資料科學 (data science)。

 

個例子 ~

在 2009 年 Nature 期刊上發表一篇預測 influenza 流行的研究著作。值得注意的是,作者並非生物學家,而是一位 Google 工程師。他利用 Google 搜尋引擎中每週 influenza-like illness 相關字數目頻率變化與 influenza 疫情流行做統計,發現兩者間有高度相關 (r=0.85)。利用這模式就可成功預測 influenza 之流行,這是一個生物醫學海量資料分析的例子。

 Example
 


 

海量資料及處理  ───

Big Data Analysis
 

Google 以此首開海量資料應用到醫療領域的創舉,除了搜尋引擎對於疫情的預測,社群媒體如 Twitter、Face Book 也逐漸在這場海量資料競賽中找到自己的定位

加州大學洛杉磯分校(UCLA)以 Twitter 的訊息量、發信地點,來追蹤性病擴散率與毒品濫用的行為,他們蒐集 5 億 5000 萬條「推特文」,使用演算法篩檢出含有「性」、「快感」的字眼,並記錄發佈內容的地區,最後用統計模型觀測這些區域是否有 HIV 新病例通報。結果發現兩者之間有很顯著的關係,當某地區的推文呈現很高的「性指數」,HIV 的新感染病例也高。

由此可知在生物醫學界,海量資料及處理方法目前正在快速發展中。誠如史丹佛大學醫學院(Stanford University School of Medicine)院長Lloyd Minor指出,我們正處於科技和海量資訊急速發展創新的時代,有非常大的機會利用現有優勢,提升社區甚至全球的健康水準。有鑑於臨床醫療領域早已累積許多海量資料,也是許多傳統行業中較為重視資料分析的重要性,可望利用海量資料分析技術,協助臨床醫療領域存儲管理各種醫療數據,並從中提取創新價值,有可能給臨床醫療領域,開拓出嶄新的黃金時代。

 

可以預測的是 ~

將來海量資料運用會廣泛的深入到醫療各個領域,並加速達成個人化醫療,因人而異進行治療之目的。因此,期盼透過「生物醫學海量資料分析碩士學位學程」,能夠訓練能處理與分析大型資料庫的人才,達成培養此類人才的目的。

 Predictable