生物學在開放科學上的研究變革
臺歐盟科研專欄
陳欣珏博士後研究員(工程平臺)2022年01月27日
壹、前言
隨著開放科學的興起,尤其是研究數據的開放獲取,科學正在經歷前所未有的實踐變革。這種改變不僅要求研究實踐文化的轉變,更需要仰賴電子基礎設施的發展。開放科學的目的在於藉由共享數據或軟體,加速科學研究創新的進程。因此,開放科學的資助組織正在呼籲科學界根據特定學科、新興學科,抑或跨學科方法,提出如何應用開放科學原則促進數據與軟體的可重複使用(reuse)。本篇文章旨在透過介紹ShareTrait和OpenLink兩個已獲得資助的研究計畫案,窺知開放科學如何改變傳統生物學的研究實踐。
貳、研究計畫案:ShareTrait
ShareTrait是由荷蘭科學研究組織(The Dutch Research Council, NWO)所資助的一項研究計畫案,其目的在於建立一個使生物特徵數據可以互相操作與重複使用的入口網站。計畫主持人Wilco Verberk是來自荷蘭奈梅亨之拉德堡德大學(Radboud University in Nijmegen)的一位生物學教授,其專長為動物生態學(Animal Ecology)與生態生理學(Ecophysiology)。Wilco教授長期致力於研究冷血動物、水生動物、昆蟲、魚…等生物,探討牠們如何因應環境的變化。Wilco指出,近年來昆蟲急遽下降,有可能是因著土地利用的改變,但也可能是因為全球氣候的暖化。倘若我們需要更確切的知道原因,就必須收集數據了解物種與環境之間的關係。例如:收集關於魚耗氧量的數據。Wilco提到耗氧量是一個很好衡量能量消耗的方式。我們藉由知道動物的能量預算(energy budget),就可以了解牠們生長繁殖與維持物種的能力。對魚群進行測量,可以得知不同隻魚的耗氧量數據(圖一)[1]。然而,以上這些都只是科學「事實」(facts)。我們還需要結合大量的數據,對不同魚種進行測量,以找出「典型的模式」(pattern)。例如:氧的消耗量指數(log-metabolic rate,代謝率用以測量耗氧量)與生物的重量指數成正比(圖二)[2]。開放科學可以促進大量數據的有效整合,使科學家可以從科學事實中找出典型的模式(cementing facts into patterns)。然而,倘若需要收集整理來自不同地區的許多不同物種之大量數據,就必須仰賴於國際間的團隊合作。ShareTrait的目標就是建立一個促進國際合作的數位平臺,使研究人員可以在上面提供數據與「元數據」(metadata),藉此將大家所收集到關於生物特徵的數據共享,例如:生物的耗氧量、發育率(development rates)、繁殖率…等。在這個「入口網站」(portal)中,所有的數據都已經被標準化並經過審查。另外,為了使數據更加準確,審查後的結果會回饋給原先提供數據的研究人員,並請他提供額外的數據。ShareTrait研究計畫期望所建立的數據庫最終可以協助對此議題感興趣的研究人員搜尋並提取數據。
圖一、不同隻魚的耗氧量數據[3]
圖二、魚類的耗氧量指數與體重指數呈正比[4]
圖三、ShareTrait的網站架構[5]
參、研究計畫案:OpenLink
OpenLink是由法國國家研究總署(French National Research Agency, ANR)所資助的一項研究計畫,目的在於建立一個「影像數據管理工具」之間的閘道器(gateway)[6],用以加強FAIR原則 [7]。OpenLink計畫的發想源自於生物學家與資訊工程師間的討論。在現實生活中,開放科學面臨了以下的挑戰:
1. 數據的追蹤-不同的研究人員使用不同的測量儀器、基礎設施,以及數據管理軟體。這些工具時常是不相容的,需要重新組織它們,並了解它們是如何處理數據的。
2. 元數據描述的追蹤-生物學家大多不習慣使用電子的實驗筆記本來記錄數據。他們雖然開始嘗試使用「資料管理方案」(Data management plan, DMP)[8],但仍然會缺少描述一些數據的要點。
3. 使用可互相操作的格式-每個領域或測量儀器都有自己的格式。因此,我們需要更好的工具,來了解在大多數情況下那些測量工具會使用哪種格式,以符合使用者與研究人員的需求。
4. 發表數據到正確的數據儲存庫(data repository) [9]-我們如果想要發表數據,就需要選擇正確的數據儲存庫。然而,現有的「數據儲存庫」不那麼容易使用。因此,我們必須了解不同類型的數據傳輸方式。
為了克服這些挑戰,OpenLink提出了「數據代理解決方案」。首先,使用python語言,建立一個基於Django架構的開源網路應用程式。這個應用程式將多個數據源連結到ISA模型(圖四)的研究項目結構中。OpenLink並非建立新的數據管理解決方案,而是希望能與現有的解決方案相容。因此,OpenLink開發了許多連接器,集成了像是LabGuru、Omero、Seafile…等新興數據管理工具,使這些管理工具中的數據都能在OpenLink中顯示出來。換句話說,OpenLink的具體目標如下:
1. 清楚的檢視與每個研究項目相關的數據,這些數據目前散落在不同數據管理工具中。
2. 找到一種方法以促進FAIR原則的實現。
3. 減少採用FAIR原則時所耗費的冗長時間。
4. 協助研究人員發表數據。
(圖四)OpenLink的ISA模型 [10]
OpenLink採用ISA模型,將「研究項目的結構」劃分成以下三個階段:
1. 調查階段(Investigation):「調查」是一個研究項目的主要研究目的。一個研究項目的研究問題通常會產生不同的研究假設。每個研究假設都由一項「研究」(Study)來檢驗選定假設的正確性。因此,「調查」會結合各種不同的「研究」(Study),以回答研究項目的研究問題。
2. 研究階段(Study):一個假設通常有許多不同的分析方式。例如:一個特定的生物假說會使用各種不同方法進行分析。這些相關聯的分析方式就形成了一個「研究」。
3. 分析階段(Assay):對所收集到的數據進行質性或量化的研究分析。
我們以DNA損傷(DNA damage)的研究項目作為ISA模型的範例。在這個研究項目中,我們想探討「造成DNA損傷的成因」。造成DNA損傷的成因可能在於UV放射線的照射(Microirradiation UV)。因此,我們就可以導入UV放射線相關的文獻與收集到的數據。另外,我們也可以透過「光漂白後螢光回復技術」(Fluorescence recovery after photobleaching, FRAP)來測定細胞中DNA損傷的程度。因此,我們可以導入FRAP的實驗流程。
肆、結語
從上述兩個研究計畫案不難發現,開放科學已經徹底改變了生物學的研究實踐文化。生物學家不再孤軍奮戰,藉由開放科學的數據共享,生物學家得以獲得更加完整的數據,並作出更具嚴謹性的結論。雖然開放科學尚有許多亟需克服的挑戰,例如:在符合FAIR原則的同時又不耗費冗長的時間、不同數據管理工具之間的可相容性…等。然而,開放科學在科學研究創新上的貢獻,值得政府投注資金加強基礎設施的建設。展望歐洲近兩年來提供了28項開放科學相關的計畫徵求案,對開放科學的重視程度可見一斑。雖然本篇文章聚焦於開放科學對生物學上的影響,但相信開放科學在其他學科領域中也扮演著舉足輕重的角色。
註釋
[1] Zupa, W., Alfonso, S., Gai, F., Gasco, L., Spedicato, M. T., Lembo, G., & Carbonara, P. (2021). Calibrating accelerometer tags with oxygen consumption rate of rainbow trout (Oncorhynchus mykiss) and their use in aquaculture facility: a case study. Animals, 11(6), 1496.
[2] Rubalcaba, J. G., Verberk, W. C., Hendriks, A. J., Saris, B., & Woods, H. A. (2020). Oxygen limitation may affect the temperature and size dependence of metabolism in aquatic ectotherms. Proceedings of the National Academy of Sciences, 117(50), 31963-31968.
[3] MO2: Oxygen Consumption Rate, 耗氧量。圖中的魚種是虹鱒魚,學名為Oncorhynchus mykiss。
[4] RMR(Resting metabolic rate):靜止代謝率,身體完全靜止時燃燒的卡路里總數。MMR(Maximal metabolic rate):最大代謝率,指在最大可持續運動期間的耗氧率。
[5] 圖片來源:筆者自行繪製。
[6] 閘道器(gateway):轉發其他伺服器通信資料的伺服器,接收從客戶端傳送來的請求時,它就像自己擁有資源的「源伺服器」(origin server)一樣對請求進行處理。
[7] FAIR原則-開放科學中的共享數據必須符合四個原則:可查找性(findability)、可訪問性(accessibility)、互操作性(interoperability),以及可重用性(reusability)。
[8] 資料管理方案是一份書面文件,描述了希望在研究項目過程中獲取或生成的數據,將如何管理、描述、分析和存儲這些數據,以及將使用哪些機制在您的項目結束時共享和保存數據。
[9] 資料儲存庫(data repository):又稱為「資料圖書館」(data library)或「資料檔案庫」(data archive)。資料儲存庫用以收集、管理和存儲數據集,以進行數據分析、共享和報告。資料儲存庫通常是大型機構(學術、企業、科學、醫療、政府等)的一部分。
[10] Rocca-Serra, P., Maguire, E., Taylor, C., Field, D., Wittenberger, T., Santarsiero, A., … & Sansone, S. A. (2012). Investigation-Study-Assay, a toolkit for standardizing data capture and sharing. In Open Source Software in Life Science Research (pp. 173-188). Woodhead Publishing.