淺思考:散布圖(scatter chart)、相關(correlation)和回歸(regression)

 

在統計分析生物或是醫療資料時,當我們要探討兩個連續型變量(continuous variables)的關係時,比如說父母身高跟小孩身高的關係、一個人身高跟體重的關係等等,最好的方法便是先作圖(visualization),此時散布圖(scatter)便是很好的工具。而我們把資料用散布圖呈現的時候,另一個重點便是要去思考這兩個變量的關係(我們當然不會沒事來探討,通常都覺得這兩個“有關係”)。

但兩個變數之間會有什麼關係呢?首先,我們其實已經知道,這兩個變數之間不太可能有如像是物理學裡F=ma這種非常清楚的函數關係存在,畢竟是來自於生物醫療上的資料,往往都是以“不確定的函數關係”存在。這時候常常會先尋找,這變量間是否可以用相關(correlation)或是回歸(regression)分析去解釋變數之間的聯繫。

連續變數間最常見的關係便是:1. 因果關係 2.平行關係。

screenshot.png

因果關係是指一個變量受另一個變量影響,而平行關係通常代表兩個變量同時受某個因素影響

簡單將數據以散布圖的方式就能對兩個變數間的關係有些許覺察。

screenshot.png

screenshot.png
Nature Methods 12,999-1000(2015) doi:10.1038/nmeth.3627

從散布圖就可以先觀察幾個重點:

  1. 變量間的關係性質和程度
  2. 變量關係的類型,是直線還是曲線
  3. 是否有異常觀測值的干擾

而之後就可以思考要用相關分析或是回歸分析來探討兩個變數!當使用回歸分析的時候,通常就是假定一個變數主要受另一個變數影響,被影響的變數通常稱為應變量(dependent variable), 常用y表示, 影響別人的變數通常稱作自變量(independent variable),常用x表示。

當兩個變量間為平行關係時,可使用相關分析,此時兩個變量間其實沒有應變量和自變量的差別,且兩者同時都存在隨機誤差。對兩個變量間的直線關係進行分析則稱為直線相關分析(linear correlation analysis)或是簡單相關分析(simple correlation analysis)

當兩個變量間有因果關係時,我們使用回歸分析,此時應變量(dependent variable)隨自變量(independent variable)改變,且應變量伴隨者隨機誤差存在,當研究一個應變量與一個自變量的關係則稱為一元回歸分析(one factor regression analysis),研究多因一果實,則稱為多元回歸分析(multiple regression analysis)

 

 

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com 標誌

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

連結到 %s