好的假設是所有統計分析的起頭

統計真的是很深奧的學門,尤其是整個資料分析的過程所需要的思緒邏輯!下面這句由知名社會學家Hubert M. Blalock, Jr.說的就格外顯得真切,就算我們能“舞弄一堆統計算式”,也無法取代在一開頭對於要分析問題的假設和認知,我猜這意思就是開頭的“假設”吧!

The manipulation of statistical formulas is no substitute for knowing what one is doing” — Hubert Blalock., Jr., Social Statistics
在統計假設的核心的觀念,就如同下面這段引言所說的
A clear formulation of the hypothesis to be tested as well as a clear understanding of the basic mathematical phenomena involved are absolutely necessary in order to be able to extract facts from data.
這句話我的理解是當不知道自己的假設是什麼,做再多的進階分析都沒有用,反過來說,資料所產生的“資訊”,要先來自於我們想要從他知道什麼!(有點哲學的感覺)
換句話說,“假設”不是立基於我們從資料探索出來的知識,而是我們在使用這筆資料前對問題的了解。
Hypothesis  testing is not centered on the data; it is centered on our a prior beliefs about it.
也就是我們必須建立一個基本的priori belief或者是說assumption, needs to be tested.
緊接者的重點是如何將我們好奇的問題,轉換成“統計可分析的”,在分析基因表現時則是必須知道何謂測出來的基因是“up-regulated”,在我們的資料中可以怎麼去看這件事情。

在建立假設檢定(Hypothesis testing ),可以簡單概括成下面的步驟

第一步驟清晰的定義想知道的問題(clearly define the problem)
舉例:The expression level c of a gene is measured in a given condition. It is known from the literature that the mean expression level of the given gene in normal conditions is mu. We expect tht gene to be up-regulated in the condition under study, and we would like to test whether the data support this assumption.
第二步驟從這個問題提出兩個mutually exclusive and all inclusive的假設(statistic hypotheses)
第三步驟在進行分析前,先選擇可以接受的p value,而p value就是“你願意忍受結果有多少不確定性”,也就是有多少機率是“錯的”
p-value is the probability of drawing the wrong conclusion by rejecting a true null hypothesis. the significant level is the amount of uncertainty we are prepared to accept in out studies。
第四步驟選擇合適的統計方法並且算出可用的statistic值
第五步驟看算出來的p-value其significant level是多少
第六步驟最後依據計算出來的數值,看能否對null hypothesis推翻,接受alternative hypothesis,或是not reject null hypothesis.

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

您的留言將使用 WordPress.com 帳號。 登出 /  變更 )

Google+ photo

您的留言將使用 Google+ 帳號。 登出 /  變更 )

Twitter picture

您的留言將使用 Twitter 帳號。 登出 /  變更 )

Facebook照片

您的留言將使用 Facebook 帳號。 登出 /  變更 )

w

連結到 %s