今天我們繼續(xù)介紹QC七大手法的第五種——散布圖。
散布圖是探討一組成對數據之間是否具有相關性的圖示,其基本的形式如下:
散布圖主要是用來尋找兩種變量間的關系,因此,散布圖也叫相關圖。
在現實的工作、生活中,我們經常會需要分析兩種變量是否有關系,而這種關系往往因為偏差、測量誤差等因素呈現出非線性的關系,不能由數學公式直接計算,這時候通過散布圖,就可以相對方便地觀察出這兩個變量之間的關系。
散布圖的相關性分為強正相關、弱正相關、強負相關、弱負相關、非線性相關、不相關等六種形態(tài),如下圖所示:
1、強正相關
強正相關,就是一個變量隨另一個變量的增加而增加,并且所有的數據點都分布在較為狹小的區(qū)域內,兩個變量表現出較強的因果關系,比如發(fā)動機的輸出功率和轉速。
2、弱正相關
弱正相關,就是一個變量隨另一個變量的增加而增加,但數據點分布在較寬的范圍內,兩個變量的因果關系表現較弱,比如人的體重和身高。
3、強負相關
強負相關,就是一個變量隨另一個變量的增加而減少,并且所有的數據點都分布在較為狹小的區(qū)域內,兩個變量表現出較強的因果關系,比如油的粘度和溫度。
4、弱負相關
就是一個變量隨另一個變量的增加而減少,但數據點分布在較寬的范圍內,兩個變量的因果關系表現較弱,比如人走路的步速和溫度。
5、非線性相關
非線性相關,就是兩個變量的數據點分布在較狹小的范圍內,但不在一條直線上。
6、不相關
不相關,就是兩個變量的數據點分布在很寬的范圍內,兩者沒有表現出因果關系。
通過散布圖對兩個變量的關系進行分析、判斷,可以尋找控制、改善的方法。
散布圖的畫法如下:
1、收集兩個變量的數據;
2、找出數據中的最大值與最小值;
3、將數據繪制成坐標圖;
4、畫出簡易的回歸線。
在這里,首先需要注意,收集的數據量要足夠多,否則可能因為數據量不足,造成隨機的數據偏差較大,從而導致對相關性的錯誤判斷。
傳統(tǒng)的統(tǒng)計學中,對于數據量的要求是不少于20個,而在散布圖的繪制要求是不少于30個。隨著數據量的增加,變量之間的關系會更加清晰而易于判斷。目前的大數據分析,運用的也是散布圖來尋找變量間的關系。
其次,散布圖繪制后,分析散布圖應謹慎,因為散布圖是用來理解一個變量與另一個變量之間可能存在的關系,這種關系需要進一步的分析,最好做進一步的調查。
再次,對散布圖進行分析時,要注意:
1、散布圖反映的只是一種趨勢,對于定性的結果還需要具體的分析。
2、分析時,應注意對數據的正確分層,否則可能會發(fā)生誤判。
3、在使用散布圖調查兩個因素之間的關系時,應盡可能固定對這兩個因素有影響的其他因素(控制變量法),才能保證通過散布圖分析的結果比較的準確。