頻率分佈直方圖
頻率分佈直方圖
在直角坐標系中,橫軸表示樣本數據的連續可取數值,按數據的最小值和最大值把樣本數據分為m組,使最大值和最小值落在開區間(a,b)內,a略小於樣本數據的最小值,b略大於樣本數據的最大值。組距為d=(b-a)/m,各數據組的邊界範圍按左閉右開區間,如[a,a+d),[a+d,a+2d),……[a+(m-1)d,b)。
徠縱軸表示頻率除以組距(落在各組樣本數據的個數稱為頻數,頻數除以樣本總個數為頻率)的值,以頻率和組距的商為高、組距為底的矩形在直角坐標繫上來表示,由此畫成的統計圖叫做頻率分佈直方圖。
各組頻率之和的值為1,在頻率分佈直方圖中表現為所有矩形的面積之和等於1。各組的平均頻率密度是指組頻率與組距的比值,是指該組內單位距離上的頻率。以平均頻率密度為縱坐標,取代頻率分佈直方圖中的頻率,所作的統計圖稱為平均頻率密度直方圖。平均頻率密度直方圖中所有矩形的面積之和等於1。也就是平均頻率密度直方圖中所有矩形的頂邊與直方圖兩邊界邊及橫軸圍成的圖形的面積等於1。當樣本量不斷增加而組距不斷減小,每一組的平均頻率密度就非常接近組中值處的頻率密度,此時頻率密度直方圖的矩形頂邊就非常接近一光滑曲線,該曲線就是頻率密度函數曲線。簡單來說:就是利用直方圖反映樣本的頻率分佈規律,這樣的直方圖稱為頻率分佈直方圖,簡稱頻率直方圖。
頻率分佈直方圖能清楚顯示各組頻數分佈情況又易於顯示各組之間頻數的差別。它主要是為了將我們獲取的數據直觀、形象地表示出來,讓我們能夠更好了解數據的分佈情況,因此其中組距、組數起關鍵作用。分組過少,數據就非常集中;分組過多,數據就非常分散,這就掩蓋了分佈的特徵。當數據在100以內時,一般分5~12組為宜。
從頻率分佈直方圖可以估計出的幾個數據:
眾數:頻率分佈直方圖中最高矩形的底邊中點的橫坐標。
算術平均數:頻率分佈直方圖每組數值的中間值乘以頻率后相加。
加權平均數:加權平均數就是所有的頻率乘以數值后的和相加。
中位數:把頻率分佈直方圖分成兩個面積相等部分的平行於Y軸的直線橫坐標。
1.找出所有數據中的最大值和最小值,並算出它們的差(極差)。
2.決定組距和組數。
3.確定分點。
4.將數據以表格的形式列出來。(列出頻率分佈)
5.畫頻數分佈直方圖(橫坐標為樣本資料、縱坐標是樣本頻率除以組距)。
與頻率分佈直方圖相關的一種圖為折線圖。我們可以在直方圖的基礎上來畫,先取直方圖各矩形上邊的中點,然後在橫軸上取兩個頻數為0的點,這兩點分別與直方圖左右兩端的兩個長方形的組中值相距一個組距,將這些點用線段依次聯結起來,就得到了頻數分佈折線直方圖。
在編輯工作中,經常會碰到帶有頻數(或頻率)分佈直方圖(以下簡稱“直方圖”)的稿件。由於作者提供的圖自明性不好,需要編輯加工時修改補充,於是希望通過學習其他期刊對這種圖的加工方法來指導自己的工作實踐;因此,筆者收集了一些期刊上發表的直方圖。在整理這些直方圖的過程中,發現其中出現了不少條形圖,而且直方圖的表達形式也比較混亂,不便於讀者閱讀理解。為了使直方圖的編輯加工有規範可循,學習了GB/T3358.1—2009《統計學辭彙及符號第1部分:一般統計術語與用於概率的術語》中的有關內容,指出了科技期刊論文中頻數(或頻率)分佈直方圖表現形式存在的問題,給出了解決辦法,並用實例作了具體說明。
GB/T3358.1—2009對“直方圖”的定義是:頻數分佈的一種圖形表示,由一些相鄰的長方形組成,每個長方形的底寬等於組距,面積與組的頻數成比例。對“條形圖”的定義是:由一組寬度相同、高度與頻數成比例的長方形組成的,表示名義特性頻數分佈的圖形(註:條形圖中的長方形並不需要相鄰)。
根據GB/T3358.1—2009的定義的內容,對直方圖與條形圖進行了對比,結果如下:
1)直方圖橫軸上的數據是連續的,是一個範圍。條形圖橫軸上的數據是孤立的,是具體的數據。
2)直方圖用長方形的面積表示頻數,長方形的面積越大,表示這組數據的頻數越大;只有當長方形的底寬都相等即組距相等時,才可以用長方形的高表示頻數的大小。條形圖用條形的高度表示頻數的大小。
3)直方圖中各長方形對應的是一個範圍,由於每2個相鄰範圍之間不重疊、不遺漏,因此直方圖中的長方形之間沒有空隙;而條形圖中各個數據之間是相對獨立的,各個條形之間是有空隙的,並不需要相鄰。
通過對收集的科技期刊論文中的頻數(或頻率)分佈直方圖進行分析,發現它們主要存在以下問題。
1)將直方圖畫成了條形圖。
2)直方圖橫軸的坐標標值線不能明確地界定分組區間,有的分組區間不是半開區間。
3)直方圖縱軸坐標的名稱(即標目)形式多樣,如分佈頻率/%,頻率/%,頻率,頻數,頻數/%,頻數/個,樣品/個,樣品數/塊,樣品數(個),百分比/%,百分數(%),含量(%),數量(%),油氣單元(個數)。頻率與頻數用法混亂,如該用“頻數”的用成了“頻率”,該用“頻率”的用成了“頻數”。
4)圖題籠統,如“……均一化溫度直方圖”“……孔隙度-滲透率頻率直方圖”“……儲集層物性分佈直方圖”“……孔隙度頻數分佈”“……包裹體測溫統計圖”“……孔隙度滲透率統計直方圖”“沙山迎風坡不同粒級含量”“……油氣水平運移距離統計”“……有機碳分佈直方圖”“……碳同位素對比”“……同位素分佈直方圖”“……孔隙類型特徵”。
1)橫軸坐標
直方圖橫軸坐標反映考察對象的類別,從橫軸坐標的名稱(即標目)可以了解統計的是考察對象的定性特徵還是定量特徵,如果統計的是定量特徵還需給出對應的量和單位。
如果統計的是定性特徵,那麼要求橫軸坐標的標值線應能清楚地反映統計對象的分組情況:分組的組數(把全體樣本分成的組的數量稱為組數),每個分組的特徵名稱。
如果統計的是定量特徵,那麼要求橫軸坐標的標值線應能清楚地反映統計對象的分組情況:分組的組數,每組的組距,分組區間的開閉情況(分組區間必須是半開區間,這樣才能保證每個數據都能落入且只能落入某一個區間)。
2)縱軸坐標
直方圖的縱軸坐標反映的是考察對象的頻率與組距之比,只有當組距相同時,才可以用長方形的高即縱坐標的數值(即標值)表示頻率(頻數)的大小。由於科技期刊論文中的直方圖多數都採用相同的組距,所以研究僅討論等組距的情況。
縱軸坐標名稱採用頻數(落在不同小組中的數據數量稱為該組的頻數)或頻率(頻數與樣本總數的比稱為該考察對象的頻率)來表示。各分組的頻數之和等於這組數據的樣本總數。0
如果是頻率分佈直方圖,縱軸坐標標目採用“頻率/%”,如果是頻數分佈直方圖,則採用“頻數”。
縱軸徠坐標標目是“頻率/%”,那麼∑fi=100。如果是“頻數”,那麼各統計對象的頻數之和(∑ni=n)必須等於樣本數據總數n。通過這種方法來初步判定作者給出的是頻率還是頻數分佈直方圖。
3)圖的形狀
從對直方圖的定義中知道,直方圖是由相鄰的長方形組成的圖形。
利用Excel繪製直方圖時,要先通過繪製柱形圖,將各柱形圖之間的分類間距設置為0后得到,具體步驟是:選中某一個數據系列,單擊右鍵,在彈出的浮動選單中選擇“數據系列格式”,單擊“選項”選項卡,將“分類間距”設置為“0”,同時勾選“依據數據點分色(V)”複選框,按“確定”鍵后,柱形圖之間的間隔即被取消,成為長方形相連的符合標準要求的直方圖。
4)圖題
圖題應能反映考察對象的類別名稱及圖形的樣式名稱,而不是用籠統的圖題表示。建議增加明確指示圖形類型的“頻數(或頻率)分佈直方圖”的字樣,這樣可以與條形圖明確區別開來,也便於讀者檢索。例如可將第2章4)中示例的圖題改為“……均一化溫度頻數分佈直方圖”“……孔隙度、滲透率頻率分佈直方圖”“……儲集層孔隙度、滲透率頻數分佈直方圖”“……孔隙度頻率分佈直方圖”等。
5)其他
由於頻數(或頻率)分佈直方圖是一種統計圖,所以要求圖中應給出樣本總數。當考察對象不止1個時,即橫向指標反映的是多個對象的特徵時,須用圖例指明。
對於直方圖和條形圖,應注意區分二者的不同。根據直方圖編輯加工規範,可以要求作者按規範修改圖件,補充必要的信息,然後編輯再作加工。如此得到的圖具有自明性,方便讀者閱讀理解。
目錄