在數(shù)據(jù)分析中,在對變量取值進(jìn)行分組的基礎(chǔ)上,將各組不同的變量值與其變量值出現(xiàn)的次數(shù)排列成的數(shù)列,就稱為變量數(shù)列。
通常,編制組距數(shù)列有以下五個步驟:
(1)確定組數(shù)。采用組距分組的方法對變量的取值進(jìn)行分組,各組的區(qū)間長度可以相等,也可以不等。各組區(qū)間長度相等的稱為等距分組,各組區(qū)間長度不等的稱為異距分組。等距分組便于比較和分析處理,因此實踐中應(yīng)盡量采用等距分組。組距分組的組數(shù)(m)究竟應(yīng)該取多少并沒有絕對的標(biāo)準(zhǔn)。一般來說,組數(shù)的多少應(yīng)根據(jù)所取得的觀測變量中觀測值的個數(shù)來確定,變量中觀測值較多時組數(shù)應(yīng)多些,觀測值較少時組數(shù)應(yīng)少些。組距分組的組數(shù)通常選取在五組到二十多組之間,分組的組數(shù)不宜太多,也不宜過少。組數(shù)太少難以反映出變量分布的真實特征;組數(shù)太多則太瑣碎,也難以反映出觀測變量分布的特征。
(2)確定組距。在組距分組中,每組的上限和下限之間的距離稱為組距。確定了分組的組數(shù)之后,接下來就需要確定出分組的組距。等距分組的組距可根據(jù)變量值的取值范圍和已確定的組數(shù)而定,記觀測變量中的第i個變量值為xi,等距分組的組距為d,則可計算出d的最低值為:。如此計算出的組距是在給定的組數(shù)下,組距的最小值。在實際分組中,為了使全部變量值都能有組可入,實際的組距只能比此值大,而不能比此值小。在實踐中,人們通常都比較關(guān)注整數(shù),特別關(guān)注諸如5和10及其整數(shù)倍等整數(shù),所以在分組時通常都要選用整數(shù)作為組距,如果可作為組距的值接近于5和10的倍數(shù),則通常要用5和10的倍數(shù)來作組距。
(3)確定組限。在組距分組中,每組的最大值稱為該組的上限,每組的最小值稱為該組的下限,上限和下限統(tǒng)稱為組限。在確定了分組的組數(shù)和組距之后,就需要確定各組的組限。各組的組限應(yīng)盡量用整數(shù)。特別是5和10的倍數(shù)來表示。因此,在確定各組的組限時,如果變量的最小值為整數(shù),那么就可將此變量的最小值作為最低一組的下限,如果變量的最小值不是整數(shù),那么就可將比此變量的最小值稍小一點(diǎn)的整數(shù)值作為最低一組的下限。確定了最低一組的下限以后,依次每增加一個組距就是一個組限,當(dāng)組限值增加到比變量的最大值還大時即為最高組上限。這樣,就實現(xiàn)了所觀測變量的組距分組。
(4)計算各組的次數(shù)(頻數(shù))。在確定了各組的組限以后,接著就需要計算出所有變量值中 落入各組之內(nèi)的變量值的個數(shù)。每組所分配的變量值的個數(shù)也就是該組的次數(shù),又稱頻數(shù)。
(5)編制變量數(shù)列。當(dāng)各組變量值的變動范圍和各組的次數(shù)確定之后,接下來就可以將各組變量值按照從小到大的順序排列,并列出相對應(yīng)的次數(shù),就形成變量數(shù)列。