Wednesday, January 20, 2021

  បំណែងចែកហ្វ្រេកង់(Frequency Distribution)

        នៅក្នុងជំពូកមុនយើងបាននិយាយអំពីប្រភេទអថេរ ដែលបែងចែកជាប្រភេទអថេរបរិមាណវិស័យនិងអថេរគុណវិស័យ។ ការរៀបចំ ការសង្ខេបនិងបង្ហាញទិន្នន័យគឺជាវិធីនៃស្ថិតិវិទ្យាពិពណ៌នា។ ផុសនេះនឹងបង្ហាញវិធីមួយ គឺការរៀបចំទិន្នន័យជា បំណែងចែកហ្វ្រេកង់​(frequency distribution)។ វាមានពីរប្រភេទធំៗគឺ៖ categorical frequency distribution (សម្រាប់ទិន្នន័យគុណវិស័យ) និង grouped/ungrouped frequency distribution (សម្រាប់ទិន្នន័យបរិមាណវិស័យ)។

នៅក្នុងឧទាហរណ៍ខាងក្រោម អថេរសំខាន់មានចំនួន៨គឺ age, education, smoking, exercise, weight, IQ, gender និង mari.status

១. age: អាយុគិតជាឆ្នាំ

២. education, 0: គ្មានបាក់ឌុប, 1: មានបាក់ឌុប, 2: បរិញ្ញាបត្រ និង៣: បរិញ្ញាបត្រជាន់ខ្ពស់។

៣. smoking, 0: មិនជក់, 1: ជក់តិចជាង១កញ្ចប់/ថ្ងៃ, 2:ជក់១កញ្ចប់ឬលើសពីនេះ/ថ្ងៃ។

៤. exercise, 0: មិនហាត់សោះ, 1:ហាត់តិចតួច, 2:ហាត់កម្រិតមធ្យម, 3:ហាត់កម្រិតធ្ងន់។

៥.​weight: ទម្ងន់គិតជាផោន

៦. IQ: ពិន្ទុតេស្ត IQ

៧. gender: ភេទ ស្រី (F) ឬ ប្រុស (M)

៨. mari.status: ស្ថានភាពគ្រួសារ M: married, S: single, D: divorced, W: widow 



        អថេរ age, weight, និង IQជាអថេរបរិមាណវិស័យ ផ្សេងពីនោះជាអថេរគុណវិស័យ។

របៀបមួយនៃការរៀបចំតម្លៃរបស់អថេរageជាបំណែងចែកហ្វ្រេកង់បានលទ្ធផលដូចខាងក្រោម។ តារាងនេះ


មានន័យថា អ្នកដែលមានអាយុក្នុងចន្លោះ[18, 25]ឆ្នាំ មានចំនួន៦នាក់ [26, 33]ឆ្នាំមានចំនួន​៣​នាក់ជាដើម។

កូឡោនទី១ គឺថ្នាក់ ដែលនៅក្នុងនោះ មានចំនួន៧ថ្នាក់ ចាប់ផ្តើមពីតម្លៃ18។ តម្លៃ 18, 26, 34, 42, 50, 58, 66 ហៅថាលីមីតក្រោមរបស់ថ្នាក់(lower class limit)។ តម្លៃ 25, 33, 41, 49, 57, 65, 73ហៅថាលីមីតលើរបស់ថ្នាក់(upper class limit)។ ផលដករវាងតម្លៃលីមីតក្រោម(ឬតម្លៃលីមីតលើ)ចំនួនពីរដែលនៅជាប់គ្នា ដែលនៅក្នុងករណីនេះ ស្មើ 8។ កូឡោនទី២នៃតារាង គឺហ្វ្រេកង់របស់ថ្នាក់។ វាជាចំនួនតម្លៃដែលមាននៅក្នុងថ្នាក់នីមួយៗ។ ដូច្នេះចំនួននេះបានពីការរាប់។ ឧទាហរណ៍ ថ្នាក់ 18-25 មានន័យថា មាន6តម្លៃស្ថិតនៅក្នុងចន្លោះ [18, 25]។  តើធ្វើដូចម្តេចដើម្បីរៀបចំទិន្នន័យ(តម្លៃរបស់អថេរ)ជាបំណែងចែកហ្វ្រេកង់របៀបនេះ?

        កិច្ចការនេះអាចអនុវត្តបានដោយប្រើសុសវែរដូចជាR, MegaStatដែលជាadd-inរបស់Excel ឬតាមរយៈPivotTable ក្នុងExcel ជាដើម។

        ការរៀបចំទិន្នន័យជាបំណែងចែកហ្វ្រេកង់មានរៀបដូចខាងក្រោម

១. ការកំណត់ចំនួនថ្នាក់( \(k\) )

            ចំនួនថ្នាក់អាចយកក្នុងចន្លោះ៥ទៅ២០(Bluman, 2014)។  ចំនួនថ្នាក់នេះក៏អាចប៉ាន់ប្រមាណតាមរូបមន្ត \(k =1+ log_2N\) (Sturges, 1926)។
        នៅក្នុងឧទាហរណ៍ខាងលើ \(k=7\)ដោយផ្អែកលើតម្លៃដែលនៅចន្លោះពី\(5\)ទៅ\(20\)។ 
២.​ កំណត់គម្លាតថ្នាក់(\(w\))
        \(w\geqslant\frac{Max.value-Min.value}{k}\)

តម្លៃត្រូវបង្គត់ឡើង បើចាំបាច់។ 

នៅក្នុងឧទាហរណ៍ខាងលើ តម្លៃធំបំផុត \(Max=72\) តម្លៃតូចបំផុត \(Min=18\)និង \(k=7\)។ \((72-18)/7=7.71\) ត្រូវបង្គត់ឡើងទៅជា\(8\)។ ដូច្នេះ គម្លាតថ្នាក់គឺ \(w=8\)

៣.​ កំណត់តម្លៃចាប់ផ្តើម
        តម្លៃចាប់ផ្តើមអាចជាតម្លៃដែលតូចជាងគេនៅក្នុងសំណុំទិន្នន័យ ឬតម្លៃសមស្របណាមួយតូចជាងតម្លៃដែលតូចជាងគេក្នុងសំណុំទិន្នន័យ។
            នៅក្នុងឧទាហរណ៍នេះ យើងយក18ជាតម្លៃចាប់ផ្តើម។ ដោយគម្លាតថ្នាក់គឺ8 នោះតម្លៃលីមីតក្រោមរបស់ថ្នាក់ដំបូងនិងបន្តបន្ទាប់ទៀតគឺ18, 26, 34, 42, 50, 58, 66។ ដូច្នេះលីមីតលើរបស់ថ្នាក់គឺ 25, 33, 41, 49, 57, 65, 73។ ដូច្នេះ ថ្នាក់របស់បំណែងចែកហ្វ្រេកង់គឺ 18 – 25 [18, 25], 26 – 33 [26, 33]និងជាបន្តបន្ទាប់។

៤.ការកំណត់ហ្វ្រេកង់ \(f\)

ហ្វ្រេកង់របស់ថ្នាក់នីមួយៗគឺជាចំនួនតម្លៃដែលស្ថិតនៅក្នុងថ្នាក់នោះ។ នៅក្នុងExcel យើងអាចប្រើអនុគមន៍countifs()ដើម្បីរាប់ ដូចមានបង្ហាញនៅក្នុងរូបខាងក្រោម។



កំណត់សម្គាល់បន្ថែម៖
១. ថ្នាក់ដែលរៀបចំឡើងត្រូវតែមានលក្ខណៈចែកដាច់ពីគ្នា(mutually exclusive)និងបន្តបន្ទាប់គ្នា(continuous)។ មិនត្រូវលុបថ្នាក់ណាមួយចោលទេទោះហ្វ្រេកង់របស់វាស្មើ0ក៏ដោយ។
២. តម្លៃទាំងអស់នៅក្នុងសំណុំទិន្នន័យត្រូវតែមានថ្នាក់សម្រាប់ចូល(exhaustive)។
៣. គម្លាតថ្នាក់ត្រូវស្មើគ្នា លើកលែងតែថ្នាក់មិនកំណត់ខាងដើម ឬខាងចុង(open-ended class)។

ដើម្បីធ្វើការបែងចែកថ្នាក់ឱ្យកាន់តែច្បាស់លាស់ថែមទៀត គេប្រើព្រំដែនថ្នាក់(class boundary)។ ឧទាហរណ៍ រវាងថ្នាក់ 18 – 25និងថ្នាក់ 26 – 33 ព្រំដែនថ្នាក់គឺ 25.5។ ដូច្នេះចំពោះបំណែងចែកហ្វ្រេកង់ខាងលើយើងបាន

លើសពីនេះទៅទៀត នៅក្នុងបំណែងចែកហ្វ្រេកង់ ក៏មានប្រភេទហ្វ្រេកង់កើន(cumulative frequency)និងហ្វ្រេកង់ ធៀបផងដែរ។ ហ្វ្រេកង់កើនគឺជាហ្វ្រេកង់ដែលបានមកពីការបូកបន្ថែមពីថ្នាក់មួយទៅថ្នាក់មួយ។ ហ្វ្រេកង់ធៀបរបស់ថ្នាក់មួយ ស្មើនឹងហ្វ្រេកង់របស់ថ្នាក់នោះចែកនឹងហ្វ្រេកង់សរុប។

ចំពោះបំណែងចែកហ្វ្រេកង់ក្រុម(grouped frequency distribution) ឯកសារខ្លះទៀតបង្ហាញការរៀបចំថ្នាក់ដោយប្រើ ពាក្យ«up to»។ ឧទារណ៍ 15 up to 20, 20 up to 25, 25 up to 30 ជាដើម។ 15 up to 20 សមមូលនឹង [15, 20)។ រីឯungrouped frequency distribution វិញ ប្រើតម្លៃទោល(ពុំមែនចន្លោះដែលកំណត់ដោយពីរតម្លៃនោះទេ)ជាថ្នាក់។

ត្រឡប់ទៅទំព័រដើម

No comments:

Post a Comment