পরিসংখ্যান আমার কাছে সবসময় অদ্ভুত লাগে।
এটা শুধু সংখ্যা নিয়ে কাজ করে না। সংখ্যার ভেতরে লুকিয়ে থাকা প্যাটার্ন বোঝার চেষ্টা করে। মানুষের আচরণ যেমন সময়, পরিস্থিতি আর পরিবেশের সাথে বদলায় তেমনি ডেটার আচরণও বদলায়। আর সেই আচরণ না বুঝলে যতই নিখুঁত বিশ্লেষণ হোক, ফলাফল নিয়ে প্রশ্ন থেকে যায়।
একটা উদাহরণ দিয়ে শুরু করি।
ধরুন আপনি দেখতে চান, একজন শিক্ষার্থীর দৈনিক পড়াশোনার সময় তার CGPA-কে কীভাবে প্রভাবিত করে। দুটোই continuous variable যা সংখ্যায় মাপা যায়, মাঝখানে অসংখ্য মান থাকতে পারে। পড়াশোনার সময় বাড়লে CGPA মোটামুটি সরলভাবে বাড়ে। এই সম্পর্ক কল্পনা করলে এখানে Simple Linear Regression সবচেয়েকার্যকর। এটি একটি সরল রেখার মাধ্যমে বলে পড়াশোনার সময় এক ইউনিট বাড়লে CGPA গড়ে কতটা বদলায়।
কিন্তু বাস্তবতা এত সরল না।
CGPA শুধু পড়াশোনার সময়ের উপর নির্ভর করে না। ক্লাস এটেনডেন্স, ঘুমের পরিমাণ, মানসিক চাপ এরকম অনেক কিছুই ভূমিকা রাখে। একাধিক predictor যুক্ত হলে Simple Linear Regression আর ঠিকঠাক কাজ করবে না। তখন দরকার হয় Multiple Linear Regression যা একই সাথে একাধিক variable-এর প্রভাব বিবেচনা করতে পারে।
এবার ধরুন CGPA-কে সংখ্যায় না দেখে দুই ভাগ করলেন। ভালো আর খারাপ বা ফার্স্ট ক্লাস ও সেকেন্ড ক্লাস। Dependent variable এখন binary। এই ছোট্ট পরিবর্তনটাই বিশ্লেষণের ধরন পুরো বদলে দেয়। Linear Regression দিয়ে probability পরিমাপ করা যায় না বা করলেও অযৌক্তিক মান আসে (০-এর কম বা ১-এর বেশি)। তাই এখানে ব্যবহার করতে হয় Binary Logistic Regression, যা probability-কে সবসময় ০ থেকে ১-এর মধ্যে রাখে।
কিন্তু গল্পে আবার মোড় আসে।
CGPA-কে যদি A+, A, B, C এভাবে grade letter-এ ভাগ করেন, তখন category একাধিক। এখন দেখতে হবে এই category-গুলোর মধ্যে কোনো ক্রম আছে কি না। A+ অবশ্যই A-এর চেয়ে ভালো। অর্থাৎ এখানে ক্রম আছে। তখন আমাদের ব্যবহার করতে হবে Ordinal Logistic Regression। কিন্তু যদি category-গুলোর মধ্যে কোনো ক্রম না থাকে যেমন Science, Arts বা Commerce background আবার আমাদের জন্য Multinomial Logistic Regression বেশি উপযুক্ত।
এখানেই শেষ নয়।
CGPA-এর সর্বোচ্চ সীমা ৪.০০। অনেক শিক্ষার্থী এই সীমায় গিয়ে আটকে যায়। হয়তো অনেকের প্রকৃত performance হয়তো আরও ভালো হতে পারত, কিন্তু scale-এ মাপার সুযোগ নেই। এই অবস্থাকে বলে censored data। এখানে সাধারণ regression ব্যবহার করলে ফলাফল biased হয়। তখন ব্যবহার করা হয় Tobit Model।
আরেক ধরনের প্রশ্ন দেখি আমরা। পড়াশোনার সময় একজন শিক্ষার্থীকে কয়টি scholarship এনে দেয়। এখানে ফলাফল একটি count ডেটা। যেমন ১টি, ২টি, ৩টি। কেউ ১.৫টি scholarship পেতে পারে না, মানও কখনো negative হয় না। এই ধরনের data সাধারণত normal distribution অনুসরণ করে না। তাই ব্যবহার করা হয় Poisson Regression।
তবে বাস্তব data অনেক সময় তাত্ত্বিক নিয়ম মেনে চলে না। বেশিরভাগ শিক্ষার্থী হয়তো কোনো award পায়নি, কিন্তু কয়েকজন অনেকগুলো পেয়েছে। ফলে data-র variance তার mean-এর চেয়ে অনেক বড় হয়ে যায়। এটাকে বলে overdispersion। তখন Poisson আর যথেষ্ট নয়, দরকার হয় Negative Binomial Regression।
এবার ভিন্ন একটা situation কল্পনা করি। আপনি একই ১০০ জন শিক্ষার্থীর আটটি semester-এর data নিলেন। এখনে দুটো মাত্রা যোগ হলো। ব্যক্তি এবং সময়। একই ব্যক্তির data বারবার আসায় observation-গুলো আর সম্পূর্ণ স্বাধীন থাকে না। এই ধরনের data-কে বলে Panel Data। তখন ব্যবহার করা হয় Fixed Effects বা Random Effects Model যা দুইটা ডাইমেনশনের (ব্যক্তিগত বৈশিষ্ট্য আর সময়ের) প্রভাবকে আলাদা করে বোঝার চেষ্টা করে।
সবশেষে একটা সম্পূর্ণ ভিন্ন প্রশ্ন।
পড়াশোনা শুরুর কতদিন পর একজন শিক্ষার্থী dropout হয়? এখানে শুধু ঘটনা ঘটেছে কি না সেটা গুরুত্বপূর্ণ নয় বরং গুরুত্বপূর্ণ হলো ঘটনাটা ঘটতে কত সময় লাগল। এই time to event data এনালাইসিসের জন্য ব্যবহার করা হয় Survival Analysis।
এই পুরো গল্পটা আসলে একটা গুরুত্বপূর্ণ মেসেজ দেয়। সেটা হলো পরিসংখ্যানের model গুলো কোনো জাদুকরী ফর্মুলা নয়। প্রতিটি model তৈরি হয়েছে একটি নির্দিষ্ট ধরনের data এবং একটি নির্দিষ্ট প্রশ্নের জন্য। তাই একজন ভালো গবেষক শুধু software নিয়ে কাজ করে না। তাকে বুঝতে হয় data-র প্রকৃতি, কাঠামো আর সীমাবদ্ধতা।