ডেটা এনালাইসিসের পর সেই মডেলটা আসলে কতটা কার্যকর বা বাস্তবের সাথে কতটা মানানসই, তা বোঝার জন্য আমরা সাধারণত Model fit statistics ব্যবহার করি। সহজ কথায় বলতে গেলে, Model fit statistics হলো এমন কিছু গাণিতিক মাপকাঠি, যা আমাদের বলে দেয় যে আমাদের তৈরি করা মডেলটি বাস্তবের ডেটার সাথে কতটা নিখুঁতভাবে মিলে যাচ্ছে। বিষয়টা অনেকটা এমন যে আপনি দর্জির কাছে গিয়ে মাপ দিয়ে একটি শার্ট বানালেন। শার্টটি তৈরি হওয়ার পর আপনি যখন গায়ে দেন, তখন বুঝতে পারেন সেটি আপনার গায়ে ফিট হয়েছে কিনা। শার্ট যদি খুব ঢিলা বা খুব চাপা হয়, তার মানে শার্টের ফিটিং ভালো হয়নি। ডেটা এনালাইসিসের ক্ষেত্রেও বিষয়টা ঠিক এমনই। আমরা আমাদের সংগৃহীত ডেটা দিয়ে যে মডেলটি তৈরি করি, সেটি বাস্তবের ফলাফলগুলোকে কতটা নিখুঁতভাবে প্রেডিক্ট করতে পারছে, তা যাচাই করার উপায়ই হলো Model fit statistics।
মডেল কতটা ফিট সেটা যাচাই করার জন্য অনেক রকমের ইনডিকেটর আছে। যেমন R square, Adjusted R square, RMSE, Pseudo R square, Log-likelihood এর মতো বিষয়গুলো। তবে মনে রাখতে হবে, সব মডেলে এই সবগুলোর প্রয়োজন হয় না। মডেলের ধরন অনুযায়ী আমাদের যাচাইয়ের পদ্ধতিও বদলে যায়।
শুরুতেই ধরা যাক লিনিয়ার রিগ্রেশনের কথা। মনে করুন, আপনি বের করতে চাইছেন একজন শিক্ষার্থীর পড়াশোনার সময় এবং ক্লাসে উপস্থিতির হারের ওপর তার সিজিপিএ কীভাবে নির্ভর করে। এই মডেলে আপনি প্রথমেই যেটা দেখবেন, তা হলো R-squared। R-squared এর মান আপনাকে বলবে আপনার ইন্ডিপেন্ডেন্ট ভ্যারিয়েবলগুলো, অর্থাৎ পড়াশোনার সময় ও উপস্থিতি মিলে শিক্ষার্থীর সিজিপিএ এর কতটুকু পরিবর্তন বা ভ্যারিয়েশন বা কারণ ব্যাখ্যা করতে পারছে। আপনার মডেলে যদি R-squared = ০.৭০ আসে, তার মানে হলো সিজিপিএ-র ৭০% পরিবর্তন আপনি পড়াশোনা ও উপস্থিতির সময় দিয়ে ব্যাখ্যা করতে পেরেছেন। বাকি ৩০% হয়তো তার মেধা বা পরীক্ষার দিনের মানসিক অবস্থা বা অন্য কোনো অজানা কারণের ওপর নির্ভর করছে যেগুলো মডেলে আনা হয়নি।
কিন্তু শুধু R-square দেখলেই হবে না, আপনাকে Adjusted R-square এর দিকেও তাকাতে হবে। কারণ সাধারণত মডেলে আপনি যত ভ্যারিয়েবল যোগ করবেন (ধরে নিন আপনি শিক্ষার্থীর জুতার সাইজও মডেলে ঢুকিয়ে দিলেন) গাণিতিক কারণে R-square এর মান কিছুটা বেড়ে যায়। Adjusted R-square এখানেই গুরুত্বপূর্ণ ভূমিকা পালন করে। জুতার সাইজ তো আর সিজিপিএ তে কোনো প্রভাব ফেলে না, তাই এই অপ্রয়োজনীয় ভ্যারিয়েবল যোগ করলে Adjusted R-square বৃদ্ধি না পেয়ে উল্টো কমে যাবে।
এরপরে আসে RMSE (Root Mean Squared Error)। এটা হলো আপনার মডেল যে সিজিপিএ প্রেডিক্ট করেছে, আর ওই শিক্ষার্থীর আসল সিজিপিএ এই দুটোর মধ্যে গড়ে কতটা দূরত্ব। এই মান যত কম হবে, আপনার প্রেডিকশন তত নিখুঁত বলে ধরা হবে। লিনিয়ার রিগ্রেশনের ক্ষেত্রে সবচেয়ে গুরুত্বপূর্ণ অথচ সবচেয়ে অবহেলিত বিষয় হলো রেসিডিউয়াল প্লট (Residual Plot)। রেসিডিউয়াল মানে হলো শিক্ষার্থীর আসল সিজিপিএ থেকে আপনার প্রেডিক্ট করা সিজিপিএর বিয়োগফল। আপনি যদি এগুলো নিয়ে একটা গ্রাফ আঁকেন আর দেখেন বিন্দুগুলো এলোমেলোভাবে বা র্যান্ডমলি ছড়িয়ে আছে, তাহলে বুঝবেন মডেল ঠিক আছে। কিন্তু যদি দেখেন একটা নির্দিষ্ট প্যাটার্ন তৈরি হয়েছে, তাহলে বুঝতে হবে আপনার মডেলে গুরুত্বপূর্ণ কোনো কিছু বাদ পড়েছে।
এবার ধরুন, আপনার গবেষণার বিষয়টা একটু আলাদা। আপনি সিজিপিএ জানতে চাইছেন না, আপনি দেখতে চাইছেন পড়াশোনার সময় এবং ক্লাস টেস্টের মার্কসের ওপর ভিত্তি করে একজন শিক্ষার্থী চূড়ান্ত পরীক্ষায় পাশ করবে নাকি ফেল করবে। যেহেতু ফলাফল এখানে পাশ বা ফেল ভিত্তিক, তাই আপনাকে লজিস্টিক রিগ্রেশন ব্যবহার করতে হবে। লজিস্টিক মডেলে লিনিয়ার রিগ্রেশনের মতো সরাসরি R-square পাওয়া যায় না। এর পরিবর্তে আমরা McFadden’s বা Nagelkerke-এর মতো Pseudo R-square ব্যবহার করি। এগুলো দিয়ে হুবহু ভ্যারিয়েশন ব্যাখ্যা করা না গেলেও, দুটো ভিন্ন মডেলের মধ্যে তুলনা করতে এগুলো কাজ করে। McFadden’s R-square এর মান ০.২ থেকে ০.৪-এর মধ্যে থাকলে ধরে নেওয়া হয় মডেলটা বেশ ভালো ফিট করেছে।
লজিস্টিক মডেলে আপনাকে দেখতে হবে Hosmer-Lemeshow Test। এই টেস্ট বলে দেয় আপনার মডেলের প্রেডিক্ট করা পাশ করার সম্ভাব্যতার সাথে বাস্তবে সত্যিই পাশ করার কতটা মিল আছে। অন্যান্য টেস্টে p-value কম হলে আমরা খুশি হই, কিন্তু এখানে ব্যাপারটা ঠিক উল্টো। Hosmer-Lemeshow Test এ p-value যদি ০.০৫ এর বেশি হয়, তবেই মডেলটির ফিট ভালো ধরা হয়। p-value ছোট হওয়ার মানে হলো মডেল আর বাস্তব ডেটার মধ্যে বড় কোনো সমস্যা আছে। এর পাশাপাশি আপনাকে Confusion matrix দেখতে হবে। এটা একটা চমৎকার টেবিল বা ছক, যা দেখায় আপনার মডেল কতজনকে সঠিকভাবে পাশ বলে প্রেডিক্ট করেছিল এবং বাস্তবেও তারা পাশ করেছে, আর কতজনকে ফেল বলেছিল এবং বাস্তবেও তারা ফেল করেছে। এখান থেকেও আপনি মডেলের Accuracy বা নির্ভুলতা বুঝতে পারবেন।
আপনি যদি লজিস্টিক রিগ্রেশনের বদলে প্রোবিট মডেল ব্যবহার করেন, সেক্ষেত্রে চিত্রটা প্রায় একই রকমই থাকবে। কারণ প্রোবিট মডেলও পাশ-ফেল বা হ্যাঁ-না জাতীয় ডেটা নিয়েই কাজ করে। তবে এখানে মডেল যাচাইয়ের জন্য Log-likelihood এবং Likelihood Ratio (LR) Test-এর ওপর বেশি ফোকাস করা হয়। Log-likelihood আপনাকে বলবে আপনার ডেটার সাথে মডেলটা কতটা সামঞ্জস্যপূর্ণ। এই মানটি সাধারণত নেগেটিভ হয়, আর এটি শূন্যের যত কাছাকাছি থাকবে, মডেল তত ভালো বলে ধরে নেয়া হয়। অন্যদিকে LR Test হলো একটা তুলনামূলক পরীক্ষা। ধরুন আপনি একটা Null Model বানালেন, যেখানে পড়াশোনার সময় বা ক্লাস টেস্টের মার্কসের মতো কোনো ভ্যারিয়েবলই নেই, মডেল শুধু আন্দাজে পাশ-ফেল প্রেডিক্ট করছে। LR Test আপনার আসল মডেলটাকে এই Null Model-এর সাথে তুলনা করে। এর Chi-square মানটি যদি সিগনিফিকেন্ট হয়, তার মানে হলো আপনার বানানো মডেলটা Null মডেলের চেয়ে অনেক অনেক গুণ ভালো কাজ করছে।
এবার আসি টোবিট মডেল এর দিকে। ধরুন, ক্লাসে একটা খুব কঠিন পরীক্ষা হয়েছে। নিয়ম হলো, কেউ ৪০-এর নিচে পেলে তার মার্কস খাতায় ০ হিসেবে লেখা হবে। পরীক্ষা এতই কঠিন ছিল যে, ক্লাসের অর্ধেকের বেশি শিক্ষার্থী ৪০ এর নিচে পেয়েছে, তাই আপনার ডেটাসেটের অনেকগুলো মার্কস ০ তে আটকে আছে, আর বাকিরা বিভিন্ন মার্কস পেয়েছে। এই ধরনের পরিস্থিতিতে টোবিট মডেলে আমরা আগের মত Log-likelihood এবং LR test দেখে থাকি। পাশাপাশি Pseudo R-square ও দেখা হয়। এর বাইরে টোবিট মডেল ঠিকমতো কাজ করছে কি না, তা বোঝার জন্য আপনার মডেল যেসব মার্কস প্রেডিক্ট করেছে, তার ডিস্ট্রিবিউশন আর শিক্ষার্থীদের আসল মার্কসের ডিস্ট্রিবিউশন পাশাপাশি রেখে তুলনা করতে হয়। এই দুটো ডিস্ট্রিবিউশনের চেহারা যদি কাছাকাছি হয়, তাহলে নিশ্চিন্ত হতে পারেন যে আপনার মডেল ঠিক আছে।
সবশেষে আপনাকে মনে রাখতে হবে যে ডেটা এনালাইসিসের ক্ষেত্রে কোনো একটা নির্দিষ্ট ইন্ডিকেটর বা সংখ্যা দিয়ে মডেলের মান বিচার করা ঠিক নয়। R-square অনেক বেশি মানেই যে মডেল খুব ভালো বিষয়টা মোটেও এমন নয়। আপনাকে সব সময় কয়েকটা ইন্ডিকেটর একসাথে দেখতে হবে। আপনার পাওয়া পরিসংখ্যানগুলো আপনার গবেষণার মূল থিওরির সাথে কতটা মিলছে, তার ওপর ভিত্তি করে চূড়ান্ত সিদ্ধান্ত নিতে হবে।
