स्टेट फॉरेक्स में मेटा मॉडल


सूचना: आईडीआरई सांख्यिकी परामर्श समूह वेबसाइट को वर्डप्रेस सीएमएस में फरवरी में माइग्रेट कर देगा ताकि नई सामग्री के रख-रखाव और सृजन की सुविधा मिल सके। हमारे कुछ पुराने पृष्ठों को हटा दिया जाएगा या संग्रहीत किया जाएगा ताकि उन्हें अब बनाए रखा नहीं जाएगा हम रीडायरेक्ट बनाए रखने का प्रयास करेंगे ताकि पुरानी यूआरएल हम जितनी अच्छी तरह काम कर सकें उतना काम जारी रहेगा। डिजिटल रिसर्च और एजुकेशन फॉर डिजिटल रिसर्च एंड एजुकेशन में आपका स्वागत है स्टैट कंसल्टिंग ग्रुप द्वारा स्टेटा के साथ रिग्रेसन देकर अध्याय 1 - सरल और एकाधिक प्रतिगमन अध्याय बाह्यरेखा 1.0 परिचय 1.1 एक प्रथम पुनरावृत्ति विश्लेषण 1.2 डेटा की जांच करना 1.3 सरल रेखीय प्रतिगमन 1.4 एकाधिक प्रतिगमन 1.5 परिवर्तनशील चर 1.6 सारांश 1.7 आत्म मूल्यांकन 1.8 अधिक जानकारी के लिए यह पुस्तक चार अध्यायों से बना है जिसमें प्रतिगमन के लिए स्टेटा का उपयोग करने के बारे में विभिन्न विषयों को शामिल किया गया है। हमें इस बात पर ज़ोर देना चाहिए कि यह पुस्तक उद्धरण विश्लेषण के बारे में है और यह दर्शाता है कि यह कैसे प्रतिगामी विश्लेषण के लिए स्ताता का उपयोग किया जा सकता है, जैसा कि एक पुस्तक के विपरीत है जो कई प्रतिगमन के सांख्यिकीय आधार को कवर करता है। हम मानते हैं कि आपके पास कम से कम एक आंकड़े के पाठ्यक्रम में प्रतिगमन विश्लेषण किया गया है और आपके पास एक प्रतिगमन पुस्तक है, जिसका उपयोग आप एक संदर्भ के रूप में कर सकते हैं (अनुशंसित प्रतिगमन विश्लेषण पुस्तकों के लिए ऋण पृष्ठ के लिए प्रति पृष्ठ के साथ प्रतिगमन देखें)। यह पुस्तक प्रतिगमन के अपने ज्ञान को लागू करने के लिए डिज़ाइन की गई है, इसे स्ताटा पर निर्देश के साथ गठबंधन, प्रतिगमन विश्लेषण करने, समझने और व्याख्या करने के लिए बनाया गया है। यह पहला अध्याय सरल और कई प्रतिगमन में विषयों को कवर करेगा, साथ ही साथ आपके डेटा का विश्लेषण करने के लिए तैयार करने वाले सहयोगी कार्य, उदा। डेटा की जांच, आपके डेटा फ़ाइल से परिचित होकर, और आपके चर के वितरण की जांच कर रहा है। हम सरल और कई प्रतिगमन की मूल बातें स्पष्ट करेंगे और अपने विश्लेषण के परिणामों को स्वीकार करने से पहले आपके डेटा का निरीक्षण, जांच और सत्यापित करने के महत्व को प्रदर्शित करेंगे। सामान्य तौर पर, हम यह दिखाते हैं कि आपके प्रतिगमन विश्लेषण के परिणाम आपके डेटा की जांच के बिना भ्रामक हो सकते हैं, जो रिश्तों को प्रकट कर सकता है जो एक आकस्मिक विश्लेषण को अनदेखा कर सकते हैं। इस अध्याय में और बाद के अध्यायों में, हम कैलिफोर्निया डिपार्टमेंट ऑफ एड्यूकेशन एपीआई 2000 डाटासेट से 400 प्राथमिक विद्यालयों का बेतरतीब ढंग से नमूना करके एक डेटा फ़ाइल का उपयोग करेंगे। इस डेटा फ़ाइल में स्कूल शैक्षणिक प्रदर्शन के साथ ही प्राथमिक विद्यालयों के अन्य विशेषताओं, जैसे कि वर्ग के आकार, नामांकन, गरीबी आदि के एक उपाय शामिल हैं। आप वेब पर इस डेटा फ़ाइल को स्टाटा के भीतर से स्टेटा उपयोग कमांड के साथ एक्सेस कर सकते हैं नीचे दिखाया गया है। नोट: कमांड में अग्रणी डॉट टाइप न करें - डॉट इंगित करने के लिए एक सम्मेलन है कि स्टेटमेंट एक स्टेट कमांड है एक बार जब आप फ़ाइल पढ़ लेते हैं, तो आप संभवत: इसे अपने कंप्यूटर पर एक कॉपी संग्रहित करना चाहते हैं (इसलिए आपको इसे हर बार वेब पर पढ़ने की आवश्यकता नहीं है)। कहें कि आप विंडोज का उपयोग कर रहे हैं और फ़ाइल को सी में एक फ़ोल्डर में संग्रहित करना चाहते हैं: regstata (यदि आप चाहें तो आप एक अलग नाम चुन सकते हैं) सबसे पहले, आप इस फ़ोल्डर को mkdir कमांड का उपयोग करके स्टेटा में बना सकते हैं। तब हम उस निर्देशिका में सीडी कमांड का उपयोग कर बदल सकते हैं। और फिर अगर आप फ़ाइल को सहेजते हैं तो इसे c: regstata फ़ोल्डर में सहेजा जाएगा। फ़ाइल को elemapi के रूप में सहेजने देता है अब डेटा फ़ाइल को c: regstataelemapi. dta के रूप में सहेजा गया है और आप Stata को छोड़ सकते हैं और डेटा फ़ाइल अभी भी वहां होगी जब आप भविष्य में फ़ाइल का उपयोग करना चाहते हैं, तो आप c: कमांड का उपयोग c: regstata निर्देशिका (या जो भी आप इसे कहते हैं) में बदलने के लिए करेंगे और फिर elemapi फ़ाइल का उपयोग करें। 1.1 एक पहले प्रतिगमन विश्लेषण चलो सही में गोता लगाने और चर एपीआईएंड का उपयोग कर एक प्रतिगमन विश्लेषण करते हैं। acsk3 भोजन और पूर्ण ये स्कूल (एपीआईएंड) के शैक्षणिक प्रदर्शन को मापते हैं, किंडरगार्टन में 3 ग्रेड (एस्क्रेस् 3) के माध्यम से औसत वर्ग आकार, मुफ्त भोजन (भोजन) प्राप्त करने वाले छात्रों का प्रतिशत - जो गरीबी का सूचक है, और जिन शिक्षकों का प्रतिशत है पूर्ण शिक्षण क्रेडेंशियल्स (पूर्ण) हमें उम्मीद है कि बेहतर शैक्षिक प्रदर्शन कम वर्ग के आकार के साथ जुड़ा होगा, मुफ्त भोजन लेने वाले कम छात्र और पूर्ण शिक्षण क्रेडेंशियल्स वाले शिक्षकों का उच्च प्रतिशत होगा। नीचे, हम स्टाटा आउटपुट के बाद इस प्रतिगमन मॉडल के परीक्षण के लिए Stata कमांड दिखाते हैं। तीन भविष्यवाणियों पर ध्यान केंद्रित करने देता है, चाहे वे सांख्यिकीय रूप से महत्वपूर्ण हों और यदि ऐसा है, तो रिश्ते की दिशा। औसत वर्ग आकार (एस्कस्क 3 बी-2.68) 0.05 स्तर (p0.055) पर सांख्यिकीय रूप से महत्वपूर्ण नहीं है, लेकिन केवल इतना ही। गुणांक ऋणात्मक है जो दर्शाता है कि बड़े वर्ग के आकार का कम अकादमिक प्रदर्शन से संबंधित है - जो कि हम क्या उम्मीद करेंगे। इसके बाद, भोजन का प्रभाव (बी -370, पीएडीआई) महत्वपूर्ण है और इसकी गुणांक ऋणात्मक है इंगित करता है कि अधिक मात्रा वाले भोजन वाले छात्रों को मुफ्त में भोजन मिलता है, कम शैक्षणिक प्रदर्शन। कृपया ध्यान दें, कि हम यह नहीं कह रहे हैं कि नि: शुल्क भोजन कम शैक्षणिक प्रदर्शन पैदा कर रहे हैं। भोजन चर अत्यधिक आय स्तर से संबंधित है और गरीबी के लिए एक प्रॉक्सी के रूप में अधिक कार्य करता है। इस प्रकार, गरीबी के उच्च स्तर निम्न अकादमिक प्रदर्शन से जुड़े हैं। यह परिणाम भी समझ में आता है अंत में, पूर्ण क्रेडेंशियल्स (पूर्ण। बी 0.11, पी .32) वाले शिक्षकों का प्रतिशत अकादमिक प्रदर्शन से असंबंधित नहीं है। यह संकेत मिलता है कि पूर्ण प्रमाणिकता वाले शिक्षकों का प्रतिशत अकादमिक प्रदर्शन की भविष्यवाणी में एक महत्वपूर्ण कारक नहीं है - यह परिणाम कुछ अप्रत्याशित था क्या हमें इन परिणामों को लेना चाहिए और उन्हें प्रकाशन के लिए लिखना चाहिए इन परिणामों से, हम यह निष्कर्ष निकालना चाहेंगे कि निम्न वर्ग के आकार उच्च प्रदर्शन से संबंधित हैं, कि कम भोजन प्राप्त करने वाले कम विद्यार्थियां उच्च प्रदर्शन से जुड़ी हुई हैं और पूर्ण प्रमाणिकता वाले शिक्षकों का प्रतिशत स्कूलों में अकादमिक प्रदर्शन से संबंधित नहीं प्रकाशन के लिए इसे लिखने से पहले, हमें यह सुनिश्चित करने के लिए कई जांच करनी चाहिए कि हम इन परिणामों के पीछे दृढ़ता से खड़े हो सकते हैं। हम डेटा फ़ाइल से अधिक परिचित होकर प्रारंभिक डेटा जांच कर, डेटा में त्रुटियों की तलाश करके शुरू करते हैं। 1.2 डेटा की जांच करना पहले, इस डेटा फ़ाइल के बारे में अधिक जानने के लिए वर्णन कमांड का उपयोग करें। हम यह सत्यापित कर सकते हैं कि इसमें कितने अवलोकन हैं और वे उस चर के नाम को देख सकते हैं। ऐसा करने के लिए, हम बस टाइप करें हम इस आउटपुट के सभी विवरणों में नहीं जाएंगे। ध्यान दें कि 400 निरीक्षण और 21 वैरिएबल हैं। हमारे पास 2000 और 1 999 में अकादमिक प्रदर्शन के बारे में चर और प्रदर्शन में बदलाव, api00 एपीआई 99 और विकास क्रमशः हमारे पास स्कूलों की विभिन्न विशेषताओं हैं, उदा। कक्षा के आकार, माता-पिता की शिक्षा, पूर्ण और आपातकालीन प्रमाण पत्र वाले शिक्षकों का प्रतिशत और छात्रों की संख्या। ध्यान दें कि जब हमने अपना मूल प्रतिगमन विश्लेषण किया था, तो उसने कहा था कि 313 टिप्पणियां थीं, लेकिन वर्णन कमांड इंगित करता है कि हमारे पास डेटा फ़ाइल में 400 टिप्पणियां हैं। यदि आप डेटा फ़ाइल के बारे में अधिक जानना चाहते हैं, तो आप सभी या कुछ टिप्पणियों को सूचीबद्ध कर सकते हैं। उदाहरण के लिए, नीचे हम पहले पांच टिप्पणियों की सूची यह पृष्ठ पर बहुत सारे स्थान ले लेता है, लेकिन हमें बहुत सारी जानकारी नहीं दी है हमारे डेटा को सूचीबद्ध करना बहुत ही उपयोगी हो सकता है, लेकिन यदि आप केवल उन वेरिएबलों की सूची में उपयोगी होते हैं जो आपको अंदर रुचि रखते हैं। चलिए हमारे पहले प्रतिगमन विश्लेषण में देखा गया चर के लिए पहले 10 टिप्पणियों की सूची देता है। हम देखते हैं कि पहले 10 टिप्पणियों के बीच, हमारे पास भोजन के लिए चार लापता मूल्य हैं यह संभावना है कि भोजन के लिए लापता डेटा इस तथ्य के साथ कुछ था कि हमारे पहले प्रतिगमन विश्लेषण में टिप्पणियों की संख्या 313 थी और 400 नहीं। आपके चर के बारे में सीखने के लिए एक अन्य उपयोगी टूल कोडबुक कमांड है हम वेरेबल्स के लिए कोडबुक करते हैं जो हम प्रतिगमन विश्लेषण में, साथ ही चर yrrnd में शामिल थे। हमने इस आउटपुट पर कुछ टिप्पणियों को चौकोर ब्रैकेट में और बोल्ड में बिताया है। कोडबुक कमांड ने आगे की परीक्षा के लिए कई विशेषताओं का खुलासा किया है। इन चर के बारे में और जानने के लिए कमांड कमांड का उपयोग करें। जैसा कि नीचे दिखाया गया है, संक्षेप में आदेश भी बड़ी संख्या में भोजन (400 - 315 85) के लिए लापता मूल्यों का पता चलता है और हम एसी एस 3 के -21 के लिए असामान्य न्यूनतम देखते हैं। एस्कस्क 3 के लिए अधिक विस्तृत सारांश प्राप्त करें। स्ताट में, चर सूची के बाद अल्पविराम इंगित करता है कि विकल्प का पालन करते हैं, इस मामले में, विकल्प का विस्तार होता है जैसा कि आप नीचे देख सकते हैं, विस्तार विकल्प आपको प्रतिशतियल्स देता है, चार सबसे बड़े और सबसे छोटे मूल्यों, केंद्रीय प्रवृत्ति और विचरण के उपाय, आदि। ध्यान दें कि सारांश और अन्य आज्ञाओं को संक्षेप में किया जा सकता है: हम एस्कस्क 3, डी लिख सकते हैं। ऐसा लगता है कि कुछ वर्ग के आकारों में किसी तरह नकारात्मक हो गया है, जैसे कि उनके सामने नकारात्मक संकेत गलत तरीके से लिखा गया था। यह देखने के लिए कि क्या ऐसा लगता है कि क्लास आकार के एक सारणीकरण करते हैं दरअसल, ऐसा लगता है कि कुछ वर्ग के आकारों में किसी तरह उनके सामने नकारात्मक संकेत दिए गए हैं। आइए देखें कि इन टिप्पणियों के लिए स्कूल और जिला नंबर देखने के लिए कि क्या वे एक ही जिले से आए हैं। दरअसल, ये सभी जिला 140 से आते हैं। आइए जिले 140 के लिए सभी टिप्पणियों पर गौर करें। जिले 140 के सभी टिप्पणियों में यह समस्या है। जब आपको ऐसी समस्या मिलती है, तो आप मूल्यों को सत्यापित करने के लिए डेटा के मूल स्रोत पर वापस जाना चाहते हैं। हमें यह पता चलता है कि हमने इस त्रुटि को चित्रण प्रयोजनों के लिए बनाया है, और वास्तविक डेटा की ऐसी कोई समस्या नहीं है। हम बहस करते हैं कि हमने जिला 140 के साथ जांच की और वहाँ डेटा के साथ एक समस्या थी, एक हाइफ़न अकस्मात वर्ग के आकार के सामने डाल दिया, जिससे उन्हें नकारात्मक हो गया। हम इसे ठीक करने के लिए एक नोट देंगे हम अपने डेटा की जाँच जारी रखें। डेटा का निरीक्षण करने के लिए कुछ ग्राफ़िकल तरीकों पर एक नज़र डालें। प्रत्येक वेरिएबल के लिए, हिस्टोग्राम, बॉक्सप्लॉट, और स्टेम-और-पत्ती की साजिश का उपयोग करके उनका निरीक्षण करना उपयोगी होता है। ये ग्राफ़ आपको साधारण चर के आंकड़ों से बेहतर आपके चर के आकार के बारे में जानकारी दिखा सकता है। हम पहले से ही acsk3 के साथ समस्या के बारे में जानते हैं। लेकिन देखते हैं कि कैसे इस ग्राफिकल तरीके से इस चर के साथ समस्या का पता चला होगा। सबसे पहले, हम एस्कस्क 3 के लिए हिस्टोग्राम दिखाते हैं। यह हमें अवलोकनों से पता चलता है जहां औसत वर्ग का आकार नकारात्मक है। इसी तरह, एक बॉक्सप्लेट ने इन टिप्पणियों को हमारे ध्यान में भी बुलाया होगा। आप बॉक्सप्लेट के निचले भाग में नकारात्मक नकारात्मक टिप्पणियां देख सकते हैं। अंत में, एक स्टेम और पत्ती की साजिश भी इन टिप्पणियों की पहचान करने में मदद मिली होगी। यह साजिश अवलोकन के सटीक मूल्यों को दर्शाता है, यह दर्शाता है कि तीन -21, दो -20 और 1-1 9 थे। हम उन सभी ग्राफों की साजिश रचने की सलाह देते हैं जो आप विश्लेषण करेंगे। अंतरिक्ष के विचारों के कारण हम सभी चर के लिए इन आलेखों को दिखाते हुए छोड़ देंगे। हालांकि, चर की जांच करने में, पूरा करने के लिए स्टेम और पत्ती की साजिश केवल असामान्य लग रही थी। अब तक, हमने इस वैरिएबल के साथ समस्याग्रस्त कुछ भी नहीं देखा है, लेकिन नीचे पूर्ण रूप से स्टेम और पत्ती की साजिश को देखें। यह 104 टिप्पणियों को दिखाता है जहां एक पूर्ण पहचान के साथ प्रतिशत एक से कम है। यह 25 से अधिक स्कूलों में है, और बहुत ही असामान्य लगता है। आइए देखें कि क्या हम इसे बेहतर समझ सकते हैं। मान 0.42 से 1.0 पर जाते हैं, तो 37 से आगे बढ़ो और वहां से चले जाएं। ऐसा प्रतीत होता है जैसे कुछ प्रतिशत वास्तव में अनुपात के रूप में दर्ज किए जाते हैं, उदा। 0.42 को 42 या 0.96 के बजाय दर्ज किया गया था, जो वास्तव में 96 हो गया था। आइए देखें कि ये आंकड़े किस जिले से आए हैं। हम नोट करते हैं कि सभी 104 टिप्पणियां जिनमें से एक से कम या उससे कम था जिला 401 से आया था। गिनती करते हैं कि गणना 401 में जिले 401 में कितनी टिप्पणियां हैं और हम देखते हैं कि जिला 401 में 104 टिप्पणियां हैं। इस जिले से सभी टिप्पणियां प्रतिशत के बजाय अनुपात के रूप में दर्ज की जाती हैं। दोबारा, हम यह बताते हैं कि यह एक बहाना समस्या है जिसे हमने चित्रण प्रयोजनों के लिए डेटा में डाला। अगर यह एक वास्तविक जीवन समस्या थी, तो हम डेटा के स्रोत से जांच लेंगे और समस्या की पुष्टि करेंगे। हम इस समस्या को ठीक से आंकड़ों में ठीक करने के लिए एक नोट करेंगे। आपके डेटा को स्क्रीनिंग के लिए एक अन्य उपयोगी ग्राफिकल तकनीक एक स्कैटरप्लॉट मैट्रिक्स है। हालांकि यह संभवतः आपके डेटा में गैर-रैखिकताओं और आउटलेरों के लिए खोज करने वाला निदान उपकरण के रूप में अधिक प्रासंगिक है, यह एक उपयोगी डेटा स्क्रीनिंग टूल भी हो सकता है, संभवतः आपके चर के संयुक्त वितरण में जानकारी प्रकट कर सकता है जो स्पष्ट रूप से अनियर्वेट डिस्ट्रीब्यूशन । हमारे प्रतिगमन मॉडल में चर के लिए स्कैटरप्लोट मैट्रिक्स देखें। इससे हमें पहले से ही पहचान की गई समस्याओं का पता चलता है, अर्थात् ऋणात्मक वर्ग के आकार और प्रतिशत पूर्ण प्रमाण पत्र अनुपात के रूप में दर्ज किया जा रहा है। हमने अपने डेटा में तीन समस्याओं की पहचान की है। भोजन के लिए कई गुम मूल्य हैं कुछ वर्ग आकारों (एस्कॉસ્ક 3) के पहले गलती से निगेटिव किए गए थे और पूर्ण रूप से मूल्यों के एक चौथाई से अधिक प्रतिशत के बजाय अनुपात थे। डेटा का सही संस्करण elemapi2 कहा जाता है। उस डेटा फ़ाइल का उपयोग करें और हमारे विश्लेषण को दोहराएं और देखें कि क्या परिणाम हमारे मूल विश्लेषण के समान हैं। सबसे पहले, हम नीचे हमारे मूल प्रतिगमन विश्लेषण को दोहराते हैं। अब, सही डेटा फ़ाइल का उपयोग करें और प्रतिगमन विश्लेषण को दोहराने दें। परिणाम में हम काफी अंतर देखते हैं, मूल विश्लेषण (ऊपर) में, एस्कएस 3 लगभग महत्वपूर्ण था, लेकिन सही विश्लेषण में (नीचे) परिणाम इस चर को महत्वपूर्ण नहीं बताते हैं, संभवतया उन मामलों की वजह से जहां कक्षा का आकार दिया गया था नकारात्मक मूल्य इसी तरह, मूल प्रमाण-पत्र में पूर्ण प्रमाणिकता वाले शिक्षकों का प्रतिशत उल्लेखनीय नहीं था, लेकिन सही विश्लेषण में महत्वपूर्ण है, संभवतः उन मामलों की वजह से, जहां मूल्य को प्रतिशत के बजाय पूर्ण प्रमाण पत्र के अनुपात के रूप में दिया गया था। इसके अलावा, ध्यान रखें कि सही विश्लेषण 313 टिप्पणियों के बजाय 398 टिप्पणियों पर आधारित है, भोजन चर के लिए पूरा डेटा प्राप्त करने के कारण, जिसमें बहुत से गुम मूल्य हैं इस बिंदु से आगे, हम सही, elemapi2 का उपयोग करेंगे। डेटा फ़ाइल। आप इसे अपने कंप्यूटर पर सहेज सकते हैं ताकि आप इसे भविष्य के विश्लेषण में उपयोग कर सकें। अब तक हमने आंकड़ों की जाँच-पड़ताल में कुछ विषयों को कवर किया है, लेकिन हमने वास्तव में प्रतिगमन विश्लेषण पर ही चर्चा नहीं की है। अब स्टाटा में प्रतिगमन विश्लेषण करने के बारे में अधिक बात करते हैं। 1.3 सरल रेखीय प्रतिगमन चटाई का उपयोग करते हुए सरल रेखीय प्रतिगमन के कुछ उदाहरण दिखाकर शुरू करते हैं। इस तरह के प्रतिगमन में, हमारे पास केवल एक भविष्यवक्ता चर है यह चर निरंतर हो सकता है, जिसका अर्थ है कि यह एक सीमा के भीतर सभी मूल्यों को मान सकता है, उदाहरण के लिए, उम्र या ऊंचाई, या यह द्विपातिक हो सकता है, जिसका अर्थ है कि चर केवल दो मानों में से एक मान सकता है, उदाहरण के लिए, 0 या 1। दो से अधिक स्तर के साथ स्पष्ट चर का उपयोग अध्याय 3 में शामिल किया जाएगा। केवल एक ही प्रतिक्रिया या निर्भर चर है, और यह निरंतर है। स्ताटा में, निर्भर चर को एक या एक से अधिक भविष्यवक्ता चर के बाद रीग्रेस कमांड के तुरंत बाद सूचीबद्ध किया जाता है स्कूल के आकार और अकादमिक प्रदर्शन के बीच संबंधों की जांच करने के लिए, यह देखने के लिए कि क्या स्कूल का आकार अकादमिक प्रदर्शन से संबंधित है। इस उदाहरण के लिए, एपीआई 200 निर्भर चर है और नामांकन प्रक्रमक है। इस आउटपुट को थोड़ा और अधिक ध्यान से देखें। सबसे पहले, हम देखते हैं कि एफ-परीक्षण सांख्यिकीय रूप से महत्वपूर्ण है, जिसका अर्थ है कि मॉडल सांख्यिकीय रूप से महत्वपूर्ण है। .1012 के आर-स्क्वायर का अर्थ है कि एपीआईएंड के अंतर के लगभग 10 मॉडल को मॉडल द्वारा हिसाब किया जाता है, इस मामले में, भर्ती के लिए नामांकन नामांकन के लिए टी-परीक्षण बराबर -6.70, और सांख्यिकीय रूप से महत्वपूर्ण है, जिसका अर्थ है कि नामांकन के लिए प्रतिगमन गुणांक शून्य से काफी अलग है। ध्यान दें कि (-6.70) 2 44.8 9, जो एफ-आंकड़े के समान है (कुछ गोल त्रुटि के साथ)। नामांकन के लिए गुणांक -1.199 8674 है, या लगभग -2, जिसका अर्थ है कि नामांकन में एक इकाई वृद्धि के लिए हम उम्मीद करते हैं कि api00 में एक 2-यूनिट की कमी। दूसरे शब्दों में, 1100 विद्यार्थियों के साथ एक विद्यालय की उम्मीद है कि एक विद्यालय की तुलना में एक विद्यालय की तुलना में 20 इकाइयां कम हो जाएंगी। निरंतर 744.2514 है, और यह भविष्यवाणी मूल्य जब नामांकन शून्य के बराबर है ज्यादातर मामलों में, निरंतर बहुत दिलचस्प नहीं है हमने एक एनोटेट आउटपुट तैयार किया है जो इस प्रतिगमन से आउटपुट को दिखाता है जिसमें इसके प्रत्येक आइटम के स्पष्टीकरण के साथ होता है प्रतिगमन तालिका प्राप्त करने के अतिरिक्त, प्रतिगमन रेखा के साथ अनुमानित और परिणाम चर की एक स्कैटरप्लोट देखने के लिए उपयोगी हो सकता है। प्रतिगमन चलाने के बाद, आप एक वेरिएबल बना सकते हैं जिसमें भविष्यवाणी कमान का उपयोग करके अनुमानित मान शामिल होते हैं। आप इन मानों को किसी भी समय रिग्रेस कमांड चलाने के बाद प्राप्त कर सकते हैं, लेकिन याद रखें कि एक बार जब आप एक नया प्रतिगमन चलाते हैं, तो अनुमानित मान हालिया प्रतिगमन पर आधारित होंगे। भविष्यवाणी मूल्यों को बनाने के लिए आप बस भविष्यवाणी करते हैं और एक नए चर स्टेता का नाम आपको उचित मान देगा। इस उदाहरण के लिए, हमारा नया वैरिएबल नाम एफवी होगा। इसलिए हम टाइप करेंगे यदि हम सूची कमांड का उपयोग करते हैं, तो हम देखते हैं कि प्रत्येक अवलोकन के लिए एक उचित मूल्य उत्पन्न किया गया है। नीचे हम परिणाम चर, एपीआईएंड और भविष्यवक्ता के एक स्कैटरप्लोट को दाखिल कर सकते हैं। हम फीट मूल्यों के साथ एक स्कैटरप्लोट दिखाने के लिए स्फीयर के साथ मिलकर गठबंधन कर सकते हैं। जैसा कि आप देखते हैं, कुछ बिंदु आउटलेयर होते हैं यदि आप स्कैटर कमांड पर मैलेबेल (स्नोम) विकल्प का उपयोग करते हैं, तो आप प्रत्येक बिंदु के लिए स्कूल संख्या देख सकते हैं। यह हमें देखने की अनुमति देता है, उदाहरण के लिए, आउटलेटर्स में से एक स्कूल 2 9 10 है। जैसा हमने पहले देखा था, भविष्यवाणी कमांड का उपयोग पुनर्गठन चलाने के बाद भविष्यवाणी (सज्जित) मूल्य उत्पन्न करने के लिए किया जा सकता है। आप भविष्य के आदेश का उपयोग कर एक चर नाम के बाद अवशिष्ट भी प्राप्त कर सकते हैं, इस मामले में ई। अवशिष्ट विकल्प के साथ यह आदेश ई, निवास या भविष्यवाणी ई, आर अनुमानित करने के लिए छोटा किया जा सकता है नीचे दी गई तालिका में कुछ अन्य मान दिखाए जा सकते हैं जो भविष्यवाणी विकल्प के साथ बनाया जा सकता है। 1.4 एकाधिक प्रतिगमन अब, एक बार कई प्रतिगमन का उदाहरण देखें, जिसमें हमारे पास एक परिणाम (आश्रित) चर और कई भविष्यवाणियां हैं हमारे अगले उदाहरण से शुरू होने से पहले हमें हमारे द्वारा बनाए गए वेरिएबल्स के बारे में निर्णय लेने की जरूरत है, क्योंकि हम अपने एकाधिक प्रतिगमन के साथ समान वैरिएबल का निर्माण करेंगे, और हम भ्रम को भ्रमित नहीं करना चाहते हैं। उदाहरण के लिए, सरल प्रतिगमन में हमने हमारी भविष्यवाणी (फिट) मूल्यों के लिए एक चर एफवीवी बनाया है और अवशेषों के लिए ई। अगर हम अपने अगले उदाहरण के लिए पूर्वानुमानित मान बनाना चाहते हैं तो हम अनुमानित मान को और कुछ कह सकते हैं, उदा। एफवीएमआर लेकिन यह भ्रामक हो रही शुरू हो सकता है हम चले गए चर को छोड़ सकते हैं, ड्रॉप एफवी ई का उपयोग कर। इसके बजाय, मेमोरी में डेटा को साफ़ करने दें और elemapi2 डेटा फ़ाइल को दोबारा उपयोग करें। जब हम भविष्य के अध्यायों में नए उदाहरणों को शुरू करते हैं, तो हम मौजूदा डेटा फ़ाइल को साफ़ कर देंगे और ताज़ा शुरू करने के लिए फाइल का पुनः उपयोग करेंगे। इस एकाधिक प्रतिगमन उदाहरण के लिए, हम निर्भर चर, एपीआईएंड को वापस कर देंगे। डेटा सेट में सभी भविष्यवक्ता चर पर। इस प्रतिगमन विश्लेषण से आउटपुट की जांच करने देता है। साधारण प्रतिगमन के साथ, हम एफ-टेस्ट के पी-वेल को देखते हैं कि क्या समग्र मॉडल महत्वपूर्ण है। शून्य से चार दशमलव स्थानों के पी-मूल्य के साथ, मॉडल सांख्यिकीय रूप से महत्वपूर्ण है। आर-स्क्वेयर 0.8446 है, जिसका अर्थ है कि एपीआईएंडए की परिवर्तनशीलता का लगभग 84 मॉडल मॉडल में वेरिएबल्स द्वारा होता है। इस मामले में, एड-समायोजित आर-स्क्वेरड इंगित करता है कि मॉडल में प्रिक्टर चर की संख्या को ध्यान में रखते हुए, एपीआईएक्स की परिवर्तनशीलता के बारे में 84 मॉडल के लिए जिम्मेदार है। प्रत्येक चर के लिए गुणांक, एपीआईएंडडी में उस परिवर्तन की मात्रा को इंगित करता है जिससे उस वैरिएबल के मूल्य में एक-इकाई परिवर्तन होता है, यह देखते हुए कि मॉडल में अन्य सभी चर निरंतर बनाए जाते हैं। उदाहरण के लिए, चर पर विचार करें ell हमें उम्मीद है कि एपीआईएक्स में हर एक यूनिट के लिए एपीआईएंड स्कोर में 0.86 की कमी आएगी। यह मानते हुए कि मॉडल में अन्य सभी चर स्थिर बनाए जाते हैं। एकाधिक प्रतिगमन से अधिक उत्पादन की व्याख्या एक समान है क्योंकि यह साधारण प्रतिगमन के लिए थी हमने एक एनोटेट आउटपुट तैयार किया है जो इस एकाधिक प्रतिगमन विश्लेषण के आउटपुट को अधिक अच्छी तरह बताता है। आप सोच सकते हैं कि एएल में वास्तव में 0.86 परिवर्तन वास्तव में क्या हैं, और आप गुणांक की ताकत को एक और चर के गुणांक के साथ तुलना कैसे कर सकते हैं, भोजन कहते हैं इस समस्या का समाधान करने के लिए, हम बीटा नामक रीग्रेस कमांड के लिए एक विकल्प जोड़ सकते हैं जो हमें मानकीकृत प्रतिगमन गुणांक देगा। बीटा गुणांक का उपयोग कुछ शोधकर्ताओं द्वारा मॉडल के विभिन्न भविष्यवाणियों की सापेक्ष शक्ति की तुलना करने के लिए किया जाता है। क्योंकि बीटा गुणांकों को सभी चर की इकाइयों के बजाय, मानक विचलन में मापा जाता है, वे एक दूसरे से तुलना की जा सकती हैं। दूसरे शब्दों में, बीटा गुणांक गुणांक हैं जो आप प्राप्त करेंगे यदि प्रतिफल को चलाने से पहले परिणाम और भविष्यवक्ता चर सभी मानक स्कोर को परिवर्तित कर देते हैं, जिन्हें z-scores भी कहा जाता है। क्योंकि बीटा कॉलम में गुणांक समान मानकीकृत इकाइयों में सभी हैं, क्योंकि आप प्रत्येक गुणक की तुलनात्मक शक्ति का आकलन करने के लिए इन गुणकों की तुलना कर सकते हैं। इस उदाहरण में, भोजन का सबसे बड़ा बीटा गुणांक, -0.66 (पूर्ण मूल्य में) है, और acsk3 में सबसे छोटी बीटा, 0.013 है। इस प्रकार, भोजन में एक मानक विचलन वृद्धि की भविष्यवाणी की गई एपीआईएंड में एक 0.66 मानक विचलन कमी होती है। अन्य चर के साथ स्थिर रखा और, acsk3 में एक मानक विचलन वृद्धि बदले में, अनुमानित एपीआईएंड में 0.013 मानक विचलन वृद्धि की ओर जाता है, जो कि मॉडल में बनाए गए अन्य चर वाले स्थिरांक के साथ होता है। इस आउटपुट की व्याख्या में, याद रखें कि कोइफ़ में सूचीबद्ध संख्याओं के बीच अंतर। स्तंभ और बीटा स्तंभ माप की इकाइयों में है। उदाहरण के लिए, आप के लिए कच्चे गुणांक का वर्णन करने के लिए कहेंगे कि एएल में किक ए एक यूनिट की कमी भविष्यवाणी की गई एपीआईएंड में एक .86-यूनिट की वृद्धि होगी। हालांकि, मानकीकृत गुणांक (बीटा) के लिए आप कहेंगे, एक मानक एलईएल में विचलन कमी भविष्यवाणी की गई api00 में एक .15 मानक विचलन वृद्धि उत्पन्न करेगी.कॉट सूचीकोइफ कमांड मानकीकृत गुणांक के संबंध में अधिक व्यापक उत्पादन प्रदान करता है। यह स्ताटा का हिस्सा नहीं है, लेकिन आप इसे इस तरह इंटरनेट पर डाउनलोड कर सकते हैं। और उसके बाद निर्देशों का पालन करें (यह भी देखें कि मैं प्रोग्राम को खोज करने के लिए findit कमांड का उपयोग कैसे कर सकता हूं और खोज के उपयोग के बारे में अधिक जानकारी के लिए अतिरिक्त सहायता प्राप्त कर सकता हूं)। अब हमने सूची कोइफ़ डाउनलोड किया है हम इसे इस तरह चला सकते हैं हमें सूचीसीफ आउटपुट के साथ रिग्रेडे आउटपुट की तुलना करनी चाहिए। आप देखेंगे कि कोइफ़ में सूचीबद्ध मूल्य टी, और पीजीटीटी मूल्य दो आउटपुट में समान हैं I रिसाग आउटपुट के बीटा कॉलम में सूचीबद्ध मान सूचीक्फ़ के bStadXY स्तंभ में मान के समान हैं बीएसटीएक्सएक्स कॉलम में वाई में यूनिट परिवर्तन एक्स में एक मानक विचलन परिवर्तन से अपेक्षित होता है। BStdY कॉलम X में एक यूनिट परिवर्तन के साथ अपेक्षित Y में मानक विचलन परिवर्तन देता है। एसडीओएफएक्स कॉलम प्रत्येक प्रक्षेपक चर का मानक विचलन देता है आदर्श। उदाहरण के लिए, बीएसटीएक्सएक्स के लिए एलईएल -21.3 है, जिसका अर्थ है कि एक मानक विचलन को बढ़ाता है जो एपीआईएंड में अपेक्षित 21.3 यूनिट की कमी से बढ़ेगा। -0.0060 के लिए बीएसटीआई वैल्यू का मतलब है कि एक यूनिट के लिए, एक प्रतिशत, अंग्रेज़ी भाषा के शिक्षार्थियों में वृद्धि, हम उम्मीद करते हैं कि एपीआईएंड में 0.006 मानक विचलन कमी। क्योंकि bStdX वैल्यू प्रक्रमक चर के लिए मानक इकाइयों में हैं, इसलिए आप इन गुणकों का उपयोग भविष्यवाणियों की सापेक्ष शक्ति की तुलना करने के लिए कर सकते हैं जैसे कि आप बीटा गुणांक की तुलना करेंगे। अंतर BStdx गुणांक को परिणाम चर की मानकीकृत इकाइयों के बजाय परिणाम चर की इकाइयों में परिवर्तन के रूप में व्याख्या की जाती है। उदाहरण के लिए, बीएसटीएक्स फॉर मेल्स बनाम एएल -94 बनाम -21, या लगभग 4 गुना बड़े, बीटा गुणांकों के अनुपात के समान अनुपात। हमने एक एनोटेट आउटपुट बनाया है जो सूचीोफ से आउटपुट को और अधिक अच्छी तरह बताता है। अब तक, हम स्वयं को एक समय में एक एकल चर का परीक्षण करने के लिए चिंतित हैं, उदाहरण के लिए गुणांक को देखते हुए और यह निर्धारित करने के लिए कि क्या यह महत्वपूर्ण है हम यह भी देख सकते हैं कि चर का सेट महत्वपूर्ण है सबसे पहले, एक सिंगल वेरिएबल के परीक्षण से शुरू करें, एले परीक्षण कमान का उपयोग करना यदि आप इस आउटपुट को पिछले प्रतिगमन से आउटपुट के साथ तुलना करते हैं तो आप देख सकते हैं कि एफ-परीक्षण, 16.67 का परिणाम, प्रतिगमन (-4.0832 16.67) में टी-टेस्ट के परिणाम के वर्ग के समान है। ध्यान दें कि यदि आप नीचे लिखे गए शब्द (एस) की तुलना करने के लिए स्टाटा डिफॉल्ट से निम्नलिखित टाइप करते हैं तो आप उसी परिणाम प्राप्त कर सकते हैं। शायद एक और दिलचस्प परीक्षा यह देखने के लिए होगी कि क्या वर्ग के आकार का योगदान महत्वपूर्ण है चूंकि वर्ग के आकार के बारे में जानकारी दो चर, एस्कस्क 3 और एसी 46 में होती है। हम परीक्षण कमान के साथ इनमें से दोनों शामिल करते हैं। महत्वपूर्ण एफ-परीक्षण, 3. 9 5, का अर्थ है कि इन दो चर के सामूहिक योगदान महत्वपूर्ण है। इसके बारे में सोचने का एक तरीका यह है कि एस्कस्क 3 और एसी 46 के मॉडल के बीच उनके बीच एक मॉडल की तुलना में एक महत्वपूर्ण अंतर है, यानी quotatlquot मॉडल और quotatedSquot मॉडल के बीच एक महत्वपूर्ण अंतर है। अंत में, कई प्रतिगमन विश्लेषण करने के एक हिस्से के रूप में, आप प्रतिगमन मॉडल में वेरिएबल के बीच सहसंबंध देखकर दिलचस्पी रख सकते हैं। आप इसे नीचे दिए गए अनुसार सहसंबंधित कमांड के साथ कर सकते हैं। यदि हम api00 के साथ सहसंबंध को देखते हैं हम भोजन देखते हैं और एपीआई 200 के साथ दो मजबूत सहसंबंध रखते हैं। ये सहसंबंध नकारात्मक हैं, जिसका अर्थ है कि एक चर का मूल्य नीचे जाता है, अन्य चर का मान ऊपर जाना जाता है। यह जानते हुए कि ये चर एपीआई 200 के साथ दृढ़ता से जुड़े हैं हम भविष्यवाणी कर सकते हैं कि वे प्रतिगमन मॉडल में सांख्यिकीय रूप से महत्वपूर्ण भविष्यवक्ता चर होंगे हम जोड़कर संबंधों को करने के लिए pwcorr कमांड का भी उपयोग कर सकते हैं। सहसंबंधित और pwcorr के बीच सबसे महत्वपूर्ण अंतर यह तरीका है जिसमें लापता डेटा का संचालन किया जाता है। सहसंबंधी के साथ एक अवलोकन या मामला गिरा दिया जाता है यदि किसी भी चर में अनुपलब्ध मूल्य है, दूसरे शब्दों में, सहसंबंधित सूची में उपयोग किया जाता है भी कहा जाता है, हटाने pwcorr जोड़ों के विलोपन का उपयोग करता है, जिसका अर्थ है कि अवलोकन केवल तभी गिराया जाता है जब कोई अंतर वैसी होने के लिए अनुपलब्ध है, दो विकल्प जो कि आप pwcorr के साथ उपयोग कर सकते हैं। लेकिन सहसंबंधी के साथ नहीं सिग ऑप्शन है, जो सहसंबंधों और ऑब्स ऑप्शन के महत्व का स्तर देगा, जो सहसंबंध में इस्तेमाल किए गए अवलोकनों की संख्या देगा। ऐसे विकल्प को कोर के साथ जरूरी नहीं है क्योंकि स्टेटा आउटपुट के शीर्ष पर टिप्पणियों की संख्या को सूचीबद्ध करता है। 1.5 ट्रांसफ़ॉर्मिंग वेरिएबल्स पहले हमने आपके डेटा को संभावित त्रुटियों के लिए स्क्रीनिंग पर केंद्रित किया था। अगले अध्याय में, हम यह सत्यापित करने के लिए प्रतिगमन निदान पर ध्यान देंगे कि आपका डेटा रैखिक प्रतिगमन की मान्यताओं को पूरा करता है या नहीं। यहां, हम सामान्यता के मुद्दे पर ध्यान देंगे कुछ शोधकर्ता मानते हैं कि रैखिक प्रतिगमन के लिए आवश्यक है कि परिणाम (निर्भर) और भविष्यवक्ता चर सामान्य रूप से वितरित किए जाते हैं। हमें इस मुद्दे को स्पष्ट करने की आवश्यकता है। वास्तविकता में, यह अवशिष्ट है जो सामान्य रूप से वितरित किए जाने की आवश्यकता होती है। वास्तव में, अवशिष्टों को केवल टी-टेस्ट के लिए सामान्य होने की आवश्यकता है। प्रतिगमन गुणांक का अनुमान सामान्य रूप से अवशिष्ट अवयवों को वितरित करने की आवश्यकता नहीं है। चूंकि हमें मान्य टी-टेस्ट होने में रुचि है, हम सामान्यता से संबंधित मुद्दों की जांच करेंगे। गैर-सामान्य रूप से वितरित अवशिष्टों का एक सामान्य कारण गैर-सामान्य रूप से वितरित परिणाम और प्रक्षेपक चर है। तो, आइए हम अपने वेरिएबल्स के वितरण का पता लगाएं और हम उन्हें कैसे और अधिक सामान्य आकार में परिवर्तित कर सकते हैं। चल नामांकन के हिस्टोग्राम बनाकर शुरू करें जो हमने सरल प्रतिगमन में पहले देखा था हम इस आलेख पर एक सामान्य वक्र को अध्यारोपित करने के लिए सामान्य विकल्प का उपयोग कर सकते हैं और 20 डिब्बे का उपयोग करने के लिए बिन (20) विकल्प का उपयोग कर सकते हैं। वितरण दाईं ओर तिरछा दिखता है आप कुल्हाड़ियों के लेबल को भी संशोधित करना चाह सकते हैं। उदाहरण के लिए, हम नीचे x-axis लेबलिंग के लिए xlabel () विकल्प का उपयोग करते हैं, इसे 100 से 0 से 1600 तक बढ़ाना लेबल करते हैं। हिस्टोग्राम डिस्प्ले में उपयोग किए जाने वाले डिब्बे या कॉलम की संख्या के प्रति संवेदनशील हैं। हिस्टोग्राम का एक विकल्प कर्नेल घनत्व की साजिश है, जो कि चर की संभावना घनत्व का अनुमान लगाता है। हिस्टोग्राम के विपरीत, कर्नेल घनत्व के भूखंडों को चिकनी और मूल के पसंद से स्वतंत्र होने का लाभ मिलता है। स्टेटा ने केडीटीसी कमांड के साथ कर्नेल घनत्व वाले भूखंडों को लागू किया है। हैरानी की बात नहीं है, कश्मीर प्लॉट यह भी इंगित करता है कि चर नामांकन सामान्य नहीं दिखता है अब दाखिला के लिए बॉक्सप्लेट बना सकते हैं ग्राफ बॉक्स कमांड का उपयोग करना बॉक्सप्लेट के शीर्ष पर स्थित डॉट्स को नोट करें जो संभावित आउटलेटर्स को इंगित करता है, अर्थात यह डेटा अंक 75 वें प्रतिशतय से अधिक 1.5 (इंटरक्वैटाइल रेंज) से अधिक है। यह बॉक्स प्लॉट यह भी पुष्टि करता है कि नामांकन सही पर तिरछी है तीन अन्य प्रकार के ग्राफ़ हैं जो अक्सर चर सममिति भूखंडों, सामान्य क्वांटिकल भूखंडों और सामान्य संभावना भूखंडों के वितरण की जांच के लिए उपयोग किए जाते हैं। I-th मान के लिए औसत से नीचे की दूरी के खिलाफ i-th मान के लिए एक सममित साजिश रेखांकन औसत से ऊपर की दूरी पर है। एक वैरिएबल जो कि सममित है, वह अंक जो कि विकर्ण रेखा पर स्थित हैं जैसा कि हम उम्मीद करते हैं, यह वितरण सममित नहीं है एक सामान्य मात्रा का साजिश एक सामान्य (गाऊसी) वितरण की मात्रा के खिलाफ एक चर की मात्रा को ग्राफ़ करता है। कोंमोर पूंछ के निकट गैर-सामान्यता के प्रति संवेदनशील है, और वास्तव में हम पूंछों में सामान्य, विकर्ण रेखा से काफी विचलन देखते हैं। यह साजिश वेरिएबल की विशिष्टता है जो दृढ़ता से सही दिशा में तिरछी हैं अंत में, सामान्य संभावना प्लॉट चर के वितरण की जांच के लिए भी उपयोगी है। पैनोर वितरण के केंद्र के करीब सामान्यता से विचलन के प्रति संवेदनशील है। फिर से, हम नामांकन में गैर-सामान्यता के संकेत देखते हैं। निष्कर्ष निकाला है कि नामांकन सामान्य रूप से नहीं बांटा गया है, हमें इस समस्या का समाधान कैसे करना चाहिए सबसे पहले, हम वैरिएबल को प्रवेश करने की कोशिश कर सकते हैं जैसे- प्रतिगमन में है, लेकिन अगर हम समस्याएं देखते हैं, जो हम चाहते हैं तो हम नामांकन में बदलाव करने का प्रयास कर सकते हैं यह अधिक सामान्य रूप से वितरित किया जाता है संभावित परिवर्तनों में लॉग, वर्गमूल लेना या एक शक्ति को चर बढ़ाने उपयुक्त परिवर्तन चुनना एक कला का कुछ हिस्सा है। स्ताट में प्रक्रिया में सहायता करने के लिए सीढ़ी और खुशी के आदेश शामिल हैं। सीढ़ी संख्यात्मक परिणाम की रिपोर्ट करता है और एक ग्राफिक प्रदर्शन का आनंद लेता है। चलो सीढ़ी से शुरू करते हैं और छोटे ची-स्क्वायर के साथ परिवर्तन की तलाश करते हैं। लॉग रूपांतरण में सबसे छोटा ची-स्क्वायर है। खुशी से इन परिणामों को ग्राफ़िक रूप से सत्यापित करने देता है यह यह भी इंगित करता है कि लॉग परिवर्तन से अधिक सामान्य रूप से वितरित करने में सहायता मिलेगी। चलिए चलने वाले लॉगन बनाने के लिए लॉग फंक्शन के साथ कमांड का इस्तेमाल करते हैं जो नामांकन का लॉग होगा। ध्यान दें कि स्टैटा में लॉगिन आपको प्राकृतिक लॉग देगा, लॉग बेस 10 नहीं। लॉग बेस 10 प्राप्त करने के लिए, log10 (var) टाइप करें। अब हमारे नए चर को ग्राफ देता है और देखें कि क्या हमने इसे सामान्यीकृत किया है। हम देख सकते हैं कि लेननोल काफी सामान्य दिखता है। हम तब symplot का उपयोग करेंगे qnorm और pnorm कमांड के लिए हमें यह आकलन करने में सहायता के लिए कि लेनोरोल सामान्य है या नहीं, साथ ही यह देखकर कि कैसे लेनोल अवशिष्टों पर असर डालती है, जो वास्तव में महत्वपूर्ण विचार है। In this lecture we have discussed the basics of how to perform simple and multiple regressions, the basics of interpreting output, as well as some related commands. We examined some tools and techniques for screening for bad data and the consequences such data can have on your results. Finally, we touched on the assumptions of linear regression and illustrated how you can check the normality of your variables and how you can transform your variables to achieve normality. The next chapter will pick up where this chapter has left off, going into a more thorough discussion of the assumptions of linear regression and how you can use Stata to assess these assumptions for your data. In particular, the next lecture will address the following issues. Checking for points that exert undue influence on the coefficients Checking for constant error variance (homoscedasticity) Checking for linear relationships Checking model specification Checking for multicollinearity Checking normality of residuals See the Stata Topics: Regression page for more information and resources on simple and multiple regression in Stata. 1.7 Self Assessment Make five graphs of api99 . histogram, kdensity plot, boxplot, symmetry plot and normal quantile plot. What is the correlation between api99 and meals Regress api99 on meals . What does the output tell you Create and list the fitted (predicted) values. Graph meals and api99 with and without the regression line. Look at the correlations among the variables api99 meals ell avged using the corr and pwcorr commands. Explain how these commands are different. Make a scatterplot matrix for these variables and relate the correlation results to the scatterplot matrix. Perform a regression predicting api99 from meals and ell . Interpret the output. Click here for our answers to these self assessment questions. 1.8 For More Information The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California. Stata: Data Analysis and Statistical Software Jonathan A. C. Sterne, University of Bristol Ross J. Harris, University of Bristol Roger M. Harbord, University of Bristol Thomas J. Steichen, RJRT Stata does not have a meta-analysis command. Stata users, however, have developed an excellent suite of commands for performing meta-analyses. In 2018, Stata published Meta-Analysis in Stata: An Updated Collection from the Stata Journal, Second Edition . which brought together all the Stata Journal articles about meta-analysis. This book is available for purchase at stata-pressbooksmeta-analysis-in-stata. The following meta-analysis commands are all described in Meta-Analysis in Stata: An Updated Collection from the Stata Journal, Second Edition . metan is the main Stata meta-analysis command. Its latest version allows the user to input the cell frequencies from the 2 times 2 table for each study (for binary outcomes), the mean and standard deviation in each group (for numerical outcomes), or the effect estimate and standard error from each study. It provides a comprehensive range of methods for meta-analysis, including inverse-variancendashweighted meta-analysis, and creates new variables containing the treatment effect estimate and its standard error for each study. These variables can then be used as input to other Stata meta-analysis commands. Meta-analyses may be conducted in subgroups by using the by() option. All the meta-analysis calculations available in metan are based on standard methods, an overview of which may be found in chapter 15 of Deeks, Altman, and Bradburn (2001). The version of the metan command that used Stata 7 graphics has been renamed metan7 and is downloaded as part of the metan package currently available on the SSC archive. The most recent help file for metan provides several clickable examples of using the command. labbe draws a LrsquoAbbe plot for event data (proportions of successes in the two groups). metaan performs meta-analysis on effect estimates and standard errors. Included are profile likelihood and permutation estimation, two algorithms not available in metan . 4. metacum metacum performs cumulative meta-analyses and graphs the results. metap combines p - values by using Fisherrsquos method, Edgingtonrsquos additive method, or Edgingtonrsquos normal curve method. It was released in 1999 as a version 6 command (no graphics) and was last updated in 2000. It requires the user to input a p - value for each study. 6. metareg metareg does meta-regression. It was first released in 1998 and has been updated to take account of improvements in Stata estimation facilities and recent methodological developments. It requires the user to input the treatment effect estimate and its standard error for each study. 7. metafunnel metafunnel plots funnel plots. It was released in 2004 and uses Stata 8 graphics. It requires the user to input the treatment effect estimate and its standard error for each study. 8. confunnel confunnel plots contour-enhanced funnel plots. The command has been designed to be flexible, allowing the user to add extra features to the funnel plot. 9. metabias metabias provides statistical tests for funnel plot asymmetry. It was first released in 1997, but it has been updated to provide recently proposed tests that maintain better control of the false-positive rate than those available in the original command. 10. metatrim metatrim implements the ldquotrim and fillrdquo method to adjust for publication bias in funnel plots. It requires the user to input the treatment effect estimate and its standard error for each study. 11. extfunnel extfunnel implements a new range of overlay augmentations to the funnel plot to assess the impact of a new study on an existing meta-analysis. 12. metandi and metandiplot metandi facilitates the fitting of hierarchical logistic regression models for meta-analysis of diagnostic test accuracy studies. metandiplot produces a graph of the model fit by metandi . which must be the last estimation-class command executed. 13. mvmeta and mvmetamake mvmeta performs maximum likelihood, restricted maximum likelihood, or method-of-moments estimation of random-effects multivariate meta-analysis models. mvmetamake facilitates the preparation of summary datasets from more detailed data. 14. ipdforest ipdforest is a postestimation command that uses the stored estimates of an xtmixed or xtmelogit command for multilevel linear or logistic regression, respectively. 15. ipdmetan ipdmetan performs two-stage individual participant data meta-analysis using the inverse-variance method. 16. indirect indirect performs pairwise indirect treatment comparisons. 17. network setup network setup imports data from a set of studies reporting count data (events, total number) or quantitative data (mean, standard deviation, total number) for two or more treatments. 18. network import network import imports a dataset already formatted for network meta-analysis. 19. network table network table tabulates network meta-analysis data. 20. network pattern network pattern shows which treatments are used in which studies. 21. network map network map draws a map of a network that is, it shows which treatments are directly compared against which other treatments and roughly how much information is available for each treatment and for each treatment comparison. 22. network convert network convert converts between the three formats described in the help file for network . 23. network query network query displays the current network settings. 24. network unset network unset deletes the current network settings. 25. network meta network meta defines a model to be fit: either the consistency model or the design-by-treatment interaction inconsistency model. 26. network rank network rank ranks treatments after a network meta-analysis has been fit. 27. network sidesplit network sidesplit fits the node-splitting model of Dias et al. (2018). 28. network forest network forest draws a forest plot of network meta-analysis data. 29. networkplot networkplot plots a network of interventions using nodes and edges. 30. netweight netweight calculates all direct pairwise summary effect sizes with their variances, creates the design matrix, and estimates the percentage contribution of each direct comparison to the network summary estimates and in the entire network. 31. ifplot ifplot identifies all triangular and quadratic loops in a network of interventions and estimates the respective inconsistency factors and their uncertainties. 32. netfunnel netfunnel plots a comparison-adjusted funnel plot for assessing small-study effects within a network of interventions. 33. intervalplot intervalplot plots the estimated effect sizes and their uncertainties for all pairwise comparisons in a network meta-analysis. 34. netleague netleague creates a league table showing in the off-diagonal cells the relative treatment effects for all possible pairwise comparisons estimated in a network meta-analysis. sucra gives the surface under the cumulative ranking curves percentages and mean ranks, and produces rankograms (line plots of the probabilities versus ranks) and cumulative ranking plots (line plots of the cumulative probabilities versus ranks) for all treatments in a network of interventions. 36. mdsrank mdsrank creates the squared matrix containing the pairwise relative effect sizes and plots the resulting values of the unique dimension for each treatment. 37. clusterank clusterank performs hierarchical cluster analysis to group the competing treatments into meaningful groups. glst calculates a log-linear dosendashresponse regression model using generalized least squares for trend estimation of single or multiple summarized dosendashresponse epidemiological studies. Output from this command may be useful in deriving summary effects and their standard errors for inclusion in meta-analyses of such studies. 39. metamiss metamiss performs meta-analysis with binary outcomes when some or all studies have missing data. 40. sem and gsem Describes how to fit fixed - and random-effects meta-analysis models using the sem and gsem commands, introduced in Stata 12 and 13 respectively, for structural equation modeling. 41. metacumbounds metacumbounds provides z - values, p - values, and Lan-DeMets bounds obtained from fixed - or random-effects meta-analysis. It plots the boundaries and z - values through a process. 42. metasim metasim simulates a specified number of new studies based on the estimates obtained from a preexisting meta-analysis. 43. metapow metapow implements an approach to estimating the power of a newly simulated study generated by using the program metasim . 44. metapowplot metapowplot estimates the power of an updated meta-analysis including a new study and plots each value against a range of sample sizes. The following commands are documented in the Appendix: 45. metacurve metacurve models a response as a function of a continuous covariate, optionally adjusting for other variable(s) specified by adjust() . 46. metannt metannt is intended to aid interpretation of meta-analyses of binary data by presenting intervention effect sizes in absolute terms, as the number needed to treat (NNT) and the number of events avoided (or added) per 1,000. The user inputs design parameters, and metannt uses the metan command to calculate the required statistics. This command is available as part of the metan package. 47. metaninf metaninf is a port of the metainf command to use metan as its analysis engine rather than meta . It was released in 2001 as a version 6 command using version 6 graphics and was last updated in 2004. It requires the user to provide input in the form needed by metan . midas provides statistical and graphical routines for undertaking meta-analysis of diagnostic test performance in Stata. 49. metalr metalr graphs positive and negative likelihood ratios in diagnostic tests. It can do stratified meta-analysis of individual estimates. The user must provide the effect estimates (log positive likelihood ratio and log negative likelihood ratio) and their standard errors. Commands meta and metareg are used for internal calculations. This is a version 8 command released in 2004. 50. metaparm metaparm performs meta-analyses and calculates confidence intervals and p - values for differences or ratios between parameters for different subpopulations for data stored in the parmest format. 51. metaeff metaeff is a pre-processing command for meta-analysis and a companion to metaan which calculates effect sizes and their standard errors. Note: There may be commands that appeared in the Stata Journal after the publication of Meta-Analysis in Stata: An Updated Collection from the Stata Journal, Second Edition . For a complete list of meta-analysis commands, type search meta in Stata. Deeks, J. J. D. G. Altman, and M. J. Bradburn. 2001. Statistical methods for examining heterogeneity and combining results from several studies in meta-analysis. In Systematic Reviews in Health Care: Meta-Analysis in Context, 2nd Edition . ईडी। M. Egger, G. Davey Smith, and D. G. Altman. London: BMJ. Dias, S. N. J. Welton, D. M. Caldwell, and A. E. Ades. 2018. Checking consistency in mixed treatment comparison meta-analysis. Statistics in Medicine 29: 932ndash944.

Comments

Popular posts from this blog

स्टटा फॉरेक्स में गैर अल्पतायता नमूना आकार गणना

ट्रेडिंग सिस्टम विदेशी मुद्रा स्केलिंग सिस्टम

विदेशी मुद्रा पूर्वानुमान audjpy मंच