Saturday 18 November 2017

स्टैटएक्स फॉरेक्स में डेटा को जोड़कर


आईएम वर्तमान में एक बहुत बड़े डाटासेट (10 वार्स, 300 मी। से ज़्यादा पंक्तियों) का 10 नमूना का उपयोग कर रहा है, जो पूरे डेटासेट के लिए। Dta प्रारूप में संग्रहीत 200 जीबी डेटा के बराबर है। स्टेटा 50 जी रैम और एकाधिक कोर के साथ यूनिक्स सर्वर पर स्टेटा-एमपी का उपयोग करते समय 10 नमूने के लिए उचित समय में egen, पतन, मर्जिंग आदि कार्यों को संभालने में सक्षम है। हालांकि, अब मैं पूरे नमूने का विश्लेषण करने के लिए आगे बढ़ना चाहता हूं। यहां तक ​​कि अगर मैं एक ऐसी मशीन का उपयोग करता हूं जिसमें डेटासेट को रखने के लिए पर्याप्त रैम है, तो बस एक वेरिएबल पैदा करता है, जो कि उम्र लेता है। (मुझे लगता है कि पृष्ठभूमि ऑपरेशन स्टेटा को आभासी मेम में चलाने के लिए पैदा कर रहे हैं) समस्या समानता के लिए भी बहुत अनुकूल है, अर्थात डेटासेट में पंक्तियां एक दूसरे से स्वतंत्र हैं, इसलिए मैं बस एक बड़ी डाटासेट के बारे में सोच सकता हूं 100 छोटे डेटासेट क्या किसी को इस सूचना को संसाधित करने के लिए कोई सुझाव है या मुझे कुछ सुझावों पर प्रतिक्रिया दे सकते हैं, जो वर्तमान में मेरे पास ज्यादातर स्टैटाससमैटLAB का प्रयोग करते हैं, शायद अन्य तरीकों से मैं बस से अनजान हूं। यहां मेरे कुछ मौजूदा विचार हैं: डेटासेट को छोटे डेटासेट में विभाजित करें और स्ताटा में अनौपचारिक समानांतर संसाधन का उपयोग करें। मैं प्रत्येक विभाजन पर अपना सफाईप्रक्रियाकरण विश्लेषण चला सकता हूं और फिर सभी मध्यवर्ती हिस्सों को स्टोर किए बिना परिणाम मर्ज कर सकता हूं। डेटा को संग्रहीत करने के लिए एसक्यूएल का उपयोग करें और कुछ डेटा हेरफेर भी करें जैसे कुछ विशिष्ट मूल्यों को एकत्र करना। यहां एक चिंता यह है कि कुछ कार्य जो स्ताट काफी आसानी से संभाल सकते हैं जैसे कि समय के दौरान मूल्यों की तुलना एसक्यूएल में इतनी अच्छी तरह से काम नहीं करते। इसके अलावा, आईएम पहले से ही प्रदर्शन के मुद्दों पर चल रहा है जब डेटा के 30 नमूने पर एसक्यूएल में कुछ प्रश्न चलते हैं। लेकिन शायद मैं सही ढंग से इंडेक्सिंग से ऑप्टिमाइज़ नहीं कर रहा हूं, आदि। इसके अलावा, शर्ड-क्वीयर ऐसा लगता है कि इससे इसके साथ मदद मिल सकती है लेकिन मैंने अभी तक इसके बारे में बहुत अच्छी तरह से शोध नहीं किया है। आर भी आशाजनक दिखता है, लेकिन मुझे यकीन नहीं है कि यह इस भारी मात्रा में डेटा के साथ काम करने की समस्या को हल करेगा। चूंकि आप स्टेटा से परिचित हैं चूंकि बड़ी डाटासेट्स के साथ स्टेटा डीलिंग में बड़े डेटा सेट के बारे में एक अच्छी तरह से प्रलेखित अक्सर पूछे जाने वाले प्रश्न हैं आप यह मददगार खोज सकते हैं मैं कॉलम के माध्यम से साफ कर दूंगा, उनको बंटाने, किसी भी विशिष्ट सफाई दिनचर्या चलाना होगा और बाद में वापस मिल जाएगा। आपकी मशीन संसाधनों के आधार पर, आप टेम्पलेट फ़ाइल का उपयोग करते हुए एक से अधिक अस्थायी फ़ाइलों में अलग-अलग कॉलम धारण करने में सक्षम होना चाहिए। अपने विश्लेषण से संबंधित केवल चर या कॉलम का चयन करने के लिए ध्यान रखना आपके सेट के आकार को काफी कम करना चाहिए। 22 नवंबर को 7:10 को उत्तर दिया, उस लिंक पर आप का उल्लेख नहीं करना चाहिए, जो इस पेज पर है। ndash radek 22 नवंबर 13 11:25 बिल्कुल सही, बेवकूफ मुझे, कॉपी पास्ता गड़बड़ वहाँ ndash डी 3 एल 23 नवंबर को 12:29 धन्यवाद D3L यहाँ समस्या यह है कि मैं कुछ डेटा हेरफेर कोड चला रहा हूं जिसके लिए कॉलम के बीच संपर्क की आवश्यकता होती है। पंक्तियों को विभाजित करने का एक संभव समाधान है, लेकिन मैं जो कार्य कर रहा हूं उसके लिए यह काफी कठिन है। ndash user3018549 नवम्बर 26 13 पर 15: 40 एक्सेल में व्यापार डेटा संयोजित करना मैं एक्सेल को निर्यात करने वाले व्यापार डेटा को हेरफेर करने और विश्लेषण करने की कोशिश कर रहा हूं (रिपोर्ट के रूप में सहेजने, कॉपी और कॉपी करने के लिए एक्सेल पर) उदाहरण के लिए, मैं ईए का परीक्षण करना चाहता हूं लेकिन जोड़े की एक टोकरी के साथ। मुझे लगता है कि एमटी 4 में संभव नहीं है, लेकिन मैं इस तरह के टेस्ट को सीपीयू में एक्सेल निर्यात करके देखना चाहता हूं। क्या किसी को भी इस तरह की प्रक्रिया में तेजी लाने के लिए कोई संसाधन संसाधन हैं, मैंने कुछ चीजें ऑनलाइन देखीं, लेकिन यह निश्चित नहीं था कि क्या वे काम कर रहे हैं मैं किसी भी प्रतिक्रिया की सराहना करूंगा। धन्यवाद।

No comments:

Post a Comment