यदि आपके पास एक अनावश्यक टेक्स्ट फ़ाइल है जिसे आप संसाधित करने का प्रयास कर रहे हैं, तो इसे अनुभागों में विभाजित करने से कभी-कभी समय प्रसंस्करण में सहायता मिल सकती है, खासकर यदि हम एक स्प्रेडशीट में फ़ाइल आयात करने जा रहे थे। या हो सकता है कि आप फ़ाइल से लाइनों का एक विशेष सेट पुनर्प्राप्त करना चाहें।
विभाजित, डब्ल्यूसी, पूंछ, बिल्ली, और grep दर्ज करें। (sed और awk मत भूलना)। लिनक्स में कमांड लाइन पर टेक्स्ट फाइलों के साथ काम करने के लिए उपयोगिता का एक समृद्ध सेट है। आज हमारे कार्य के लिए हम विभाजन और डब्ल्यूसी का उपयोग करेंगे।
सबसे पहले हम अपनी लॉग फ़ाइल देखें …।
> ls -l -rw-r–r– 1 thegeek ggroup 42046520 2006-09-19 11:42 access.log
हम देखते हैं कि फ़ाइल का आकार 42 एमबी है। यह थोडा बड़ा है … लेकिन हम कितने लाइनों से निपट रहे हैं? अगर हम इसे एक्सेल में आयात करना चाहते हैं, तो हमें इसे 65k से कम लाइनों में रखना होगा।
चलो Wc उपयोगिता का उपयोग कर फ़ाइल में लाइनों की मात्रा की जांच करें, जो "शब्द गणना" के लिए खड़ा है।
> wc -l access.log 146330 access.log
हम अपनी सीमा से आगे बढ़ रहे हैं। हमें इसे 3 सेगमेंट में विभाजित करने की आवश्यकता होगी। हम ऐसा करने के लिए विभाजित उपयोगिता का उपयोग करेंगे।
> split -l 60000 access.log > ls -l
total 79124 -rw-rw-r– 1 thegeek ggroup 40465200 2006-09-19 12:00 access.log -rw-rw-r– 1 thegeek ggroup 16598163 2006-09-19 12:05 xaa -rw-rw-r– 1 thegeek ggroup 16596545 2006-09-19 12:05 xab -rw-rw-r– 1 thegeek ggroup 7270492 2006-09-19 12:05 xac
अब हमने अपनी टेक्स्ट फाइलों को 3 अलग-अलग फाइलों में विभाजित कर दिया है, जिनमें प्रत्येक 60000 से कम लाइनें हैं, जो चुनने के लिए एक अच्छी संख्या की तरह लग रहा था। अंतिम फ़ाइल में बचे हुए राशि शामिल हैं। यदि आप इस विशेष फ़ाइल को आधा में कटौती करने जा रहे थे, तो आप यह कर चुके होंगे:
> split -l 73165 access.log
और, यह सब कुछ है।