Semalt: सुन्दर सूपको साथ वेब पृष्ठहरूबाट यूआरएलहरू निकाल्दै

सुन्दर सूप एक उच्च-स्तरको पाइथन प्याकेज हो XML र HTML कागजात पार्सिंगको लागि। सुन्दर सूप पाइथन लाइब्रेरीले पार्स ट्री सिर्जना गर्दछ जुन HyperText मार्कअप भाषा (HTML) बाट उपयोगी जानकारी निकाल्न प्रयोग गरिन्छ। यो लाइब्रेरी दुबै पाइथन २ र पाइथन versions संस्करणका लागि उपलब्ध छन्।

धेरै जसो उदाहरणहरूमा, तपाईले आफ्नो लक्ष्य डेटा मात्र पहुँच गर्न सक्नुहुनेछ र वेब पृष्ठको अंशको रूपमा प्रयोग गर्न सक्नुहुनेछ। यस्तो अवस्थामा, तपाईले त्यस्ता वेब स्क्र्यापिंग टेक्निक प्रयोग गर्न आवश्यक छ जुन ढाँचामा डाटा निकाल्न सक्छ जुन विश्लेषण गर्न सकिन्छ। यो जहाँ सुन्दर सूप पुस्तकालय आउँछ।

आवश्यकताहरु

तपाईंलाई सुन्दर सूप लाइब्रेरी प्रयोग गर्न सही मोड्युलहरू आवश्यक छन्। सुरू गर्नका लागि तपाईले आफ्नो मेशिनमा पाइथन २.7 प्रोग्रामिंग भाषा स्थापना गर्नु पर्छ। यस पोष्टमा, तपाईं कसरी वेबसाइट स्क्र्याप गर्ने र अनुरोधहरू र सुन्दर सूप प्रयोग गरेर सबै यूआरएलहरू कसरी निकाल्ने सिक्नुहुनेछ। HTML पार्सि a एउटा काम-आफैले कार्य गर्दछ, विशेष गरी सुंदर सूपको टेक्निकल मद्दतको साथ।

किन सुन्दर सूप प्रयोग गर्ने?

ब्यूटीफुल सूप एक शीर्ष श्रेणीको पाइथन प्याकेज हो जुन २०० 2004 पछि वेबसाइटहरू खोप्न र HTML ट्याग पार्स गर्न प्रयोग भइरहेको छ। हालसालै, सुन्दर सुप replaced ले इण्डस्ट्रीमा ब्यूटीफुल सूप replaced लाई प्रतिस्थापन गर्‍यो। नोट गर्नुहोस् कि BS4 दुबै पाइथन संस्करणहरूमा काम गर्दछ जबकि BS3 पाइथन २.7 मा मात्र काम गर्दछ। पुस्तकालयले निम्न इनबिल्ट सुविधाहरू समावेश गर्दछ:

  • एन्कोडिंग क्षमता - तपाईले एक पटक तपाईको मेसिनमा आवश्यक राम्रो सुप मोड्युल स्थापना गर्नुभएमा एन्कोडिingsहरूको बारेमा आतंकित हुनुपर्दैन। लाइब्रेरी इनपुटलाई युनिकोड र आउटपुट UTF-8 मा रूपान्तरण गर्न स्वचालित हुन्छ।
  • नेभिगेसन क्षमता - सुन्दर सूप खोजी, नेभिगेट, र पार्स रूख परिमार्जनको लागि विधिहरू प्रयोग गर्न सजिलो प्रदान गर्दछ।

सुन्दर सूप पुस्तकालय कसरी प्रयोग गर्ने?

तपाईंको मेसिनमा सुन्दर सूप स्थापना गरेपछि, तपाईं पुस्तकालय प्रयोग गर्न सक्नुहुनेछ। सुरू गर्नका लागि तपाईको पाइथन कोडको सुरूमा bs4 लाइब्रेरी आयात गर्नुहोस्। सूप वस्तु सिर्जना गर्न सामग्री वा URL सुन्दर सुपमा पास गर्नुहोस्। यद्यपि पुस्तकालयले लक्षित वेब पृष्ठ आफैंमा ल्याउँदैन। यहाँ, तपाइँ त्यो कार्य म्यानुअल तरीकाले पूरा गर्नुपर्नेछ। तपाईं सजिलैसँग पाइथन र रमणीय सूपको संयोजन प्रयोग गरेर रूचाइएको वेब पृष्ठहरू फेच गर्न सक्नुहुनेछ।

अनुरोध पुस्तकालयको भूमिका

एक पृष्ठ स्क्र्याप गर्न, तपाईले यसलाई पहिले डाउनलोड गर्नु पर्छ। अनुरोध लाइब्रेरी प्रयोग गरी तपाईं वेब पृष्ठहरू डाउनलोड गर्न सक्नुहुनेछ। अनुरोध लाइब्रेरीले वेब सर्भरहरूमा "GET" अनुरोध गरेर काम गर्दछ, जसले फलस्वरूप रुचाइएको वेब पृष्ठको HTML सामग्रीहरू डाउनलोड गर्दछ।

वेब पृष्ठहरूबाट यूआरएलहरू निकाल्दै

अब तपाईंसँग सुन्दर सूप पुस्तकालयको बारेमा विस्तृत जानकारी छ। BS4 लाइब्रेरी र पाइथनको संयोजनले तपाइँलाई वेब पृष्ठ ल्याउन धेरै चाँडै मद्दत गर्दछ। तपाइँको लक्षित वेब पृष्ठबाट सबै यूआरएलहरू निकाल्न, "सबै फेला पार्नुहोस्" विधि प्रयोग गर्नुहोस्। यो विधिले तपाइँलाई ट्यागको साथ तत्वहरूको एक संकलन दिनेछ। Bs4 बाट, दुबै सुन्दर सूप र अनुरोधहरू आयात गर्नुहोस्। तपाईंको कोड चलाउनुहोस् र वेबसाइटहरू वा वेब पृष्ठ प्रविष्ट गर्नुहोस् युआरएलहरू बाट बाहिर निकाल्न।

mass gmail