logo

Lecture du contenu d'une page Web sélectionnée à l'aide de Python Web Scraping

Condition préalable: Télécharger des fichiers en Python Scraping Web avec BeautifulSoup Nous savons tous que Python est un langage de programmation très simple, mais ce qui le rend cool, c'est le grand nombre de bibliothèques open source écrites pour lui. Requests est l’une des bibliothèques les plus utilisées. Il nous permet d'ouvrir n'importe quel site Web HTTP/HTTPS et de faire tout type de choses que nous faisons normalement sur le Web et peut également enregistrer des sessions, par exemple des cookies. Comme nous le savons tous, une page Web n'est qu'un morceau de code HTML envoyé par le serveur Web à notre navigateur, qui à son tour se transforme en une belle page. Nous avons maintenant besoin d'un mécanisme pour mettre la main sur le code source HTML, c'est-à-dire trouver des balises particulières avec un package appelé BeautifulSoup. Installation:
pip3 install requests 
pip3 install beautifulsoup4 

On prend un exemple en lisant un site d'actualité Temps de l'Hindoustan

Le code peut être divisé en trois parties.
  • Demander une page Web
  • Inspection des balises
  • Imprimez le contenu approprié
Mesures:
    Demander une page Web :Nous voyons d'abord un clic droit sur le texte de l'actualité pour voir le code source Lecture du contenu d'une page Web sélectionnée à l'aide de Python Web Scraping' title= Inspection des balises :Nous devons déterminer dans quel corps du code source contient la section d'actualités que nous souhaitons supprimer. C'est la liste non ordonnée 'searchNews' sous uli.e qui contient la section actualités. Lecture du contenu d'une page Web sélectionnée à l'aide de Python Web Scraping' title= Remarque Le texte de l'actualité est présent dans la partie texte de la balise d'ancrage. Une observation attentive nous donne l'idée que toutes les actualités sont dans les balises list du tag non ordonné. Lecture du contenu d'une page Web sélectionnée à l'aide de Python Web Scraping' title= Imprimez le contenu approprié : The content is printed with the help of code given below. Python
    import requests from bs4 import BeautifulSoup def news(): # the target we want to open  url='http://www.hindustantimes.com/top-news' #open with GET method resp=requests.get(url) #http_respone 200 means OK status if resp.status_code==200: print('Successfully opened the web page') print('The news are as follow :-n') # we need a parserPython built-in HTML parser is enough . soup=BeautifulSoup(resp.text'html.parser') # l is the list which contains all the text i.e news  l=soup.find('ul'{'class':'searchNews'}) #now we want to print only the text part of the anchor. #find all the elements of a i.e anchor for i in l.findAll('a'): print(i.text) else: print('Error') news() 

    Sortir

    âge rekha
    Successfully opened the web page The news are as follow :- Govt extends toll tax suspension use of old notes for utility bills extended till Nov 14 Modi Abe seal historic civil nuclear pact: What it means for India Rahul queues up at bank says it is to show solidarity with common man IS kills over 60 in Mosul victims dressed in orange and marked 'traitors' Rock On 2 review: Farhan Akhtar Arjun Rampal's band hasn't lost its magic Rumours of shortage in salt supply spark panic among consumers in UP Worrying truth: India ranks first in pneumonia diarrhoea deaths among kids To hell with romance here's why being single is the coolest way to be India vs England: Cheteshwar Pujara Murali Vijay make merry with tons in Rajkot Akshay-Bhumi SRK-Alia Ajay-Parineeti: Age difference doesn't matter anymore Currency ban: Only one-third have bank access; NE backward regions worst hit Nepal's central bank halts transactions with Rs 500 Rs 1000 Indian notes Political upheaval in Punjab after SC tells it to share Sutlej water Let's not kid ourselves with Trump what we have seen is what we will get Want to colour your hair? Try rose gold the hottest hair trend this winter 

Références



Créer un quiz