Работа с bs4: синтаксис и примеры использования
BS4 (BeautifulSoup4) - это библиотека для Python, которая используется для извлечения информации из HTML и XML файлов.
Одной из ключевых задач, которые возможно выполнить с помощью BS4, является извлечение данных из веб-страниц. Примеры данных, которые могут быть извлечены с помощью BS4, включают в себя заголовки, тексты, изображения, ссылки, таблицы и так далее.
Рассмотрим некоторые примеры кода, демонстрирующие использование BS4 для извлечения данных из HTML файлов:
1. Извлечение заголовка страницы
python
from bs4 import BeautifulSoup
import requests
page = requests.get("http://www.example.com")
soup = BeautifulSoup(page.content, 'html.parser')
page_title = soup.title.text
print(page_title)
2. Извлечение всех ссылок на странице
python
from bs4 import BeautifulSoup
import requests
page = requests.get("http://www.example.com")
soup = BeautifulSoup(page.content, 'html.parser')
links = []
for link in soup.find_all('a', href=True):
links.append(link['href'])
print(links)
3. Извлечение всех изображений на странице
python
from bs4 import BeautifulSoup
import requests
page = requests.get("http://www.example.com")
soup = BeautifulSoup(page.content, 'html.parser')
images = []
for img in soup.find_all('img'):
images.append(img['src'])
print(images)
4. Извлечение определенной информации из таблицы
python
from bs4 import BeautifulSoup
import requests
page = requests.get("http://www.example.com")
soup = BeautifulSoup(page.content, 'html.parser')
table = soup.find('table')
data = []
for row in table.find_all('tr'):
columns = row.find_all('td')
data.append([column.text.strip() for column in columns])
print(data)
Код выше демонстрирует, как легко можно извлечь данные из HTML файлов с помощью BS4. Он позволяет выполнить широкий спектр задач, таких как извлечение заголовков, ссылок, таблиц, изображений и многого другого. BS4 является очень мощным инструментом, который может быть использован для анализа и извлечения данных из различных видов файлов HTML и XML.