Чтение CSV-файлов с помощью Pandas: как считать и обработать данные?
pd.read_csv - это функция библиотеки Pandas, которую используют для чтения данных из файлов формата CSV (Comma-Separated Values). Функция позволяет считывать данные из файлов с различными разделителями, такими как запятые, точки с запятой, табуляции и другие.
Пример:
python
import pandas as pd
# считываем данные из файла в датафрейм
data = pd.read_csv('file.csv')
# выводим первые 5 строк датафрейма
print(data.head())
В данном примере мы импортировали библиотеку Pandas и с помощью функции `pd.read_csv()` считали данные из файла 'file.csv' в переменную `data` в виде датафрейма.
Далее мы вывели первые 5 строк датафрейма с помощью метода `.head()`. Этот метод используется для вывода первых n строк датафрейма (5 по умолчанию).
Функция `pd.read_csv()` имеет множество параметров, которые можно использовать для настройки чтения данных. Например, можно указать разделитель столбцов с помощью параметра `sep`, заголовки столбцов с помощью параметра `header`, установить индекс датафрейма с помощью параметра `index_col` и т.д.
Пример:
python
import pandas as pd
# считываем данные из файла с разделителем ";"
data = pd.read_csv('file.csv', sep=';')
# устанавливаем столбец 'id' как индекс датафрейма
data.set_index('id', inplace=True)
# выводим первые 5 строк датафрейма
print(data.head())
В данном примере мы использовали параметр `sep` для указания разделителя столбцов ";" (вместо запятой по умолчанию). Затем мы установили столбец 'id' как индекс датафрейма с помощью метода `.set_index()`. И наконец, мы вывели первые 5 строк датафрейма с помощью метода `.head()`.