Query Pandas: Essential Techniques for Data Manipulation
Pandas - это библиотека для анализа данных на языке Python. Она предоставляет инструменты для работы с табличными данными, такими как SQL, но с большей гибкостью и мощностью.
Для работы с данными в Pandas используется объект DataFrame - это таблица, в которой каждый столбец может иметь различный тип данных (числа, строки, даты и т.д.). Кроме того, Pandas предоставляет возможность индексации данных, их сортировки, фильтрации, агрегации и группировки.
Наиболее часто используемые методы для выполнения запросов в Pandas включают:
- read_csv(): загрузка данных из файла CSV в объект DataFrame
- head(): вывод первых строк таблицы
- tail(): вывод последних строк таблицы
- info(): вывод информации о таблице, включая количество строк и столбцов, типы данных и размер памяти, занимаемый таблицей
- describe(): вывод сводной статистики по числовым столбцам таблицы, включая среднее значение, стандартное отклонение, минимальное и максимальное значение и другие характеристики
- loc[] и iloc[]: индексация и выбор подмножества данных по строкам и столбцам
- groupby(): группировка данных по значениям столбца или нескольких столбцов и выполнение агрегирующих операций (например, sum(), mean(), count() и т.д.)
- merge(): объединение двух таблиц по заданным столбцам
Пример кода:
import pandas as pd
# загрузка таблицы из файла CSV
data = pd.read_csv('data.csv')
# вывод первых 5 строк таблицы
print(data.head())
# вывод информации о таблице
print(data.info())
# вывод сводной статистики по числовым столбцам
print(data.describe())
# выбор подмножества данных по индексу строк и столбцов
print(data.loc[10:20, ['name', 'age', 'gender']])
# группировка данных по столбцу 'gender' и выполнение операции подсчета
print(data.groupby('gender').count())
# объединение таблиц по столбцу 'id'
data1 = pd.DataFrame({'id': [1, 2, 3], 'value': [10, 20, 30]})
data2 = pd.DataFrame({'id': [2, 3, 4], 'value': [20, 30, 40]})
merged_data = pd.merge(data1, data2, on='id', how='outer')
print(merged_data)