Использование метода dropna в Pandas
Метод dropna() является одним из наиболее часто используемых методов библиотеки Pandas при работе с данными в Python. Этот метод предназначен для удаления всех строк, содержащих хотя бы одно отсутствующее значение (NaN).
Синтаксис метода dropna():
DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
- axis: ось, по которой выполняется удаление (стандартное значение 0 означает удаление строк, 1 - удаление столбцов).
- how: способ удаления строк или столбцов. Может принимать значения "any" (удаление строк/столбцов, содержащих хотя бы один NaN), "all" (удаление строк/столбцов, содержащих только NaN) или "index"/"columns" (удаление строк/столбцов, содержащих хотя бы один/только NaN).
- thresh: минимальное число ненулевых элементов, которые должны быть в строке/столбце, чтобы она не была удалена.
- subset: список столбцов, по которым выполняется проверка на наличие NaN.
- inplace: если значение True, то изменения внесутся в исходный DataFrame, если False - возвратится новый DataFrame.
Примеры использования метода dropna():
1. Удаление всех строк, содержащих NaN:
import pandas as pd
df = pd.DataFrame({'A': [1, 2, np.nan, 4], 'B': [5, 6, 7, np.nan], 'C': [9, 10, 11, 12]})
df.dropna()
# Результат:
# A B C
# 0 1.0 5.0 9
# 1 2.0 6.0 10
2. Удаление всех столбцов, содержащих хотя бы один NaN:
df.dropna(axis=1)
# Результат:
# C
# 0 9
# 1 10
# 2 11
# 3 12
3. Удаление строк, содержащих только NaN:
df.dropna(how='all')
# Результат:
# A B C
# 0 1.0 5.0 9
# 1 2.0 6.0 10
# 2 NaN 7.0 11
# 3 4.0 NaN 12
4. Удаление всех строк, в которых отсутствуют значения в столбцах "A" и "B":
df.dropna(subset=['A', 'B'])
# Результат:
# A B C
# 0 1.0 5.0 9
# 1 2.0 6.0 10
5. Изменение исходного DataFrame с помощью параметра inplace:
df.dropna(inplace=True)
# Изначальный DataFrame теперь пустой.