Aula 9 - Pandas em Python: O Guia Definitivo para Análise de Dados
Se você trabalha com análise de dados, precisa conhecer o Pandas, uma das bibliotecas mais poderosas e populares do Python. Com ela, você pode manipular, transformar e analisar grandes volumes de dados de forma eficiente. Neste guia completo, você aprenderá os conceitos essenciais do Pandas, desde a instalação até operações avançadas com DataFrames, Series e tratamento de dados ausentes.
PYTHON
Prof. Leonardo Gomes Guidolin
4/4/20252 min ler
O que é Pandas?
O Pandas é uma biblioteca de código aberto para manipulação e análise de dados em Python. Ele fornece estruturas de dados poderosas, como:
✔️ Series – Estruturas unidimensionais, semelhantes a listas.
✔️ DataFrames – Tabelas bidimensionais, semelhantes a planilhas do Excel.
✔️ Panel (descontinuado) – Estruturas tridimensionais, substituídas por DataFrames MultiIndex.
Essa biblioteca é amplamente utilizada em ciência de dados, machine learning, big data e ETL (Extração, Transformação e Carga de Dados).
Como Instalar o Pandas
Antes de começar, você precisa instalar o Pandas. Se ainda não o fez, use o seguinte comando:
pip install pandas
Após a instalação, importe a biblioteca no seu código:
import pandas as pd
Criando e Manipulando DataFrames
Criando um DataFrame a partir de um dicionário:
import pandas as pd
dados = { "Nome": ["Ana", "Carlos", "Maria"],
"Idade": [25, 30, 22],
"Cidade": ["São Paulo", "Rio de Janeiro", "Belo Horizonte"] }
df = pd.DataFrame(dados) print(df)
Criando um DataFrame a partir de uma lista de listas:
df = pd.DataFrame([ ["Ana", 25, "São Paulo"],
["Carlos", 30, "Rio de Janeiro"],
["Maria", 22, "Belo Horizonte"] ], columns=["Nome", "Idade", "Cidade"])
print(df)
Lendo e Salvando Arquivos com Pandas
O Pandas permite ler e salvar arquivos em diversos formatos, incluindo CSV, Excel, JSON e SQL.
Lendo arquivos CSV:
df = pd.read_csv("dados.csv")
print(df.head()) # Exibe as primeiras linhas do DataFrame
Salvando um DataFrame como CSV:
df.to_csv("dados_modificados.csv", index=False)
Lendo arquivos Excel:
df = pd.read_excel("dados.xlsx")
Salvando um DataFrame como Excel:
df.to_excel("dados_modificados.xlsx", index=False)
Filtrando e Manipulando Dados
O Pandas permite aplicar filtros e transformações nos dados de forma eficiente.
Filtrando dados com base em condições:
filtro = df[df["Idade"] > 25]
print(filtro)
Selecionando colunas específicas:
nomes = df["Nome"]
print(nomes)
Adicionando novas colunas:
df["Salário"] = [3000, 4000, 2500]
print(df)
Removendo colunas:
df = df.drop(columns=["Cidade"]) print(df)
Lidando com Dados Ausentes
É comum que conjuntos de dados contenham valores ausentes. O Pandas facilita a identificação e o tratamento desses valores.
Identificando valores ausentes:
print(df.isnull().sum())
Removendo linhas com valores ausentes:
df = df.dropna()
Preenchendo valores ausentes com um valor específico:
df.fillna("Desconhecido", inplace=True)
Principais Funções do Pandas
🔹 df.head(n): Exibe as n primeiras linhas do DataFrame.
🔹 df.tail(n): Exibe as n últimas linhas do DataFrame.
🔹 df.info(): Mostra informações gerais sobre o DataFrame.
🔹 df.describe(): Retorna estatísticas descritivas.
🔹 df["coluna"].unique(): Obtém valores únicos de uma coluna.
🔹 df.sort_values(by="coluna"): Ordena os dados por uma coluna específica.
🔹 df.groupby("coluna").mean(): Agrupa os dados e calcula a média.
Trabalhando com Estatísticas no Pandas
O Pandas fornece funções estatísticas para analisar dados rapidamente.
Média, mediana e desvio padrão:
media = df["Idade"].mean()
mediana = df["Idade"].median()
desvio_padrao = df["Idade"].std()
print(f"Média: {media}, Mediana: {mediana}, Desvio Padrão: {desvio_padrao}")
Contagem de valores distintos em uma coluna:
contagem = df["Cidade"].value_counts()
print(contagem)
Melhores Práticas ao Usar o Pandas
✔️ Trabalhe com subconjuntos de dados para evitar uso excessivo de memória.
✔️ Otimize operações em colunas em vez de iterar sobre linhas.
✔️ Utilize funções do Pandas em vez de loops para melhor desempenho.
✔️ Evite modificar DataFrames originais diretamente, use .copy() quando necessário.
✔️ Use o Pandas junto com bibliotecas como NumPy e Matplotlib para análises mais poderosas.
Conclusão
O Pandas é uma ferramenta essencial para qualquer profissional que trabalha com dados. Com ele, você pode ler, transformar, visualizar e analisar informações de forma eficiente.
Se você quer se aprofundar em ciência de dados, dominar o Pandas é um passo fundamental.
Gostou do conteúdo? Compartilhe e continue acompanhando o Codando do Zero para mais dicas sobre Python e análise de dados! 🚀