Português (BR)

Português (BR)

Aula 9 - Pandas em Python: O Guia Definitivo para Análise de Dados

Se você trabalha com análise de dados, precisa conhecer o Pandas, uma das bibliotecas mais poderosas e populares do Python. Com ela, você pode manipular, transformar e analisar grandes volumes de dados de forma eficiente. Neste guia completo, você aprenderá os conceitos essenciais do Pandas, desde a instalação até operações avançadas com DataFrames, Series e tratamento de dados ausentes.

PYTHON

Prof. Leonardo Gomes Guidolin

4/4/20252 min ler

O que é Pandas?

O Pandas é uma biblioteca de código aberto para manipulação e análise de dados em Python. Ele fornece estruturas de dados poderosas, como:

✔️ Series – Estruturas unidimensionais, semelhantes a listas.

✔️ DataFrames – Tabelas bidimensionais, semelhantes a planilhas do Excel.

✔️ Panel (descontinuado) – Estruturas tridimensionais, substituídas por DataFrames MultiIndex.

Essa biblioteca é amplamente utilizada em ciência de dados, machine learning, big data e ETL (Extração, Transformação e Carga de Dados).

Como Instalar o Pandas

Antes de começar, você precisa instalar o Pandas. Se ainda não o fez, use o seguinte comando:

pip install pandas

Após a instalação, importe a biblioteca no seu código:

import pandas as pd

Criando e Manipulando DataFrames

Criando um DataFrame a partir de um dicionário:

import pandas as pd

dados = { "Nome": ["Ana", "Carlos", "Maria"],

"Idade": [25, 30, 22],

"Cidade": ["São Paulo", "Rio de Janeiro", "Belo Horizonte"] }

df = pd.DataFrame(dados) print(df)

Criando um DataFrame a partir de uma lista de listas:

df = pd.DataFrame([ ["Ana", 25, "São Paulo"],

["Carlos", 30, "Rio de Janeiro"],

["Maria", 22, "Belo Horizonte"] ], columns=["Nome", "Idade", "Cidade"])

print(df)

Lendo e Salvando Arquivos com Pandas

O Pandas permite ler e salvar arquivos em diversos formatos, incluindo CSV, Excel, JSON e SQL.

Lendo arquivos CSV:

df = pd.read_csv("dados.csv")

print(df.head()) # Exibe as primeiras linhas do DataFrame

Salvando um DataFrame como CSV:

df.to_csv("dados_modificados.csv", index=False)

Lendo arquivos Excel:

df = pd.read_excel("dados.xlsx")

Salvando um DataFrame como Excel:

df.to_excel("dados_modificados.xlsx", index=False)

Filtrando e Manipulando Dados

O Pandas permite aplicar filtros e transformações nos dados de forma eficiente.

Filtrando dados com base em condições:

filtro = df[df["Idade"] > 25]

print(filtro)

Selecionando colunas específicas:

nomes = df["Nome"]

print(nomes)

Adicionando novas colunas:

df["Salário"] = [3000, 4000, 2500]

print(df)

Removendo colunas:

df = df.drop(columns=["Cidade"]) print(df)

Lidando com Dados Ausentes

É comum que conjuntos de dados contenham valores ausentes. O Pandas facilita a identificação e o tratamento desses valores.

Identificando valores ausentes:

print(df.isnull().sum())

Removendo linhas com valores ausentes:

df = df.dropna()

Preenchendo valores ausentes com um valor específico:

df.fillna("Desconhecido", inplace=True)

Principais Funções do Pandas

🔹 df.head(n): Exibe as n primeiras linhas do DataFrame.

🔹 df.tail(n): Exibe as n últimas linhas do DataFrame.

🔹 df.info(): Mostra informações gerais sobre o DataFrame.

🔹 df.describe(): Retorna estatísticas descritivas.

🔹 df["coluna"].unique(): Obtém valores únicos de uma coluna.

🔹 df.sort_values(by="coluna"): Ordena os dados por uma coluna específica.

🔹 df.groupby("coluna").mean(): Agrupa os dados e calcula a média.

Trabalhando com Estatísticas no Pandas

O Pandas fornece funções estatísticas para analisar dados rapidamente.

Média, mediana e desvio padrão:

media = df["Idade"].mean()

mediana = df["Idade"].median()

desvio_padrao = df["Idade"].std()

print(f"Média: {media}, Mediana: {mediana}, Desvio Padrão: {desvio_padrao}")

Contagem de valores distintos em uma coluna:

contagem = df["Cidade"].value_counts()

print(contagem)

Melhores Práticas ao Usar o Pandas

✔️ Trabalhe com subconjuntos de dados para evitar uso excessivo de memória.

✔️ Otimize operações em colunas em vez de iterar sobre linhas.

✔️ Utilize funções do Pandas em vez de loops para melhor desempenho.

✔️ Evite modificar DataFrames originais diretamente, use .copy() quando necessário.

✔️ Use o Pandas junto com bibliotecas como NumPy e Matplotlib para análises mais poderosas.

Conclusão

O Pandas é uma ferramenta essencial para qualquer profissional que trabalha com dados. Com ele, você pode ler, transformar, visualizar e analisar informações de forma eficiente.

Se você quer se aprofundar em ciência de dados, dominar o Pandas é um passo fundamental.

Gostou do conteúdo? Compartilhe e continue acompanhando o Codando do Zero para mais dicas sobre Python e análise de dados! 🚀