Skip to content

thedrads/telecomx-churn-analysis

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

62 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

📊 TelecomX - Análise de Evasão de Clientes (Churn)

🎓 Projeto acadêmico | Challenge Data Science – Alura + Oracle ONE


Abrir no Google Colab

Python Pandas Jupyter License Status

Análise completa de churn da TelecomX utilizando processo ETL + EDA, com dataset preparado para Machine Learning.


📑 Sumário


🎯 Sobre o Projeto

Este projeto foi desenvolvido como parte do Challenge Data Science da Alura em parceria com o programa Oracle Next Education (ONE).

O Problema

A TelecomX é uma empresa de telecomunicações que enfrenta um desafio crítico: alto índice de cancelamento de contratos (churn). Compreender os fatores que levam à evasão é essencial para desenvolver estratégias de retenção eficazes.

Objetivos do Challenge

  1. Extrair dados de clientes via API REST
  2. Transformar e limpar dados para análise
  3. Identificar padrões que diferenciam clientes que cancelam vs. permanecem
  4. Gerar insights acionáveis para retenção

🚀 Minha Jornada

Sou gestor financeiro com 20 anos de experiência em gestão empresarial, atualmente em transição de carreira para Data Science e Cloud Computing. Este projeto faz parte da minha formação no programa Oracle Next Education (ONE) e do MBA em IA & Análise de Dados (SENAC).

Meu objetivo aqui foi aplicar fundamentos de ETL e análise exploratória em um cenário realista, integrando minha visão de negócios com habilidades técnicas em desenvolvimento. Como iniciante em programação, busco aprender continuamente e trocar conhecimento com a comunidade.

Este repositório representa não apenas a entrega de um challenge, mas um passo concreto na construção do meu portfólio técnico — com transparência sobre meu nível atual e compromisso com a evolução constante.


🔬 Extensão: Preparação para Machine Learning

Após concluir a análise exploratória exigida pelo Challenge, identifiquei uma oportunidade de agregar valor: deixar o dataset pronto para modelagem preditiva. Essa extensão segue o framework CRISP-DM e reflete minha visão de entregar soluções completas, não apenas tarefas isoladas.

Fundamentação Técnica

O CRISP-DM (Cross-Industry Standard Process for Data Mining) é reconhecido como o modelo de analytics mais utilizado na indústria:

┌─────────────────────────────────────────────────────────────────┐
│                        CRISP-DM                                 │
├─────────────────────────────────────────────────────────────────┤
│  1. Business Understanding    ✅ Concluído                      │
│  2. Data Understanding        ✅ Concluído (EDA)                │
│  3. Data Preparation          ✅ Concluído (ETL)                │
│  4. Modeling                  🔜 Dataset preparado para esta    │
│  5. Evaluation                    etapa                         │
│  6. Deployment                                                  │
└─────────────────────────────────────────────────────────────────┘

O que foi preparado para ML

Preparação Descrição Benefício para ML
Tipos corretos Todas as colunas com dtype apropriado Evita erros de processamento
Sem valores nulos Missing values tratados Modelos não aceitam NaN
Colunas traduzidas Nomes em português padronizados Facilita interpretação
Variável target clara Coluna cancelou (Yes/No) Pronta para classificação
Dataset exportado CSV limpo disponível Importação direta

Referências


📈 Principais Resultados

Métrica Valor
Taxa de Churn 26,54%
Total de Clientes Analisados 7.043
Clientes que Cancelaram 1.869
Perda Anual Estimada US$ 2,86 milhões

Descobertas-Chave

  • 📱 Contrato mensal tem taxa de churn de 42% (vs. 3% em contratos de 2 anos)
  • 🌐 Fibra óptica apresenta churn de 42% (vs. 19% em DSL)
  • 👤 Clientes novos (0-12 meses) têm 48% de probabilidade de cancelar
  • 💳 Boleto eletrônico está associado a 45% de churn

📊 Visualizações

Distribuição Geral de Churn

Distribuição de Churn

Taxa de Churn por Tipo de Contrato

Churn por Contrato

Taxa de Churn por Tempo de Relacionamento

Churn por Tempo


📁 Estrutura do Repositório

telecomx-churn-analysis/
│
├── assets/
│   └── images/                  # Gráficos e visualizações
│       ├── churn_geral.png
│       ├── churn_contrato.png
│       └── churn_tempo.png
│
├── data/
│   └── processed/               # Dados tratados
│       └── telecom_limpo.csv
│
├── docs/                        # Documentação adicional
│   └── Challenge Telecom X - Análise de evasão de clientes.pdf
│
├── notebooks/
│   └── analise_churn_telecom.ipynb    # Notebook principal
│
├── .gitignore                   # Arquivos ignorados pelo Git
├── LICENSE                      # Licença MIT
├── README.md                    # Este arquivo
└── requirements.txt             # Dependências do projeto

🧰 Tecnologias Utilizadas

Categoria Tecnologia Versão Uso
Linguagem Python 3.10+ Base do projeto
Dados Pandas 2.0+ Manipulação e análise
Dados NumPy 1.24+ Operações numéricas
Visualização Matplotlib 3.7+ Gráficos estáticos
Visualização Seaborn 0.12+ Visualização estatística
Visualização Plotly 5.18 Gráficos interativos
HTTP Requests 2.28+ Extração via API
Ambiente Jupyter - Desenvolvimento interativo

🚀 Como Executar

Opção Rápida: Google Colab

Open In Colab

Execução Local

Pré-requisitos

  • Python 3.10 ou superior
  • pip (gerenciador de pacotes)

Instalação

  1. Clone o repositório

    git clone https://github.com/thedrads/telecomx-churn-analysis.git
    cd telecomx-churn-analysis
  2. Crie um ambiente virtual (recomendado)

    python -m venv venv
    source venv/bin/activate  # Linux/Mac
    venv\Scripts\activate     # Windows
  3. Instale as dependências

    pip install -r requirements.txt
  4. Execute o notebook

    jupyter notebook notebooks/analise_churn_telecom.ipynb

📋 Dataset

Fonte

Dados extraídos via API REST do repositório do Challenge Alura (API fictícia para fins educacionais).

Dimensões

  • Registros: 7.043 clientes
  • Variáveis: 21 características

Dicionário de Dados

Variável Original Variável Traduzida Descrição
customerID id_cliente Identificador único
gender genero Masculino/Feminino
SeniorCitizen idoso Cliente 65+ anos (0/1)
Partner tem_parceiro Possui parceiro (Yes/No)
Dependents tem_dependentes Possui dependentes (Yes/No)
tenure meses_cliente Tempo como cliente (meses)
PhoneService servico_telefone Serviço telefônico (Yes/No)
MultipleLines linhas_multiplas Múltiplas linhas
InternetService tipo_internet DSL/Fiber optic/No
OnlineSecurity seguranca_online Segurança online
OnlineBackup backup_online Backup online
DeviceProtection protecao_dispositivo Proteção de dispositivo
TechSupport suporte_tecnico Suporte técnico
StreamingTV streaming_tv Streaming de TV
StreamingMovies streaming_filmes Streaming de filmes
Contract tipo_contrato Mensal/Anual/Bienal
PaperlessBilling fatura_digital Fatura digital (Yes/No)
PaymentMethod metodo_pagamento Método de pagamento
MonthlyCharges cobranca_mensal Cobrança mensal (USD)
TotalCharges cobranca_total Cobrança total (USD)
Churn cancelou Cancelou contrato (Yes/No)

🔬 Metodologia

O projeto segue o processo ETL + EDA, alinhado às primeiras fases do framework CRISP-DM:

1. Extract (Extração)

  • Conexão com API REST
  • Download de dados JSON
  • Conversão para DataFrame

2. Transform (Transformação)

  • Normalização de estruturas aninhadas
  • Tradução de colunas para português
  • Tratamento de valores ausentes
  • Conversão de tipos de dados
  • Remoção de duplicatas

3. Load (Carga)

  • Exportação do dataset limpo (CSV)
  • Validação de integridade

4. EDA (Análise Exploratória)

  • Análise univariada e bivariada
  • Visualizações estatísticas
  • Identificação de padrões de churn
  • Geração de insights acionáveis

💡 Insights e Recomendações

Fatores de Alto Risco para Churn

Fator Taxa de Churn Recomendação
Contrato mensal 42% Incentivar migração para contratos anuais
Fibra óptica 42% Investigar qualidade do serviço
Sem suporte técnico 41% Incluir suporte básico gratuito
Clientes novos (0-12 meses) 48% Programa de onboarding intensivo
Boleto eletrônico 45% Oferecer desconto para débito automático

Perspectiva de Negócio

Com base na minha experiência em gestão financeira, destaco que a perda anual estimada de US$ 2,86M representa não apenas receita perdida, mas também custo de aquisição desperdiçado. Em telecomunicações, o CAC (Customer Acquisition Cost) tipicamente varia de 5x a 25x o valor da retenção — o que torna programas de fidelização significativamente mais rentáveis que campanhas de aquisição.

A concentração de churn em clientes novos (0-12 meses) sugere falhas no processo de onboarding e primeira experiência, pontos críticos onde intervenções têm alto ROI.

Plano de Ação Recomendado

  1. Curto Prazo: Campanhas de retenção para clientes com contrato mensal
  2. Médio Prazo: Revisão da qualidade do serviço de fibra óptica
  3. Longo Prazo: Desenvolvimento de modelo preditivo de churn (dataset já preparado)

🤖 Declaração de Uso de IA

Este projeto foi desenvolvido com assistência de Inteligência Artificial Generativa.

Escopo de Utilização

  • Estruturação e organização do código seguindo PEP 8 e PEP 257
  • Revisão de boas práticas em Data Science
  • Sugestões de formatação e documentação
  • Assistência na análise metodológica

Responsabilidade

Todo o conteúdo final — códigos, análises, insights, decisões técnicas e conclusões — foi integralmente revisado, validado e aprovado pelo autor. A IA foi utilizada como ferramenta de apoio ao desenvolvimento, complementando o trabalho intelectual, não o substituindo.

Referências sobre Disclosure de IA

Este projeto está alinhado à minha formação contínua em IA aplicada aos negócios, incluindo cursos como IA Aplicada aos Negócios – FGV e Generative AI for Productivity – Cornell.


👤 Autor

Fábio Andrade
Fábio Andrade

LinkedIn GitHub


📄 Licença

Este projeto está sob a licença MIT — consulte LICENSE para detalhes.


Desenvolvido por Fábio Andrade | Aberto a feedbacks e contribuições

About

Análise de churn em telecomunicações com Python, Pandas e ETL. Projeto acadêmico (Alura + Oracle ONE) com dataset preparado para Machine Learning. EDA completa, insights acionáveis e documentação profissional.

Topics

Resources

License

Stars

Watchers

Forks

Contributors