Questão FGV · TCE PE · 2025 — mentorito

FGVTCE PE2025TI - Ciência de Dados e Inteligência ArtificialPandas

Enunciado

Durante a preparação de um conjunto de dados para análise preditiva de inadimplência, um cientista de dados identificou diversos problemas de qualidade nos dados, incluindo:

• campos numéricos com valores negativos que não fazem sentido (como "idade" ou "renda");

• colunas categóricas com múltiplas grafias para a mesma categoria (ex: "PE", "pe", "Pernambuco");

• presença de valores nulos em campos-chave como “renda” e “número de dependentes”;

• valores repetidos na chave primária “ID cliente”.

Com base nas dimensões de qualidade de dados e nas boas práticas de tratamento com Python - especialmente usando Pandas -, é correto afirmar que a:

Alternativas

A
validação para garantir que a idade não seja negativa é uma verificação de conformidade e pode ser realizada no Pandas, utilizando filtros booleanos.
B
detecção e remoção de duplicatas de chave primária atende à dimensão de completude, e deve ser feita usando dropna.
C
padronização de grafias em colunas categóricas está relacionada à dimensão de integridade, enquanto o tratamento de nulos se refere à unicidade.
D
substituição de valores nulos por zero é recomendada em todos os casos, pois preserva a precisão dos dados para modelagem.
E
coluna com grafias variadas não compromete a análise, desde que os dados estejam completos, pois está dentro da acurácia esperada.

Gabarito e comentário disponíveis apenas dentro do Mentorito.

Responder no Mentorito ← Voltar ao acervo

Faça login para ver a explicação completa do mentor.

Questões relacionadas