Enunciado
Durante a preparação de um conjunto de dados para análise preditiva de inadimplência, um cientista de dados identificou diversos problemas de qualidade nos dados, incluindo:
• campos numéricos com valores negativos que não fazem sentido (como "idade" ou "renda");
• colunas categóricas com múltiplas grafias para a mesma categoria (ex: "PE", "pe", "Pernambuco");
• presença de valores nulos em campos-chave como “renda” e “número de dependentes”;
• valores repetidos na chave primária “ID cliente”.
Com base nas dimensões de qualidade de dados e nas boas práticas de tratamento com Python - especialmente usando Pandas -, é correto afirmar que a:
Alternativas
- A
validação para garantir que a idade não seja negativa é uma verificação de conformidade e pode ser realizada no Pandas, utilizando filtros booleanos.
- B
detecção e remoção de duplicatas de chave primária atende à dimensão de completude, e deve ser feita usando dropna.
- C
padronização de grafias em colunas categóricas está relacionada à dimensão de integridade, enquanto o tratamento de nulos se refere à unicidade.
- D
substituição de valores nulos por zero é recomendada em todos os casos, pois preserva a precisão dos dados para modelagem.
- E
coluna com grafias variadas não compromete a análise, desde que os dados estejam completos, pois está dentro da acurácia esperada.
Gabarito e comentário disponíveis apenas dentro do Mentorito.
Faça login para ver a explicação completa do mentor.