5 FORMAS DE LIDAR COM DADOS ERRADOS

Você provavelmente já ouviu a promessa da utopia do Big Data, onde toda decisão de negócio é tomada com base em dados. Ao invés disso, recebeu relatórios com dados não confiáveis, ou escutou um cliente acusar que há dados incorretos em um dashboard que você tem certeza que está impecável.

Ingrid Pino
5 min readJan 17, 2019

Ninguém quer tomar decisões baseadas em dados, se desconfia que não estão corretos. É como encontrar uma mosca na sua sopa de dados. Por isso, um dos principais desafios para qualquer pessoa que trabalha com dados é a qualidade e integridade destes.

Agora respire fundo. Vou guiar você pra sair desse pesadelo de números que não batem com as expectativas. Tanto se você precisa tomar decisões baseadas em dados, quanto se seu trabalho é entregá-los para quem tem esse poder, as cinco questões abaixo ajudam a lidar com números “errados”.

1. Estão comparando maçãs e bananas?

Não é à toa que os nerds de dados sempre usam a expressão “comparar banana com maçã”, como metáfora para comparações absurdas entre dados. Para analisar as vendas de frutas, se você medir as vendas de maçãs enquanto o cliente mede as vendas de bananas, os números não vão bater.

Para evitar esse tipo de erro, sempre defina seus dados de forma apropriada. Especifique no relatório ou dashboard:

  • a fonte dos dados;
  • o período de mensuração;
  • a definição da métrica;
  • quais métricas de base compõe o KPI e como foi calculado;
  • qualquer filtro e segmento que foi aplicado.

Claro que muitas vezes a confusão feita ao comparar os dados não é tão óbvia. Cada ferramenta pode atribuir um mesmo nome para certa métrica ou KPI e usar cálculos ou métodos de mensuração um pouco diferentes.

Aliás, tenha em mente que algumas métricas podem variar conforme o momento em que os dados foram processados, então sempre confira as especificações da ferramenta para limites de processamento.

2. Como os dados estão sendo validados?

Garanta que tudo está configurado corretamente: tanto a mensuração na fonte de dados, quanto a extração e tratamento deles. Se os dados entrando no dashboard estão “sujos”, não dá pra esperar bons resultados das decisões tomadas com eles.

Para identificar e evitar erros no tratamento de dados, é necessário ter processos claros para validar seus dados e ter certeza que estão corretos. Validar significa comparar o que é esperado com os valores reais, por exemplo:

  • Os dados no dashboard ou relatório estão iguais aos dados na fonte de dados?
  • Como os cálculos foram feitos?
  • Quais filtros, segmentos e período foram aplicados?

Se mesmo depois dessas perguntas ainda não há clareza:

  • Refaça os passos para conseguir os valores finais e revise cuidadosamente.
  • Peça uma segunda opinião para um colega: é sempre saudável olhar por perspectivas diferentes.

Sempre que possível, evite dores de cabeça desnecessárias e automatize a validação. O primeiro passo para automatizar a validação de dados é determinar parâmetros claros para o que é esperado dos dados. Então construa funções que façam a comparação, dependendo das ferramentas e da linguagem de programação usadas para tratar os dados.

Esse é um exemplo bem simples de função SE (função IF) para validar se as ‘HorasDiarias’ em um intervalo são iguais ou menores que 8:

SE ( ‘HorasDiarias’ <= 8, ‘Ok’,‘ Revisar valores’)

Um tipo específico de validação que vale a pena automatizar é conferir a taxonomia. Nesse caso, deve haver uma lista de nomes convencionados como corretos para comparar com os dados reais.

Uma validação de taxonomia teria evitado valores inapropriados, como nome dos meses ou tipos de dispositivo, no menu do filtro de idioma…

Validação automatizada é um jeito inteligente de entender o quanto você pode confiar no seu dashboard, e também a urgência para corrigir seus dados.

3. O dado está errado ou só esquisito?

Se os dados não estão de acordo com a expectativa, a maior parte das pessoas tiram conclusões precipitadas, como dizer “os dados não estão batendo” ou “o dashboard está errado”. Como é frustrante ouvir isso! Seus dados têm o “direito” de ser considerados “inocentes” até que se prove o contrário…

O fato é que os dados podem estar apenas um pouco estranhos, não necessariamente errados. Às vezes há problemas na mensuração que podem estar além da correção, ou fatores externos que podem afetar os dados. É importante pesquisar as causas que explicam por que os dados estão se comportando diferente do esperado, antes de tirar qualquer conclusão.

O desafio aqui é cultivar e espalhar essa mentalidade:

Antes de declarar que os dados estão errados só porque não estão conforme o esperado, questione e investigue o que aconteceu.

4. O dado está realmente errado?

Infelizmente, de vez em quando os dados podem estar errados mesmo. Isso pode acontecer por várias razões, como existir uma lacuna de conhecimento sobre como tratar os dados, ou por distração, e até mesmo por falta de processos apropriados de validação durante a configuração da coleta e tratamento.

Identifique por que os dados estão errados, usando processos de validação similares aos descritos acima, e corrija o erro. Explique a situação, reconheça o erro e peça desculpas a todos que foram afetados. Entenda as consequências do erro e trabalhe para reverter ou amenizar os danos.

Aprenda com o erro, ensine outras pessoas e documente seus aprendizados. E então siga em frente.

5. O dado está “errado” de forma consistente?

E se você souber que seu KPI estará sempre por volta de 5% acima do que seriam os dados corretos, por conta de desafios na mensuração que não é possível corrigir com as ferramentas disponíveis?

Esses dados ainda podem ser úteis para monitorar tendências.

Confesso que, como perfeccionista, foi difícil me acostumar com essa mentalidade. Mas isso ajuda a ser uma analista mais resiliente e capaz de espremer todo o valor que os dados podem entregar, mesmo quando não são 100% precisos.

Para resumir:

  • Sempre defina seus dados adequadamente, e não compare maçãs com bananas;
  • Garanta um processo de validação em todos os passos do tratamento de dados;
  • Questione e investigue antes de declarar que os dados estão errados;
  • Reconheça os erros e trabalhe para reverter ou amenizar as consequências;
  • Seja resiliente e use todo o valor que os dados podem ter.

Em conclusão, se há uma mosca na sua sopa de dados, não aceite. Mas não deixe que o dia seja estragado por causa de números estranhos em relatórios e dashboards! Tenha em mente as cinco perguntas deste artigo e você ficará muito menos estressado na próxima vez que surgir um desafio de lidar com dados “errados”.

--

--