Texto de Amanda Makulec, originalmente publicado no Nightingale, blog da Data Visualization Society, que gentilmente permitiu a tradução em português no site da Escola de Dados.

Para resumir, visualize com responsabilidade — #vizresponsibly; o que pode significar não publicar de forma alguma as suas visualizações em domínios públicos.

Equipes estão criando conjuntos de dados prontos para uso sobre a Covid-19, facilmente acessíveis para a extensa comunidade de visualização e análise de dados. A Universidade Johns Hopkins posta atualizações de dados frequentemente na página do GitHub e o Tableau criou o “Covid-19 Resource Hub” com os mesmos dados, remodelados para uso dentro da plataforma.

Esses recursos públicos são imensamente úteis para profissionais da saúde pública e autoridades que estão respondendo a respeito da epidemia. Eles facilitar o uso de dados de múltiplas fontes, o que pode habilitar um rápido desenvolvimento de visualizações de dados dos números de casos locais e seus impactos.

Ao mesmo tempo, está em jogo algo muito importante quando nos comunicamos com o público em geral sobre essa epidemia. Visualizações de dados são poderosas para comunicar informações, mas também podem ludibriar, desinformar, e – no pior dos casos – incitar pânico. Nós estamos em meio a uma completa sobrecarga de informações, com atualizações de casos hora após hora e intermináveis fluxos de informação.

Como uma profissional da saúde pública, devo perguntar:

Por favor, considere se o que você criou atende uma necessidade real de informação no domínio público. Isso agrega algum valor ou revela alguma nova informação?

Se a resposta for não, talvez isso seja uma visualização somente para o seu próprio uso.

Nós queremos ajudar a achatar a curva e minimizar a tensão do nosso sistema de saúde. A melhor maneira de fazer isso é tomar atitudes individuais para diminuir a velocidade da transmissão – como lavar as mãos e se colocar de quarentena caso tenha sido exposto – e amplificar vozes de especialistas.

Fonte: Tweet de Dr Siouxsie Wiles

Se mesmo depois de ler todas essas advertências e alertas sobre o mal e o pânico, que podem ser causados por visualizações de dados mal conduzidas, você ainda decidir explorar e visualizar dados sobre a Covid-19, aqui estão 10 considerações para o progresso do seu projeto.


10 Considerações para quando realizar visualizações de dados sobre a Covid-19

1. Faça mais para entender os números do que apenas fazer o download e focar direto no conjunto de dados

As informações disponíveis sobre os casos da Covid-19 não são uma base de dados para usar no piloto automático e para brincar com diferentes conceitos de gráficos, especialmente se você planeja publicar em domínio público.

Revise os recursos sobre a COVID-19 e o SARS-CoV2 (o novo coronavírus que causa a doença). Comece com a página especial do CDC (Centers for Disease Control and Prevention), e explore mais na página de recursos sobre Coronavírus da Johns Hopkins.

É uma boa prática sempre entender o contexto dos dados que você está trabalhando, mas isso é essencial ao criar e compartilhar visualizações durante uma epidemia em que as mesmas têm o potencial de incitar pânico da mesma forma que elas têm de informar.

2. Os números de casos são fontes de dados prontamente disponíveis, minuciosas e atualizadas rotineiramente, mas isso não os torna simples de fazer visualizações

Você pode encontrar os números de casos por meio de fontes primárias (por exemplo, CDC, Ministérios da Saúde, departamentos estaduais de saúde pública e outras agências que coletam os dados) e conjuntos de dados agregados (por exemplo, o conjunto de dados subjacentes do painel de operações do Johns Hopkins COVID-19).

Os números dos casos parecem se prestar bem aos mapas e têm a vantagem de serem muito locais para responderem à pergunta: “Existem casos perto de onde eu moro / onde eu viajei / onde estou pensando em ir?” – mas as visualizações desses números podem facilmente enganar.

Seja claro sobre quais tipos de casos são representados – você pode encontrar as definições de casos no site da OMS. Se você for pelo caminho da construção de um mapa, reveja as recomendações detalhadas de Kenneth Field para mapear a Covid-19 antes de criar o seu próprio. (Veja mais informações específicas sobre gráficos no item 5 abaixo).

Exemplos do “Mapeando o coronavírus, responsavelmente”, do Kenneth Field. O mapa à esquerda representa um exemplo de mapa falho, em comparação com a versão à direita, que utiliza corretamente as taxas em oposição aos totais e “… sem opções de cores sensacionalistas”.

3. Agregações e cálculos, que podem ser feitas com os dados de casos, não são necessariamente aquilo que deve ser feito

O Tableau e outras ferramentas facilitam a criação de tabelas, gráficos e mapas rapidamente, bem como a execução de cálculos com esses números. Também é uma prática comum na visualização de dados criar benchmarks ou comparações entre grupos e países. Entretanto, ao visualizar os dados da Covid-19, esses cálculos precisam refletir os princípios básicos da epidemiologia.

Existem nuances nas definições de diferentes tipos de casos (incluindo definições da Covid-19) que afetam se elas podem ser agregadas ou não. Na saúde pública, existem métricas calculadas – como taxa de mortalidade de casos – com definições muito específicas que são utilizadas para entender e monitorar a propagação de doenças e o impacto humano. Só porque você pode executar uma função matemática em um conjunto de estatísticas de saúde não significa que você deva.

Por exemplo, um gráfico compartilhado sobre a COVID-19 resumiu o total de mortes até o momento e o dividiu pelos dias conhecidos da epidemia para criar uma agregação especial de mortes da doença por dia. Então, o número foi calculado para outras doenças importantes para comparação.

Na melhor das hipóteses, esta é uma comparação imprecisa devido às diferenças gritantes em relação ao nosso conhecimento e recursos para testes e tratamento da COVID-19 em comparação com outras doenças. Na pior das hipóteses, subestima significativamente a seriedade da COVID-19 e faz com que as pessoas ignorem os conselhos dos profissionais de saúde pública sobre distanciamento social e outras ações individuais que podem retardar a propagação do vírus.

Finalmente, determinar a parte da população infectada ou a parte das pessoas infectadas que morrem da doença são cálculos incrivelmente desafiadores devido à incerteza do denominador. Prossiga com extremo cuidado ao calcular qualquer taxa, ou ainda melhor, por favor, deixe os cálculos de taxas para epidemiologistas.

4. Seja cauteloso ao fazer previsões ou comparações generalizadas baseadas em dados específicos de uma região

Muitos fatores afetam a propagação e o impacto do vírus, como as medidas tomadas pelo governo para combater a disseminação e a demografia da população subjacente.

Por conta dessas diferenças, considere o que está implícito ao fazer comparações entre países com tamanhos populacionais, ambientes políticos e sistemas de saúde pública muito diferentes.

Por exemplo, a população da Itália é mais idosa que a da China ou dos EUA. Por conta das populações mais velhas terem sido identificadas como as de maior risco e as que são mais propensas a exigir atendimento hospitalar, a porcentagem de casos que requerem hospitalização pode ser maior na Itália do que nos países com população mais jovem.(Saiba mais aqui sobre como a demografia está influenciando resultados na Itália).

5. Visualizações devem informar e serem honestas sobre o que não está sendo representado

Há muita incerteza nos dados que temos, particularmente ao tentarmos fazer estimações para uma população no geral. Com uma doença emergente, desagregar e analisar casos e taxas em subpopulações pode nos ajudar a entender melhor a doença.

O número de casos confirmados é apenas um subconjunto de pessoas infectadas na população e o número é impactado pelo comportamento de procura de saúde (se estou doente, devo ir ao médico?), disponibilidade do kit de teste (se eu for ao médico, posso fazer um teste?), fatores dos sistemas de saúde e outras considerações.

O Covid-19 não é uma sentença de morte, e nossas visualizações precisam refletir isso. A inclusão de “casos recuperados” é uma parte essencial do contexto da visualização de números de casos.

Reiterando aqui: calcular taxas – como a taxa de fatalidade de casos – é desafiador sem ter um denominador preciso. Deixe os cálculos de taxas para os epidemiologistas!

6. Epidemiologistas e agências de saúde pública criam modelos complexos para entender como a doença pode progredir

Esses dados provavelmente não entrarão em um painel interativo (dashboard), mas às vezes são citados e tem origem em tabelas e gráficos estáticos. O benefício de usar resultados de modelos da OMS, CDC e outros especialistas em saúde pública é que eles geralmente passam por algum nível de revisão em pares antes de serem publicados.

Siga com cuidado se incorporar esses números em uma visualização: os modelos são complexos ao tentar explicar o comportamento do vírus, o comportamento humano e os fatores do sistema. Deste modo, os modelos vão mudar. Se você usar dados de um modelo, documente as variáveis de entradas e as fontes cuidadosamente.

7. Cientistas de dados e estatísticos têm usado também seus próprios modelos e conclusões relacionadas às projeções de doenças

Use isso com cuidado ao conceber sua visualização e análise, a menos que sejam bem extraídos, documentados e explicados – *Preferencialmente validado por um epidemiologista ou outra pessoa com experiência relacionada*

A modelagem da doença é complexa (ver mais no tópico 6). Grosso modo, “contas de pandaria” podem ser mais indutores de medo do que úteis.

Em vez disso, confie em modelos bem-elaborados de agências de saúde pública e especialistas.

8. Tome decisões de design criteriosas

Ainda interessado em criar uma visualização sobre COVID-19? Leia os recursos existentes sobre abordagens responsáveis de visualização neste contexto antes de publicar quaisquer gráficos ou mapas.

O Datawrapper possui um excelente conjunto de visualizações responsáveis sobre o novo coronavírus, com notas sobre as decisões de design que eles tomaram.

“O que consideramos ao fazer essas visualizações” da incrível equipe do Datawrapper (Fonte)

Você também pode ler este excelente tópico de recomendações e críticas sobre a visualização da Covid-19, de Evan Peck

9. Considere o lado humano de tudo o que você cria

Referencie os termos corretamente (veja as definições da OMS para casos da COVID-19, um explicador sobre R0 e o Glossário do CDC como recursos) e defina com clareza cada métrica para a sua audiência em algum lugar da visualização – que pode ser uma nota de rodapé, um título, subtítulo, anotação, texto explicativo … apenas garante que esteja lá.

Seja atencioso com o idioma usado na sua visualização.

Lembre-se de que por trás de todo dado há uma pessoa em meio a um conjunto de dados da Covid-19. Se você não se sentir confortável tendo alguém de um grupo de alto risco lendo o que você escreveu, por favor revise.

10. Considere como as visualizações podem impactar (e incentivar) a responsabilidade social ao vermos a Covid-19 em nossas respectivas comunidades

Coloque-se em quarentena, quando apropriado. Assegure que não estamos estigmatizando pessoas que são de países e regiões que tiveram muitos casos. Entenda quais passos adicionais você pode tomar para achatar a curva e retardar a propagação do vírus na sua comunidade.

Esther Kim e Carl Bergstrom (fonte)

E, finalmente, considere a visualização de outros dados relevantes sobre as comunidades impactadas, se não sentir que possui o conhecimento em saúde pública para somar na conversa sobre os casos da COVID-19. Os dados epidêmicos não são uma base de dados para brincar, apenas para ter algo para mostrar no seu Twitter.

Os principais links de recursos:

Esses links estão vinculados ao longo deste documento, mas estão mencionados aqui para facilitar a descoberta e a revisão:

Flatten the Curve

17 Responsible Live Visualizations of Coronavirus, for you to use

Mapping Coronavirus, Responsibly

An excellent thread of recommendations and critiques on visualizing COVID-19 from Evan Peck

CDC dedicated COVID-19 response page

Johns Hopkins Coronavirus resource page

Amanda Makulec é líder sênior de visualização de dados na Excella e possui mestrado em saúde pública pela Escola de Saúde Pública da Universidade de Boston. Ela trabalhou com dados em programas globais de saúde durante oito anos antes de ingressar na Excella, onde ela lidera equipes e desenvolve produtos de visualização de dados centrados no usuário para clientes federais, sem fins lucrativos e do setor privado. Amanda é voluntária como diretora de operações na Data Visualization Society e é co-organizadora do Data Visualization DC. Encontre-a no Twitter em @abmakulec

Muito obrigado a Alyssa Bell por sua edição rápida e brilhante para maior clareza!


Tradução por Vanessa Rocha, com revisão de Murilo Miranda e Adriano Belisário.