“Estatística não precisa ser chata”: recursos de visualização de dados

Traduzir dados estatísticos em imagens de forma efetiva é essencial pra divulgar a ciência e torná-la mais compreensível pra outras pessoas. Há muito tempo criamos boas representações de dados porque, como diz Etan Lightstone, designer e diretor da New Relic, temos facilidade em perceber padrões visuais. O mais importante é que conseguimos compartilhar conhecimento de forma interessante e útil pra que se possam tomar boas decisões.

Gráfico criado por Florence Nightingale para representar as causas da morte de soldados britânicos durante a Guerra da Crimeia (1853-56): eles morriam mais por doenças do que por ferimentos.
Gráfico criado por Florence Nightingale pra representar as causas da morte de soldados britânicos durante a Guerra da Crimeia (1853-56): eles morriam mais por doenças do que por ferimentos. Fonte: Vanderbilt University.

A visualização de dados também pode ter impactos sociais transformadores além da universidade e centros de pesquisa. Hans Rosling e seu filho Ola Rosling, fundadores da Gapminder Foundation, querem mudar a percepção das pessoas a respeito de grandes mudanças sociais no mundo por meio de estatísticas no The Ignorance Project. Eles conseguem realizar de forma inspiradora um dos motes da fundação: “estatística não precisa ser chata”.

Hans Rosling, o mestre da visualização de dados: "ter os dados não é suficiente, eu tenho de mostrá-los pra que as pessoas se divirtam e os entendam". Fonte: Open Media blog.
Hans Rosling, o mestre da visualização de dados: “ter os dados não é suficiente, eu tenho que mostrá-los pra que as pessoas se divirtam e os entendam”. Fonte: Open Media blog.

David McCandless, jornalista e autor de Information is Beautiful, também acha que dados podem mudar perspectivas e comportamentos. Um dos infográficos mais legais que ele criou pode ser visto abaixo. McCandless criou um aplicativo interativo online relacionando eficácia e popularidade de suplementos nutricionais, a partir de web scraping de buscas no Google e de cerca de mil estudos da base de dados do PubMed.

"Mitos sobre alimentação saudável": os suplementos nutricionais com os balões mais altos têm benefícios com mais evidência científica. Os dos maiores balões são os mais buscados no Google.
“Mitos sobre alimentação saudável”: os suplementos nutricionais com os balões mais altos têm benefícios com mais evidência científica. Os dos maiores balões são os mais buscados no Google. Fonte: SciBlogs.

Na sociologia, ainda é frequente vermos bons artigos publicados com muitas tabelas ou com pouca ou quase nenhuma figura, quando ela poderia ser usada de forma a clarificar os resultados de pesquisa. No Brasil, a coisa fica ainda mais complicada depois que percebemos que aprendemos poucas técnicas de visualização. Estamos um pouco atrasados em relação à tendência de compartilhar dados e scripts com os nossos pares e de produzir com facilidade trabalhos gráficos de alta qualidade.

Quais são os melhores recursos pra visualizar dados de forma eficaz e mais sofisticada? Depende das suas necessidades e das ferramentas que domina. A boa notícia é que uma onda recente de softwares estatísticos open-source (o R, por exemplo) e ferramentas de trabalho como o GitHub não apenas facilitaram o compartilhamento de códigos e dados, mas também tornaram-no quase uma norma no meio acadêmico.

Um bom começo é treinar a substituição de tabelas com dados descritivos ou resultados de modelos de regressão por gráficos (no caso, no Stata e no R) e dar uma olhada em boas listas de ferramentas pagas e gratuitas de visualização de dados, com dicas úteis sobre os recursos e limites de cada uma.

P.S.: Agradeço a Jeronimo Muniz pelas indicações de leitura.

Anúncios

Ciências sociais computacionais: a CompSS de Stanford

Susan Athey falou sobre "The Internet and the News Media" na CompSS 2013.
Susan Athey apresentou “The Internet and the News Media” na CompSS 2013. (Fonte: https://css-center.stanford.edu).

Tem centros de pesquisa incríveis no mundo todo. Vocês devem conhecer o Institute for Digital Research and Education (IDRE), da UCLA, e o Institute for Quantitative Social Science (IQSS), de Harvard. Os dois oferecem recursos muito prestativos online, desde workshops pagos ou webinars gratuitos até materiais completos para estudos à distância. E uma das melhores propostas deles é a de serem interdisciplinares, frequentemente envolvendo todo o campus universitário no seu trabalho.

Talvez menos conhecido por aqui seja o Center for Computational Social Science (CSS), de Stanford, que mencionei no último post. Descobri recentemente que ele disponibiliza online os vídeos das apresentações do seu evento mais importante: a Stanford Conference on Computational Social Science (CompSS). Neste ano, houve a quarta edição. Abaixo, vocês podem ver o vídeo do discurso de abertura, que foi feito pelo diretor do CSS, Daniel McFarland.

Como diz McFarland, sete faculdades de Stanford estavam representadas no evento, também frequentado por funcionários de empresas como Facebook, Wikipedia e HP. Mas, afinal, o que é “ciência social computacional”? Muita gente faz a mesma pergunta a McFarland, que é bastante didático ao respondê-la: “Tentamos implementar novas tecnologias, métodos e técnicas de computação que nos permitam ter acesso a novos dados da vida social e trabalhar com eles”. No caminho, ressalta ele, parcerias com pesquisadores de outras áreas e com a indústria ajudam a tocar os projetos.

Refaço então o convite para explorar o trabalho fantástico do CSS e conhecer mais sobre ciência social computacional! E sejam legais e comentem se conhecerem outros sites bacanas com recursos que eu possa compartilhar no blog.

Web scraping, big data, data mining… essas coisas de sociólogo.

Em duas semanas de cursos no Programa de Treinamento Intensivo em Metodologia Quantitativa (MQ) da FAFICH/UFMG, tenho sido surpreendido por pessoas e projetos incríveis! A primeira surpresa, com a qual não pude deixar de inaugurar o blog, foi a qualidade do curso de Captura, sistematização e análise de “Big Data”, ministrado por Leonardo Barone e Rogério Barbosa (você já ouviu falar do blog Sociais & Métodos?). Os softwares R e Rstudio foram utilizados durante todo o curso, que foi certamente um dos mais concorridos desta edição do MQ (em breve, posto aqui o meu trabalho final).

O projeto Twitter France — Coupe du Monde 2014, da Dataveyes, acompanhou todos os tweets europeus sobre o jogo França vs. Suíca no torneio (fonte: https://twitter.com/dataveyes).

As áreas da sociologia computacional e da ciência de dados aplicadas a grandes bases de dados (“Big Data”) vêm crescendo assustadoramente. E por um motivo simples: queremos saber como lidar com os vários zettabytes (!) de dados públicos na internet (em 2020, crescendo a taxas acumuladas de 40% a.a., serão mais de 40ZB de dados!).

Se você se interessa pelo tema, sugiro vivamente ler este capítulo do livro Digital Sociology, a ser publicado por Deborah Lupton (dona do excelente blog This Sociological Life) no fim do ano, ou navegar pelo site do Center for Computational Social Sciences da Universidade de Stanford (na aba “Research”, tem-se uma ideia do quão sensacionais são os estudos desse “campo”), ou ver ainda como Sune Lehmann quer reinventar as ciências sociais na era do big data.

Ah, o MQ acontece anualmente desde 1999. Está, portanto, em sua 16ª edição. São cursos intensivos com excelentes professores e turmas muito motivadas. Fiquem de olho na próxima edição, moçada!