Ciência dos Dados: uma nova era

Ciência e Tecnologia

 

ARMAZENAR, ORDENAR, TRATAR E ANALISAR A QUANTIDADE GIGANTESCA DOS DADOS É UM GRANDE DESAFIO 

 

A revolução do computador permeia tudo: as ciências tradicionais, a tecnologia, a economia, os negócios, as relações sociais

 

Por Haroldo Fraga de Campos Velho

 

 

O século 20 vai se tornar uma referência histórica. Há várias razões para fundamentar esta opinião. Foi um século de mudanças profundas para a humanidade. Além dos conflitos de imensas amplitudes, a primeira e segunda Guerras Mundias, houve transformações políticas e nas sociedades.

Contudo, foram as transformações na ciência e na tecnologia que mudaram para sempre e irreversivelmente o mundo. A aviação que une o mundo de forma mais rápida, a descoberta de segredos do átomo para produzir uma forma de gerar energia só alcançada no século 20. Foi também neste século que a humanidade foi capaz de vencer as amarras da gravidade, sendo a tecnologia espacial essencial para a sociedade funcionar tal como vivenciamos hoje. O século 20 pode ser chamado de o século da era espacial, com satélites artificiais em órbita, o ser humano que chegou à Lua e humanos vivendo em órbita, em estações espaciais.

Mas, além das inovações com a energia nuclear e das tecnologias aeroespaciais, há uma outra tecnologia que transformou a nossa sociedade: o computador eletrônico. A revolução do computador permeia tudo: as ciências tradicionais, a tecnologia, a economia, os negócios, as relações sociais.

Assim, tomando-se o século 20 como referência, podemos nos perguntar: quais eram os desafios científicos antes do século 20, no século 20 e depois do século 20?

Pode-se dizer que antes do século 20 queríamos saber como a natureza funciona, e desenvolvemos a física, a matemática e demais ciências. Chegamos no século 20 com várias leis (equações matemáticas). Entretanto, a matemática desenvolvida não era capaz de encontrar soluções para as equações. Este era um desafio científico do século 20. O computador permitiu encontrar soluções aproximadas para as equações que representam fenômenos da natureza. Um exemplo da conquista científica da aplicação do computador é a previsão numérica do tempo. No Brasil, o CPTEC/INPE (www.cptec.inpe.br) é a instituição responsável por prover a previsão de tempo e climática para a nação. Simulação computacional é uma nova maneira de se obter conhecimento científico.

Estamos vivendo a segunda década do século 21. Qual o desafio científico deste século?

 

Há muitos desafios e investigações científicas a vencer. Entretanto, extrair informações de uma massa crescente de dados é um dos desafios científicos do século 21. De fato, estamos vivendo num mundo exponencial. Saímos do terabyte e petabyte para zetabytes (mais de 2,5 quintilhões de bytes gerados por dia). Desta forma, armazenar, ordenar, tratar e analisar a quantidade gigantesca dos dados é um grande desafio. Este desafio pode ser resumido em uma expressão: Ciência dos Dados.

 

Mas, o que é “Ciência dos Dados”?

Ha´ uma outra expressão ligada ao tema: Big Data. A expressão “Big Data” está também ligada ao desafio 3V de dados: volume, variedade e velocidade¹. Contudo, o objetivo deste texto é focado em dar uma descrição breve ao termo Ciência dos Dados. Em outras palavras, é possível fazer e desenvolver ciência somente com dados?

A estatística tem como objetivo extrair propriedades de um conjunto de dados. Mas, ciência dos dados vai além da estatística. Capacidade de processamento, banco de dados, tecnologia de informação, visualização científica, são outros tópicos de relevância. Contudo, um fator decisivo para a ciência dos dados, foi o desenvolvimento da inteligência artificial. Assim, ciência dos dados é uma nova área em que o conhecimento é obtido a partir de informações dos próprios dados. Neste novo caminho, o conjunto de métodos citados anteriormente é usado.

Uma das análises importantes para astronomia é a classificação de estrelas e galáxias em imagens astronômicas. Em algumas imagens, é preciso o emprego de técnicas computacionais para realizar a diferenciação estrela/galáxia. Tais técnicas computacionais têm sido usadas em levantamentos astronômicos, como o Sloan Digital Sky Survey. Em junho de 2011, o uso de árvores de decisão e máquinas de comitê – técnicas de inteligênia artificial – obteve o melhor desempenho para este tipo de classificação².

Outro exemplo de ciência dos dados é a identificação de eventos meteorológicos extremos, como seca profunda e chuva intensa. Uma avaliação destes dois tipos de eventos extremos foi feita combinando análise estatística – teste de hipótese “valor de p”, visualização de dados (para o “valor de p”) e árvores de decisão. Fatores que influenciaram episódios de seca na região amazônica foram analisados e determinou-se que variáveis meteorológicas no hemisfério norte tiveram influência em eventos de seca na amazônia. As mesmas ferramentas computacionais foram também empregadas para análise de chuvas extremas, como as que ocorreram no estado de Santa Catarina em novembro de 2008³.

Haroldo Fraga de Campos Velho é Pesquisador Titular do LABAC/INPE

Compartilhe
Share this