English
English

Blended Integrated Open Data: integração de dados abertos públicos

Visão geral:

Acessar dados abertos, pode ser uma tarefa complexa, principalmente pela necessidade de encontar os dados e realizar cruzamentos entre divesas fontes. Isto pode ocorrer devido a quantidade de dados disponível em uma base de dados aberta. No caso de poucos dados, pode-se tornar inviável uma análise satisfatória, por outro lado muitos dados pode se tornar muito arduo relacioná-los, principalmente se estes forem de fontes diferentes. Dados abertos geralmente são disponibilizados por instituições governamentais, com uma grande massa de dados. Por exemplo, Portal Brasileiro de Dados Abertos ou Portal do INEP com microdados educacionais, que disponibilizam dados permitindo a criação de indicadores importantes. Entretanto, o cruzamento de diferentes bases de dados é uma tarefa complexa, difı́cil de ser implementada, pois é necessário realizar um processo de integração e manutenção ao longo do tempo. Desta forma, esses dados abertos acabam sendo sub-utilizados.

Utilizando o framework BlenDb, nasceu o BIOD (Blended Integrated Open Data) viabiliza a consulta de dados abertos de forma eficiente. O projeto Blended Integrated Open Data foi criado pelo grupo C3SL [Direne et al. 2016] da Universidade Federal do Paraná, para aumentar a utilização de grande massa de dados abertos. Para atingir esse objetivo, o projeto criou um repositório composto de diversas bases de dados abertas distintas e utilizou o BlenDb para acessar essas bases de dados de maneira unificada e transparente.

O repositório de dados apresentado nesta página é composto pelas seguintes bases de dados abertas e integradas, com suas respectivas tabelas:
Laboratório de Dados Educations (LDE) geral

Laboratório de Dados Educations (LDE) de ensino superior Laboratório de Dados Educations (LDE) de ensino básico

Convenções do repositório BIOD.
É possível realizar consultas analíticas sobre as bases de dados, sendo que estas consultas poderã ser formadas por métricas, dimensões e filtros. Caso queirar baixar a lista de métricas (perguntas analíticas, no formato csv), receberá o o resultado no formato abaixo:

Nome Agregação Tipo de dado Descrição
met:count:cidade:id count integer Quantidade
met:avg:docente:idade avg float Média da idade dos docentes

Observe que o nome met: identifica a representação do dado, neste caso métrica, count: é o tipo de agregação, isto é, conta as cidades e por fim a tabela e atributo respectivos cidade:id. Note que na segunda linha avg significa média. A ferramenta apresenta um atributo com esta convenção para as agregações SUM, AVG, MAX, MIN, COUNT. No caso de dimensões o prefixo é dim:. Note que esta é uma convenção de chamada da API, sendo que outras instâncias do BlenDb poderiam usar terminologia diferente.

Como executar uma consulta no BIOD:
Suponha que queremos fazer a seguinte pergunta analítica:
Gostaria de saber por região do Brasil, o número de pontos de internet monitorados ( SIMMCTIC), média do PIB, soma da população, número de instituições de ensino superior e escolas, filtrados pelos pontos de internet ativos, censo do IBGE de 2014 e 2017, censo da instituição de 2017 e censo da escola de 2017, ordenados pelo PIB levantado pelo IBGE nos anos referidos.

Ainda é possível combinar filtros com operadores lógicos AND, ';', observe o separador de filtros na URL abaixo. E ou OR, ',', deste modo é possível construir filtros mais precisos.



Clique ou Copie e cole a seguinte URL em seu navegador:
https://biod.c3sl.ufpr.br/api/v1/data?metrics=met:count:ponto:id,met:avg:ibge:pib,met:sum:ibge:populacao,met:count:es:instituicao:id,met:count:escola:id&dimensions=dim:regiao:nome&filters=dim:ponto:ativo==t;dim:ibge:censo:ano==2014;dim:es:instituicao:censo:ano==2017;dim:escola:censo:ano==2017&sort=met:avg:ibge:pib

A reposta será no formato JSON, conforme mostra a figura abaixo. Para retornar em CSV, basta incluir um parâmetro no final da URL: '&format=csv'
Resposta da query

Explore os dados, através da lista de métricas e dimensões, descritas na seção Convenção

Integração com o Google Sheets
Os dados do BIOD podem ser acessados diretamente em uma planilha do Google, através de criação de uma função de usuário. Um tutorial para criação e chamada desta função está disponível neste link.


Referências