TL; DR
Neste Artigo Vamos Demonare Como USAR O Pacote DA BASE DOS DADOS EM Питон para acessar e usar os dados disponiveis em nosso Repositório público, com o conteúdo do Семинар “Brincando Com Dados Da Bd+ Em Python” Анкет
O Pacote Tem Diversas Funcões Que Remitem Listem OS CONCUNTOS DE DADOS DISPONIVEIS, Obter Informações Sobre в роли Tabelas, Carregar Os Dados Direto no Pandas, Dentre Muitas Outras. Como Exemplo, Exploramos Os Dados Da Tabela de Nomes Brasileiros do ibge (2010) E Mostramos como criar uma visualização de nuvem de palavras dos nomes mais Часты.
Como Acessar A BD+ EM Python?
Базовый Dos Dados Mais (Bd+) é o nosso DataLake de Dados públicos Limpos, Integrados e atualizados Pela Nossa Equipe de Dados – Дадос Prontos Para Análise.
O Datalake é mantido no Google BigQuery E Tem Custo Praticamente Zero Para Todos Os USUários – Você Tem 1 TB Disponível Por Mês Para Fazer Consulta Aos Dados. Para Farsilitar Ainda Mais A Vida de Pythonistas, Criamos Um Pacote de Acesso Direto AO Repositório через Python: Основанный
!pip install basedosdados import basedosdados as bd
Атенчао! Éseyrio criar um projeto no Google Cloud e Autenticar Seu Projeto para fazer consultas aos dados do Repositório. Caso você ездил на Qualquer Funcáo do Pacote Pela Primeira Vez, как instruções para essa configururação irão aparecer para ocê e basta seguir o passo a passo apresentado.
Exceedem Diversas Funcões no Pacote, Tanto para acesso Quanto para publicaço de Dados noso ou em Qualquer projeto do Google Cloud – Vode usar o para para construir seu proprio Repositório de Dados Também.
Lista opply dos módulos do pacote está na NOSSA DOCUMTIONAUAO , E Veja Também Como Colaborar Subindo Dados no Repositório Анкет
Explorando как Funcões do pacote
Para Ilustrar, Podemos arvificar todos os concuntos de dados disponiveis no Repositório usando A Funcáo list_datasets
. Essa Funcão Retorna Todos OS Concuntos de Dados no Repositório e que podem ser filtrados por algum termo expectifico, com o parâmetro Filter_by
, Como Fazemos abaixo buscando dados do ibge. O parâmetro with_description
indica se Queremos visualizar também a descrição de cada concunto.
bd.list_datasets(filter_by='ibge', with_description=True)
DA MESMA Forma, Podemos Listar в роли Tabelas de Um Concunto de Dados Expectifico com A Funcão list_dataset_tables
Анкет Alem Disso, Podemos Ter Também Uma Visão Toppleta Das Colunas E Seus Tipos Com A Funcão get_table_columns
– Tudo Isso Sem Carregar Ainda Os Dados без Ambiente!
bd.list_dataset_tables(dataset_id='br_ibge_nomes_brasil', with_description=True) bd.get_table_columns( dataset_id='br_ibge_nomes_brasil', table_id='quantidade_municipio_nome_2010' )
Antes de Carregar Os Dados, Pode -se vervificar Inclusive Seu Tamanho Total – Essectem Tabelas Muito Grandes No Repositório, Então Recomendamos fortemente Fazer Esse Passo.
bd.get_table_size( dataset_id='br_ibge_nomes_brasil', table_id='quantidade_municipio_nome_2010', billing_project_id='basedosdados42' )
Por Fim, Funcão read_table
faz o carregamamento dos Дадос без атмосферного питона. Caso A Base Em Question Seja Muito Grande, Você Pode Optar Também em USAR A Funcão read_sql
, que permite fazer uma Query sql e carregar no ambiente somente os dados requisitados. Para ambos é reecyrio Que você expicite o seu billing_project_id
, o Projeto Que foi habilitado lá no início e que será cobrado caso você exceda o limite.
df = bd.read_table( dataset_id='br_ibge_nomes_brasil', table_id='quantidade_municipio_nome_2010', billing_project_id='basedosdados42' )
Neste Imemplo vamos trabalhar com o odos de Nomes Brasileiros do Cesso Demográfico 2010 Do Ibge Анкет De acordo com o CENSO, ESSECTEM AO TODO CERCA DE 200 MILHõES DE HABINATES COM MAIS DE 130 MIL NOMES DEVENTESES ESPALHADOS PELO BRASIL. Curioso? Nós Também!
Quais são omes mais famosos no brasil?
Quem você diria que é mais famoso: maria ou João? É isso o Que Queremos descobrir primeiro com os nossos dados.
Para Repondermos assa pergunta, nós vamos contar a futencia de cada nome no país e ordená-los, e em seguida criar uma nuvem de palavras para visualizazao dessas informações.
Criamos então A Funcáo GENERATE_LIST_SORTED_BY_FREQ
que faz agregação dos nomes nomes intando Quantas vezes cada um aparece na nossa base, e Ordena Essa Lista de Acordo com OS Nomes Mais Часты. Фунсао -под Ser Lida Abaixo.
def generate_list_sorted_by_freq(df): name_freq = df.groupby('name').freq.sum() # agrupamento de nomes iguais name_freq = name_freq.sort_values(ascending=False) # ordenação dos nomes por frequência name_freq = name_freq.reset_index() # inicializa o index de um dataframe criando um se necessário return name_freq df = df.rename(columns={'qtde_nascimentos_ate_2010': 'freq', 'nome': 'name'}) name_freq = generate_list_sorted_by_freq(df)
Para Criar Uma Nuvem de Palavras, Vamos USAR A Biblioteca WordCloud
Хунто Ао matplotlib
Disponíveis para instalação через Pip. A WordCloud
nos ossibilita gerar uma imagem comm как palavras mais flates e o tamanho de cada palavra é deginado pela sua futyncia, gerando um belo efeito visual para nosso Ранжирование.
!pip install wordcloud # caso não tenha a biblioteca já instalada !pip install matplotlib # caso não tenha a biblioteca já instalada from wordcloud import WordCloud import matplotlib.pyplot as plt
Abaixo você pode ver a nuvem gerada com a WordCloud
, o Código Throwto de Como geramos nuvem está no notepbook a a final do texto.
E Como Resultado: Maria é a Vinedora! O Que Achou Dessa Descoberta? Нет PRóximo Texto Vamos Trazer Uma Análise Regional Construityda Pelo Fred Também No Workshop, Para Acessar Todo O Conteúdo Apresentado Basta Acessar As Base Dos Dados No YouTube.
Confira o Notebook Com A Análise oppla no nosso Repositório:
на основе анализ
Repositório de Códigos simples e Replicáveis das análises publicadas.
Texto produzido por Vinicius E Фернанда , DA BASE DOS DADOS 💚
Оригинал: “https://dev.to/basedosdados/base-dos-dados-python-101-44lc”