Рубрики
Без рубрики

Базовая дос Дадос Пайтон 101

TL; Dr Neste Artigo Vamos демонстратор Como usar o pacote da base dos dados em python para ac … Tagged с помощью Python, программирования, новичков, DataScience.

TL; DR

Neste Artigo Vamos Demonare Como USAR O Pacote DA BASE DOS DADOS EM Питон para acessar e usar os dados disponiveis em nosso Repositório público, com o conteúdo do Семинар “Brincando Com Dados Da Bd+ Em Python” Анкет

O Pacote Tem Diversas Funcões Que Remitem Listem OS CONCUNTOS DE DADOS DISPONIVEIS, Obter Informações Sobre в роли Tabelas, Carregar Os Dados Direto no Pandas, Dentre Muitas Outras. Como Exemplo, Exploramos Os Dados Da Tabela de Nomes Brasileiros do ibge (2010) E Mostramos como criar uma visualização de nuvem de palavras dos nomes mais Часты.

Como Acessar A BD+ EM Python?

Базовый Dos Dados Mais (Bd+) é o nosso DataLake de Dados públicos Limpos, Integrados e atualizados Pela Nossa Equipe de Dados – Дадос Prontos Para Análise.

O Datalake é mantido no Google BigQuery E Tem Custo Praticamente Zero Para Todos Os USUários – Você Tem 1 TB Disponível Por Mês Para Fazer Consulta Aos Dados. Para Farsilitar Ainda Mais A Vida de Pythonistas, Criamos Um Pacote de Acesso Direto AO Repositório через Python: Основанный

!pip install basedosdados
import basedosdados as bd

Атенчао! Éseyrio criar um projeto no Google Cloud e Autenticar Seu Projeto para fazer consultas aos dados do Repositório. Caso você ездил на Qualquer Funcáo do Pacote Pela Primeira Vez, как instruções para essa configururação irão aparecer para ocê e basta seguir o passo a passo apresentado.

Exceedem Diversas Funcões no Pacote, Tanto para acesso Quanto para publicaço de Dados noso ou em Qualquer projeto do Google Cloud – Vode usar o para para construir seu proprio Repositório de Dados Também.

Lista opply dos módulos do pacote está na NOSSA DOCUMTIONAUAO , E Veja Também Como Colaborar Subindo Dados no Repositório Анкет

Explorando как Funcões do pacote

Para Ilustrar, Podemos arvificar todos os concuntos de dados disponiveis no Repositório usando A Funcáo list_datasets . Essa Funcão Retorna Todos OS Concuntos de Dados no Repositório e que podem ser filtrados por algum termo expectifico, com o parâmetro Filter_by , Como Fazemos abaixo buscando dados do ibge. O parâmetro with_description indica se Queremos visualizar também a descrição de cada concunto.

bd.list_datasets(filter_by='ibge', with_description=True)

DA MESMA Forma, Podemos Listar в роли Tabelas de Um Concunto de Dados Expectifico com A Funcão list_dataset_tables Анкет Alem Disso, Podemos Ter Também Uma Visão Toppleta Das Colunas E Seus Tipos Com A Funcão get_table_columns – Tudo Isso Sem Carregar Ainda Os Dados без Ambiente!

bd.list_dataset_tables(dataset_id='br_ibge_nomes_brasil', with_description=True)
bd.get_table_columns(
    dataset_id='br_ibge_nomes_brasil',
    table_id='quantidade_municipio_nome_2010'
)

Antes de Carregar Os Dados, Pode -se vervificar Inclusive Seu Tamanho Total – Essectem Tabelas Muito Grandes No Repositório, Então Recomendamos fortemente Fazer Esse Passo.

bd.get_table_size(
    dataset_id='br_ibge_nomes_brasil',
    table_id='quantidade_municipio_nome_2010',
    billing_project_id='basedosdados42'
)

Por Fim, Funcão read_table faz o carregamamento dos Дадос без атмосферного питона. Caso A Base Em Question Seja Muito Grande, Você Pode Optar Também em USAR A Funcão read_sql , que permite fazer uma Query sql e carregar no ambiente somente os dados requisitados. Para ambos é reecyrio Que você expicite o seu billing_project_id , o Projeto Que foi habilitado lá no início e que será cobrado caso você exceda o limite.

df = bd.read_table(
    dataset_id='br_ibge_nomes_brasil',
    table_id='quantidade_municipio_nome_2010',
    billing_project_id='basedosdados42'
)

Neste Imemplo vamos trabalhar com o odos de Nomes Brasileiros do Cesso Demográfico 2010 Do Ibge Анкет De acordo com o CENSO, ESSECTEM AO TODO CERCA DE 200 MILHõES DE HABINATES COM MAIS DE 130 MIL NOMES DEVENTESES ESPALHADOS PELO BRASIL. Curioso? Nós Também!

Quais são omes mais famosos no brasil?

Quem você diria que é mais famoso: maria ou João? É isso o Que Queremos descobrir primeiro com os nossos dados.

Para Repondermos assa pergunta, nós vamos contar a futencia de cada nome no país e ordená-los, e em seguida criar uma nuvem de palavras para visualizazao dessas informações.

Criamos então A Funcáo GENERATE_LIST_SORTED_BY_FREQ que faz agregação dos nomes nomes intando Quantas vezes cada um aparece na nossa base, e Ordena Essa Lista de Acordo com OS Nomes Mais Часты. Фунсао -под Ser Lida Abaixo.

def generate_list_sorted_by_freq(df):
    name_freq = df.groupby('name').freq.sum() # agrupamento de nomes iguais
    name_freq = name_freq.sort_values(ascending=False) # ordenação dos nomes por frequência
    name_freq = name_freq.reset_index() # inicializa o index de um dataframe criando um se necessário
    return name_freq

df = df.rename(columns={'qtde_nascimentos_ate_2010': 'freq', 'nome': 'name'})
name_freq = generate_list_sorted_by_freq(df)

Para Criar Uma Nuvem de Palavras, Vamos USAR A Biblioteca WordCloud Хунто Ао matplotlib Disponíveis para instalação через Pip. A WordCloud nos ossibilita gerar uma imagem comm как palavras mais flates e o tamanho de cada palavra é deginado pela sua futyncia, gerando um belo efeito visual para nosso Ранжирование.

!pip install wordcloud # caso não tenha a biblioteca já instalada
!pip install matplotlib # caso não tenha a biblioteca já instalada

from wordcloud import WordCloud
import matplotlib.pyplot as plt

Abaixo você pode ver a nuvem gerada com a WordCloud , o Código Throwto de Como geramos nuvem está no notepbook a a final do texto.

E Como Resultado: Maria é a Vinedora! O Que Achou Dessa Descoberta? Нет PRóximo Texto Vamos Trazer Uma Análise Regional Construityda Pelo Fred Também No Workshop, Para Acessar Todo O Conteúdo Apresentado Basta Acessar As Base Dos Dados No YouTube.

Confira o Notebook Com A Análise oppla no nosso Repositório:

на основе анализ

Repositório de Códigos simples e Replicáveis das análises publicadas.

Texto produzido por Vinicius E Фернанда , DA BASE DOS DADOS 💚

Оригинал: “https://dev.to/basedosdados/base-dos-dados-python-101-44lc”