To so najboljši brezplačni odprti viri podatkov, ki jih lahko kdor koli uporabi

Kaj so odprti podatki?

Poenostavljeno povedano, odprti podatki pomenijo vrsto podatkov, ki so na voljo vsem in vsem za dostop, spreminjanje, ponovno uporabo in skupno rabo.

Open Data temelji na različnih "odprtih gibanjih", kot so odprta koda, odprta strojna oprema, odprta vlada, odprta znanost itd.

Vlade, neodvisne organizacije in agencije so se javile, da bodo odprle vrata, da bi ustvarile vedno več odprtih podatkov za brezplačen in enostaven dostop.

Zakaj so odprti podatki pomembni?

Odprti podatki so pomembni, ker svet narašča vse bolj na podlagi podatkov. Če pa obstajajo omejitve glede dostopa in uporabe podatkov, ideja o poslovanju in upravljanju na podlagi podatkov ne bo uresničena.

Zato imajo odprti podatki svoje edinstveno mesto. Omogoča lahko boljše razumevanje globalnih problemov in univerzalnih vprašanj. Podjetjem lahko daje velik zagon. Lahko je velik zagon za strojno učenje. Pomaga lahko v boju proti globalnim težavam, kot so bolezni, kriminal ali lakota. Odprti podatki lahko opolnomočijo državljane in tako okrepijo demokracijo. Lahko racionalizira procese in sisteme, ki so jih zgradile družba in vlade. Pomaga lahko pri preoblikovanju našega načina razumevanja in sodelovanja s svetom.

Tukaj je moj seznam 15 čudovitih virov odprtih podatkov:

1. Odprti podatki Svetovne banke

Odprti podatki Svetovne banke so pomemben vir odprtih podatkov kot zbirka najobsežnejših svetovnih podatkov o dogajanju v različnih državah po svetu. Omogoča tudi dostop do drugih podatkovnih nizov, ki so omenjeni v katalogu podatkov.

Odprti podatki Svetovne banke so ogromni, saj ima 3000 naborov podatkov in 14000 kazalnikov, ki zajemajo mikropodatke, statistiko časovnih vrst in geoprostorske podatke.

Dostop in odkrivanje želenih podatkov je prav tako enostavno. Vse, kar morate storiti, je, da določite imena kazalnikov, države ali teme in to vam bo odprlo zakladnico odprtih podatkov. Omogoča tudi prenos podatkov v različnih oblikah, kot so CSV, Excel in XML.

Če ste novinar ali akademik, boste navdušeni nad paleto orodij, ki so vam na voljo. Dobite lahko orodja za analizo in vizualizacijo, ki lahko okrepijo vaše raziskave. Pozdravlja lahko globlje in boljše razumevanje globalnih problemov.

Lahko dobite dostop do API-ja, ki vam lahko pomaga ustvariti vizualizacije podatkov, ki jih potrebujete, kombinacije v živo z drugimi viri podatkov in še veliko več takšnih funkcij.

Zato ni presenetljivo, da so odprti podatki Svetovne banke na prvem seznamu virov odprtih podatkov!

2. WHO (Svetovna zdravstvena organizacija) - Odprto skladišče podatkov

Repozitorij odprtih podatkov WHO je način, kako WHO spremlja statistiko zdravstvenega stanja svojih 194 držav članic.

Repozitorij sistematično organizira podatke. Do njega lahko dostopate glede na različne potrebe. Na primer, naj gre za smrtnost ali breme bolezni, lahko imamo dostop do podatkov, razvrščenih pod 100 ali več kategorij, kot so razvojni cilji tisočletja (prehrana otrok, zdravje otrok, zdravje mater in reprodukcije, imunizacija, HIV / AIDS, tuberkuloza, malarija, zanemarjene bolezni, voda in sanitarne storitve), nalezljive bolezni in dejavniki tveganja, epidemijam nagnjene bolezni, zdravstveni sistemi, zdravje okolja, nasilje in poškodbe, pravičnost itd.

Za vaše posebne potrebe lahko pregledujete nabore podatkov glede na teme, kategorijo, kazalnik in državo.

Dobra stvar je, da je mogoče v Excel Format prenesti vse podatke, ki jih potrebujete. Podatke lahko spremljate in analizirate tudi z uporabo njegovega podatkovnega portala.

Na voljo je tudi API za podatke in statistične podatke Svetovne zdravstvene organizacije.

3. Google Public Data Explorer

Google Public Data Explorer, ki je bil ustanovljen leta 2010, vam lahko pomaga raziskati velike količine naborov podatkov v javnem interesu. Podatke lahko vizualizirate in posredujete za svojo uporabo.

Na voljo so podatki različnih agencij in virov. Tako lahko na primer dostopate do podatkov Svetovne banke, Ameriškega urada za statistiko dela in urada ZDA, OECD, MDS in drugih.

Različne zainteresirane strani dostopajo do teh podatkov za različne namene. Ne glede na to, ali ste študent ali novinar, ali ste oblikovalec politike ali akademik, lahko uporabite to orodje za ustvarjanje vizualizacij javnih podatkov.

S pomočjo raziskovalca podatkov lahko uporabite različne načine predstavitve podatkov, kot so črtni grafi, palični grafikoni, zemljevidi in mehurčni grafikoni.

Najboljše je, da bi se vam te vizualizacije zdele precej dinamične. Pomeni, da jih boste sčasoma spreminjali. Lahko spremenite teme, se osredotočite na različne vnose in spremenite lestvico.

Tudi to je enostavno deliti. Takoj, ko pripravite grafikon, ga lahko vdelate na svoje spletno mesto ali spletni dnevnik ali preprosto delite povezavo s prijatelji.

4. Register odprtih podatkov o AWS (RODA)

To je repozitorij, ki vsebuje javne nabore podatkov. Podatki so na voljo v virih AWS.

Kar zadeva RODA, lahko odkrijete in delite podatke, ki so javno dostopni.

V RODA lahko uporabite ključne besede in oznake za običajne vrste podatkov, kot so genomski, satelitski posnetki in prevoz, da poiščete poljubne podatke, ki jih iščete. Vse to je mogoče na preprostem spletnem vmesniku.

Za vsak nabor podatkov boste odkrili stran s podrobnostmi, primere uporabe, informacije o licencah in vadnice ali programe, ki uporabljajo te podatke.

Z uporabo široke palete izdelkov za računalništvo in analizo podatkov lahko analizirate odprte podatke in zgradite poljubne storitve.

Podatki, do katerih dostopate, so na voljo prek virov AWS, vendar morate upoštevati, da jih AWS ne zagotavlja. Ti podatki pripadajo različnim agencijam, vladnim organizacijam, raziskovalcem, podjetjem in posameznikom.

5. Portal odprtih podatkov Evropske unije

Dostopate lahko do vseh odprtih podatkov, ki jih institucije, agencije in druge organizacije EU objavijo na enotni platformi, in sicer na portalu odprtih podatkov Evropske unije.

Na portalu odprtih podatkov EU so vitalni odprti podatki, ki se nanašajo na področja politik EU. Ta področja politike vključujejo gospodarstvo, zaposlovanje, znanost, okolje in izobraževanje.

Približno 70 institucij, organizacij ali oddelkov EU, kot so Eurostat, Evropska agencija za okolje, Skupno raziskovalno središče in drugi generalni direktorati Evropske komisije in agencije EU, je objavilo svoje zbirke podatkov in jim omogočilo dostop. Ti nabori podatkov so do danes presegli število 11700.

Portal omogoča enostaven dostop. Podatke lahko enostavno iščete, raziskujete, povezujete, prenašate in ponovno uporabljate v katalogu pogostih metapodatkov. To lahko storite za svoje posebne namene. Lahko so v komercialne ali nekomercialne namene.

V katalogu metapodatkov lahko iščete po interaktivnem iskalniku (zavihek Podatki) in poizvedbah SPARQL (zavihek Povezani podatki).

Z uporabo tega kataloga lahko dobite dostop do podatkov, shranjenih na različnih spletnih straneh institucij, agencij in organizacij EU.

6. FiveThirtyEight

Je izvrstno spletno mesto za podatkovno vodenje novinarstva in pripovedovanja zgodb.

Ponuja različne vire podatkov za različne sektorje, kot so politika, šport, znanost, ekonomija itd. Podatke lahko tudi prenesete.

Ko dostopate do podatkov, boste naleteli na kratko razlago vsakega nabora podatkov glede na njegov vir. Spoznali boste tudi, kaj pomeni in kako ga uporabljati.

Da bi bili ti podatki uporabniku prijazni, ponuja nabore podatkov v čim enostavnejših, nelastniških oblikah, kot so datoteke CSV. Ni treba posebej poudarjati, da so do teh formatov lahko dostopni in obdelani tako ljudem kot strojem.

S pomočjo teh naborov podatkov lahko ustvarite zgodbe in vizualizacije po svojih željah in željah.

7. Urad za popis prebivalstva ZDA

Ameriški urad za popis prebivalstva je največja statistična agencija zvezne vlade. Shranjuje in zagotavlja zanesljiva dejstva in podatke o ljudeh, krajih in gospodarstvu Amerike.

Popisni urad meni, da je njegovo plemenito poslanstvo razširiti svoje storitve kot najbolj zanesljiv ponudnik kakovostnih podatkov.

Ne glede na to, ali gre za zvezno, državno, lokalno ali plemensko vlado, vsi uporabljajo popisne podatke za različne namene. Te vlade uporabljajo te podatke za določanje lokacije novih stanovanj in javnih objektov. Uporabljajo jo tudi v času preučevanja demografskih značilnosti skupnosti, držav in ZDA.

Ti podatki se uporabljajo tudi pri načrtovanju prometnih sistemov in cest. Ko gre za odločanje o kvotah in ustvarjanje policijskih in gasilskih enot, ti podatki pridejo prav. Ko vlade ustvarijo lokalizirana območja volitev, šol, javnih služb itd., Te podatke uporabijo. Praksa je zbiranje podatkov o prebivalstvu enkrat na desetletje in ti podatki so zelo koristni pri doseganju istega.

Obstajajo različna orodja, kot so American Fact Finder, Census Data Explorer in Quick Facts, ki so uporabna, če želite iskati, prilagoditi in vizualizirati podatke.

Na primer, Quick Facts samo vsebuje statistične podatke o vseh zveznih državah, okrožjih, mestih in celo mestih s 5000 ali več prebivalci.

Prav tako vam lahko American Fact Finder pomaga odkriti priljubljena dejstva, kot so prebivalstvo, dohodek itd. Zagotavlja informacije, ki jih pogosto zahtevamo.

Dobra stvar je, da lahko prek raziskovalca podatkov popisa iščete, sodelujete s podatki, spoznavate priljubljene statistične podatke in si ogledate povezane karte. Poleg tega lahko z vizualnim orodjem prilagodite podatke v izkušnji interaktivnih zemljevidov.

8. Data.gov

Data.gov je zakladnica odprtih podatkov ameriške vlade. Šele pred kratkim je bila sprejeta odločitev, da so vsi vladni podatki na voljo brezplačno.

Ko je bil lansiran, jih je bilo le 47. Zdaj je 180.000 podatkovnih nizov.

Zakaj je Data.gov odličen vir, ker lahko najdete podatke, orodja in vire, ki jih lahko uporabite za različne namene. Lahko izvajate svoje raziskave, razvijate svoje spletne in mobilne aplikacije in celo oblikujete vizualizacije podatkov.

Vse, kar morate storiti, je, da v iskalno polje vnesete ključne besede in brskate po vrstah, oznakah, oblikah, skupinah, vrstah organizacij, organizacijah in kategorijah. To bo olajšalo enostaven dostop do podatkov ali naborov podatkov, ki jih potrebujete.

Data.gov sledi projektni odprti podatkovni shemi - naboru potrebnih polj (naslov, opis, oznake, zadnja posodobitev, založnik, ime stika itd.) Za vsak nabor podatkov, prikazan na spletnem mestu Data.gov.

9. DBpedia

Kot veste, je Wikipedia odličen vir informacij. DBpedia želi pridobiti strukturirano vsebino iz dragocenih informacij, ki jih je ustvarila Wikipedia.

Z DBpedijo lahko semantično iščete in raziskujete odnose in lastnosti vira Wikipedia. Sem spadajo tudi povezave do drugih povezanih naborov podatkov.

V naboru podatkov DBpedia je približno 4,58 milijona entitet. V ontologijo je razvrščenih 4,22 milijona, od tega 1.445.000 oseb, 735.000 krajev, 123.000 glasbenih albumov, 87.000 filmov, 19.000 video iger, 241.000 organizacij, 251.000 vrst in 6000 bolezni.

Oznake in povzetki za te entitete so v približno 125 jezikih. Na slike je 25,2 milijona povezav. Na zunanje spletne strani je povezanih 29,8 milijona povezav.

Vse, kar morate storiti za uporabo DBpedije, je pisanje poizvedb SPARQL proti končni točki ali s prenosom njihovih odlagališč.

DBpedia je koristila številnim podjetjem, kot so Apple (prek Siri), Google (prek Freebase in Google Knowledge Graph) in IBM (prek Watsona), zlasti njihovi prestižni projekti, povezani z umetno inteligenco.

10. Odprti podatki freeCodeCamp

Je odprtokodna skupnost. Zakaj je pomembno, ker vam omogoča, da kodirate, gradite pro bono projekte po neprofitnih organizacijah in se zaposlite kot razvijalec.

Da bi se to zgodilo, skupnost freeCodeCamp.org vsak mesec daje na voljo ogromne količine podatkov. Spremenili so ga v odprte podatke.

V tem odlagališču boste našli različne stvari. Na podlagi podatkov freeCodeCamp najdete nabore podatkov, analizo istih in celo predstavitve projektov. Najdete lahko tudi povezave do zunanjih projektov, ki vključujejo podatke freeCodeCamp.

Pomaga vam lahko pri raznolikih projektih in nalogah, ki ste jih morda v mislih. Ne glede na to, ali gre za spletno analitiko, analitiko socialnih medijev, analizo socialnih omrežij, analizo izobraževanja, vizualizacijo podatkov, spletni razvoj na podlagi podatkov ali robote, so lahko podatki, ki jih ponuja ta skupnost, zelo koristni in učinkoviti.

11. Yelp Open Datasets

Podatkovni niz Yelp v bistvu ni nič drugega kot lastna podjetja, pregledi in uporabniški podatki za uporabo v osebnih, izobraževalnih in akademskih opravilih.

V odprtih naborih podatkov Yelp je 5.996.996 pregledov, 188.593 podjetij, 280.991 slik in 10 metropolitanskih območij.

Uporabite jih lahko za različne namene. Ker so na voljo kot datoteke JSON, jih lahko uporabite za poučevanje študentov o podatkovnih bazah. Uporabite jih lahko za učenje NLP ali za vzorčenje produkcijskih podatkov, medtem ko razumete, kako oblikovati mobilne aplikacije.

V tem naboru podatkov boste našli vsako datoteko, sestavljeno iz enega samega predmeta, enega JSON-predmeta na vrstico.

12. Nabor podatkov UNICEF-a

Ker se UNICEF ukvarja s številnimi kritičnimi vprašanji, je zbral ustrezne podatke o izobraževanju, delu otrok, invalidnosti otrok, umrljivosti otrok, materinski umrljivosti, vodi in sanitarijah, nizki porodni teži, predporodni oskrbi, pljučnici, malariji, pomanjkanju joda motnje, pohabljanje / rezanje ženskih spolnih organov in mladostniki.

Odprti nabori podatkov UNICEF-a, objavljeni v registru IATI: //www.iatiregistry.org/publisher/unicef, so bili pridobljeni neposredno iz UNICEF-ovega operacijskega sistema (VISION) in drugih podatkovnih sistemov ter odražajo prispevke posameznih uradov UNICEF-a.

Dobra stvar je, da se ti nabori podatkov redno posodabljajo. Vsak mesec se podatki posodabljajo, da so bolj celoviti, zanesljivi in ​​natančni.

Do teh podatkov lahko preprosto in enostavno dostopate. Če želite to narediti, lahko te podatke prenesete v obliki CSV. Vzorčne podatke lahko predogledate tudi pred prenosom.

Čeprav lahko vsakdo razišče in vizualizira nabore podatkov UNICEF-a, obstajajo trije glavni založniki:

UNICEFOV PORTAL ZA PREGLEDNOST POMOČI: Če uporabljate ta portal, lahko veliko lažje dostopate do naborov podatkov. Vključuje tudi podrobnosti za vsako državo, v kateri deluje UNICEF.

Založniški d-portal: Trenutno je v BETA. S tem portalom lahko raziskujete podatke IATI.

Lahko iščete informacije, povezane z razvojnimi dejavnostmi, proračuni itd. Te informacije lahko raziščete po državah.

Podatkovna platforma založnika: Na tej platformi lahko enostavno dostopate do statistik, grafikonov in meritev podatkov, do katerih dostopate prek registra IATI. Če kliknete glave, lahko razvrstite tudi številne tabele, ki jih vidite na platformi. Številne nabore podatkov boste našli tudi na platformah v strojno berljivem formatu JSON.

13. Kaggle

Kaggle je odličen, saj spodbuja uporabo različnih formatov objav publikacij. Boljše pa je, da močno priporoča, da založniki nabora podatkov svoje podatke delijo v dostopni, nelastniški obliki.

Platforma podpira odprte in dostopne oblike zapisa podatkov. Pomemben ni samo dostop, ampak tudi vse, kar želite s temi podatki početi. Zato Kaggle Dataset jasno določa oblike datotek, ki so priporočljive med skupno rabo podatkov.

Edinstvena stvar pri naborih podatkov Kaggle je, da ni le skladišče podatkov. Vsak nabor podatkov pomeni skupnost, ki vam omogoča razpravo o podatkih, iskanje javnih kod in tehnik ter konceptualizacijo lastnih projektov v jedrih.

CSV, JSON, SQLite, Archive, Big Query itd. So vrste datotek, ki jih Kaggle podpira. Za začetek dela na projektu odprtih podatkov lahko najdete različne vire.

Najboljše je, da vam Kaggle omogoča zasebno ali javno objavljanje in skupno rabo naborov podatkov.

14. LODUM

Gre za pobudo Open Data Univerze v Münsteru. V okviru te pobude je vsem omogočen dostop do kakršnih koli javnih informacij o univerzi v strojno berljivih oblikah. Do njega lahko enostavno dostopate in ga ponovno uporabite v skladu s svojimi potrebami.

V tem projektu so na voljo odprti podatki o znanstvenih predmetih in kodirani kot povezani podatki.

S pomočjo povezanih podatkov je mogoče deliti in uporabljati podatke, ontologije in različne standarde metapodatkov. V resnici je predvideno, da bo to sprejeti standard za zagotavljanje metapodatkov in samih podatkov na spletu.

Skupina LODUM je soustanovila LinkedUniversities.org in LinkedScience.org.

Za analizo podatkov lahko uporabite urejevalnik SPARQL ali paket SPARQL R.

Paket SPARQL omogoča povezavo s končno točko SPARQL prek HTTP, postavitev poizvedbe SELECT ali poizvedbe za posodobitev (LOAD, INSERT, DELETE).

15. Repozitorij UCI za strojno učenje

Služi kot izčrpen repozitorij baz podatkov, teorij domen in generatorjev podatkov, ki jih skupnost strojnega učenja uporablja za empirično analizo algoritmov strojnega učenja.

V tem repozitoriju je trenutno 463 podatkovnih nizov kot storitev za skupnost strojnega učenja.

Center za strojno učenje in inteligentne sisteme na Univerzi v Kaliforniji, Irvine, ga gosti in vzdržuje. David Aha ga je prvotno ustvaril kot podiplomski študent na UC Irvine.

Od takrat ga študentje, vzgojitelji in raziskovalci po vsem svetu uporabljajo kot zanesljiv vir podatkovnih nizov strojnega učenja.

Kako deluje, ima vsak nabor podatkov svojo posebno spletno stran, ki vsebuje vse znane podrobnosti, vključno z vsemi ustreznimi publikacijami, ki to preiskujejo. Te nabore podatkov lahko prenesete kot datoteke ASCII, pogosto uporaben format CSV.

Podrobnosti naborov podatkov so povzete po vidikih, kot so vrste atributov, število primerkov, število atributov in leto objave, ki jih je mogoče razvrstiti in iskati.

Portali odprtih podatkov in iskalniki:

Medtem ko številne agencije vsako leto objavijo številne nabore podatkov, jih zelo malo prepozna in uveljavi.

Razlog, zakaj je zelo malo takih naborov podatkov koristen vir, je ta, da je izziv razviti, upravljati in zagotavljati podatke tako, da se ljudem in organizacijam zdijo koristni in enostavni za uporabo.

Spodaj pa najdete seznam drugih nekaj pomembnih portalov in platform z odprtimi podatki, ki uporabnikom omogočajo preprost dostop do odprtih podatkov, preučevanje njihovega vpliva in pridobivanje dragocenih spoznanj.

  1. Iskanje po Googlovem naboru podatkov
  2. Dataverse
  3. Odprite podatkovni komplet
  4. Ckan
  5. Odprite Monitor podatkov
  6. Plenar.io
  7. Odprite zemljevid vpliva podatkov

Zaključek

Odprti podatki so vrstni red dneva. Svet se je postopoma začel približevati odprtim sistemom in odprti podatki so s tem pravilno sinhronizirani.

Podjetja in organizacije, ki uporabljajo odprte podatke, bodo pridobile konkurenčno prednost in bodo lahko prevladovale v prihodnosti.