Hoe importeer ik Internet UFO-waarnemingen in een Google-spreadsheet

In dit artikel laat ik u zien hoe u gegevens die in een tabel op een website op internet zijn opgeslagen, in uw Google-spreadsheet kunt importeren. Denk aan de enorme hoeveelheid gegevens die vandaag op het internet beschikbaar is in de vorm van HTML-tabellen.

In dit artikel laat ik u zien hoe u gegevens die in een tabel op een website op internet zijn opgeslagen, in uw Google-spreadsheet kunt importeren.  Denk aan de enorme hoeveelheid gegevens die vandaag op het internet beschikbaar is in de vorm van HTML-tabellen.
Advertentie

gegevens importeren in google spreadsheet Als het gaat om online databases en informatie die te vinden is in wat bekendstaat als het "onzichtbare web 10 Zoekmachines om het onzichtbare web te verkennen 10 Zoekmachines om het onzichtbare web te verkennen We kennen het web. Maar wist u dat er een enorm cachegeheugen aan informatie is dat zoekmachines als Google geen directe toegang hebben? Dit is het onzichtbare web. Meer lezen ", ik ben niet uw typische gebruiker. Natuurlijk besteed ik een beetje te veel van mijn tijd aan het doorzoeken van online databases op plaatsen zoals het National Archives en de CIA FOIA leeszaal, maar ik moet zeggen dat ik er meer opgewonden van word dan wanneer ik een op HTML gebaseerde tabel vind vol met volumes van schijnbaar complexe en niet-verbonden gegevens.

Feit is dat datatabellen een goudmijn zijn van belangrijke waarheden. Gegevens worden vaak verzameld door legers van gegeurde gegevensverzameling met laarzen op de grond. U hebt mensen uit de Amerikaanse Census die het hele land doorkruisen voor informatie over het gezin en het gezin. Je hebt milieuorganisaties zonder winstoogmerk die allerlei interessante informatie verzamelen over het milieu, vervuiling, het broeikaseffect en meer. En als je van het paranormale of de ufologische kennis houdt, zijn er ook voortdurend bijgewerkte tabellen met informatie over waarnemingen van vreemde objecten in de lucht boven ons.

Ironisch genoeg zou je denken dat elke regering in de wereld geïnteresseerd zou zijn om te weten wat voor soort buitenlandse vaartuigen er in de lucht boven welk land dan ook worden gespot, maar blijkbaar niet - althans niet in de VS toch. In Amerika is de verzameling ongewone waarnemingen van ambachten gedegradeerd tot teams van amateur-hobbyisten die zich masseren naar nieuwe UFO-waarnemingen zoals motten tot een vlam. Mijn interesse in deze waarnemingen komt eigenlijk niet voort uit een fascinatie voor buitenaardse wezens of ambachten van andere planeten, maar uit een wetenschappelijke fascinatie met patronen - waar en waarom meer mensen dingen in de lucht zien en of die waarnemingen iets heel echts en veel kunnen weerspiegelen meer down-to-earth gebeurt eigenlijk.

Om de hoeveelheden gegevens te verkennen die zijn verzameld door teams van UFO-hobbyisten, heb ik eigenlijk een manier ontwikkeld om grote HTML-tabellen met gegevens in een Google-spreadsheet te importeren en die gegevens te manipuleren en te analyseren om zinvolle en belangrijke informatie te extraheren en te ontdekken. In dit artikel wil ik je laten zien hoe je hetzelfde kunt doen.

Belangrijke HTML-gegevens in Google-spreadsheet

In dit voorbeeld laat ik u zien hoe u gegevens die in een tabel op een website op internet zijn opgeslagen, in uw Google-spreadsheet kunt importeren. Denk aan de enorme hoeveelheid gegevens die vandaag op het internet beschikbaar is in de vorm van HTML-tabellen. Wikipedia alleen heeft gegevens in tabellen voor onderwerpen zoals het broeikaseffect, het US Census Bureau heeft tonnen bevolkingsgegevensverzamelingen en een klein beetje van Googelen zal je nog veel meer dan dat land opleveren.

In mijn voorbeeld begin ik met een database in het National UFO Reporting Center, die er in werkelijkheid uitziet als een diepgewortelde query-achtige database, maar als je de URL-structurering observeert, is het eigenlijk een semi-complexe website. gebaseerd rapportagesysteem bestaande uit statische webpagina's en statische HTML-tabellen - precies wat we willen bij het zoeken naar gegevens om te importeren.
gegevens importeren in google spreadsheet
NUForc.org is een van die organisaties die als een van de grootste meldpunten voor UFO-waarnemingen fungeert. Het is niet de enige, maar het is groot genoeg om elke maand nieuwe datasets te vinden met actuele waarnemingen. U kiest ervoor om de gegevens te bekijken op basis van criteria zoals Staat of Datum, en elk daarvan wordt aangeboden in de vorm van een statische pagina. Als u op datum sorteert en vervolgens op de meest recente datum klikt, ziet u dat de daar vermelde tabel een statische webpagina is met de naam van de datumnotatie.
gegevens importeren in Google Docs
We hebben nu dus een patroon om regelmatig de nieuwste waarnemingen te extraheren uit deze HTML-gebaseerde database. Het enige wat u hoeft te doen is de eerste tabel importeren, de meest recente invoer (de bovenste) gebruiken om de nieuwste update te identificeren en vervolgens de datum van die posting gebruiken om de URL-koppeling te maken waar de nieuwste HTML-gegevenstabel bestaat. Om dit te doen zijn eenvoudigweg een paar exemplaren van de ImportHTML-functie nodig en vervolgens een paar creatieve gebruiken van tekstmanipulatiefuncties. Als u klaar bent, beschikt u over een van de coolste, zelfbijwerkende rapporteringsspreadsheets van uzelf. Laten we beginnen.

Tabellen importeren en gegevens manipuleren

De eerste stap is natuurlijk om de nieuwe spreadsheet te maken.
gegevens importeren in Google Docs
Dus, hoe importeer je HTML-tabellen? Het enige dat u nodig heeft, is de URL waar de tabel is opgeslagen en het nummer van de tabel op de pagina - meestal is de eerste die wordt weergegeven 1, de tweede is 2, enzovoort. Omdat ik de URL weet van die eerste tabel met lijstdatums en tellingen van waarnemingen, is het mogelijk om te importeren door de volgende functie in cel A1 te typen.

= ImportHTML ( “http://www.nuforc.org/webreports/ndxpost.html?” & H2, ”table”, 1)

H2 heeft de functie " = uur (nu ()) ", dus de tabel wordt elk uur bijgewerkt. Dit is waarschijnlijk extreem voor gegevens die dit niet vaak bijwerken, dus ik zou waarschijnlijk wegkomen met het dagelijks doen. Hoe dan ook, de bovenstaande ImportHTML-functie haalt de tabel zoals hieronder getoond.
UFOReport4
U moet een beetje gegevensmanipulatie op deze pagina uitvoeren voordat u de URL voor de tweede tabel kunt samenvoegen met alle UFO-waarnemingen. Maar ga door en maak het tweede blad in de werkmap.
gegevens importeren in Google Docs
Voordat u probeert dat tweede blad te maken, wordt het tijd om de postdatum uit deze eerste tabel te extraheren om de koppeling naar de tweede tabel te maken. Het probleem is dat de datum wordt ingevoerd als een datumindeling, niet als een tekenreeks. Dus u moet eerst de functie TEKST gebruiken om de rapportdatum in een tekenreeks om te zetten:

= tekst (A2, ”mm / dd / jj”)

In de volgende cel rechts moet u de SPLIT-functie gebruiken met het scheidingsteken "/" om de datum op te splitsen in maand, dag en jaar.

= split (D2, ”/”)
importeren in google spreadsheet
Ziet er goed uit! Elk nummer moet echter tot twee cijfers worden gedwongen. Je doet dit in de cellen direct onder hen met het commando TEXT opnieuw.

= tekst (E2, ”00")

Een indeling van "00" (dat zijn nullen) dwingt twee cijfers of een "0" als tijdelijke aanduiding.
importeren in google spreadsheet
Nu bent u klaar om de volledige URL opnieuw te bouwen naar de nieuwste HTML-tabel met nieuwe waarnemingen. U kunt dit doen door de CONCATENATE-functie te gebruiken en alle stukjes informatie samen te voegen die u zojuist uit de eerste tabel hebt gehaald.

= TEKST.SAMENVOEGEN ( “http://www.nuforc.org/webreports/ndxp”, G3, E3, F3, ”.html”)
importeren in google spreadsheet
Nu, op het nieuwe blad dat je hierboven hebt gemaakt (het lege blad), ga je een nieuwe "importhtml" -functie doen, maar dit keer voor de eerste URL-koppelingsparameter, dus je gaat terug naar het eerste werkblad navigeren en klik op de cel met de URL-koppeling die u zojuist hebt gemaakt.
UFOReport9
De tweede parameter is "tabel" en de laatste is "1" (omdat de waarnemingstabel de eerste en enige op de pagina is). Druk op enter en nu hebt u zojuist het volledige aantal waarnemingen geïmporteerd die op die specifieke datum zijn gepost.
UFOReport10
Dus je denkt waarschijnlijk dat dit een leuke nieuwigheid is en zo - ik bedoel, tenslotte, wat je hebt gedaan is bestaande informatie uit een tabel op het internet halen en deze naar een andere tafel migreren, zij het een privé-tabel in je Google Docs-account. Ja dat is waar. Nu het echter in uw eigen privé-Google Documenten-account staat, hebt u binnen handbereik de tools en functies om die gegevens beter te analyseren en verbluffende verbindingen te ontdekken.

Pivot-rapporten gebruiken om geïmporteerde gegevens te analyseren

Onlangs nog schreef ik een artikel over het gebruik van draaiboeken in Google Spreadsheet Een analyst van deskundige gegevens worden 's nachts met Google Spreadsheet-rapporttools Word een expert van gegevensanalisten' s nachts Google Spreadsheet-rapporthulpmiddelen gebruiken Wist u dat een van de beste tools van allemaal om gegevens uit te voeren analyse is eigenlijk Google Spreadsheet? De reden hiervoor is niet alleen omdat het bijna alles kan doen wat je zou willen ... Lees meer om allerlei coole data-analyseprestaties uit te voeren. Welnu, u kunt dezelfde verbluffende acrobatiek van gegevensanalyses uitvoeren op de gegevens die u van internet hebt geïmporteerd - waardoor u interessante verbindingen kunt ontdekken die mogelijk niemand anders vóór u heeft ontdekt.

In de laatste waarnemingstabel zou ik bijvoorbeeld kunnen besluiten om een ​​spilrapport te gebruiken om het aantal verschillende unieke vormen te bekijken dat in elke staat is gerapporteerd, vergeleken met het totale aantal waarnemingen in die specifieke staat. Ten slotte filter ik ook alles wat 'buitenaardse wezens' noemt in het commentaargedeelte, om hopelijk wat van de meer wingnut-inzendingen te verwijderen.
UFOReport11
Dit onthult feitelijk enkele vrij interessante dingen, zoals het feit dat Californië duidelijk het hoogste aantal gerapporteerde waarnemingen van een andere staat heeft, samen met het onderscheid tussen het melden van het grootste aantal ambachtelijke vormen in het land. Het laat ook zien dat Massachusetts, Florida en Illinois ook grote slagers zijn op de UFO-waarnemingenafdeling (althans in de meest recente gegevens).

Een ander goed ding over Google Spreadsheet is de brede reeks van grafieken die voor u beschikbaar zijn, inclusief een Geo-Map waarmee u 'hotspots' van gegevens in een grafisch formaat kunt neerzetten die er echt uitspringt en die verbindingen binnen de gegevens vrij duidelijk maakt.
gegevens importeren in google spreadsheet
Als je erover nadenkt, is dit echt slechts het topje van de ijsberg. Als u nu gegevens van gegevenstabellen op elke pagina op internet kunt importeren, moet u gewoon denken aan de mogelijkheden. Ontvang de nieuwste aandelennummers, of de meest recente top 10 boeken en auteurs op de bestsellerlijst van de New York Times, of de best verkopende auto's ter wereld. Er zijn HTML-tabellen beschikbaar voor bijna elk onderwerp dat u maar kunt bedenken en in veel gevallen worden die tabellen vaak bijgewerkt.

ImportHtml biedt u de mogelijkheid om uw Google-spreadsheet op internet aan te sluiten en de gegevens die daar aanwezig zijn, in te voeren. Het kan je eigen persoonlijke informatiepunt worden dat je kunt gebruiken om te manipuleren en te masseren in een formaat waarmee je echt kunt werken. Het is nog iets leuker om van Google Spreadsheet te houden.

Heeft u ooit gegevens in uw spreadsheets geïmporteerd? Wat voor interessante dingen heb je in die gegevens ontdekt? Hoe hebt u de gegevens gebruikt? Deel uw ervaringen en ideeën in de comments hieronder!

Beeldcredits: zakelijke grafiek

In this article