Wat zou je zeggen als ik je zou vertellen dat je de tools tot je beschikking hebt om baanbrekend, wereldschokkend onderzoek te doen? Wel, dat doet u, en ik zal u laten zien hoe.
Overheden, academische instellingen en non-profit onderzoeksorganisaties publiceren tabellen vol met gegevens in het publieke domein. Zonder dat iemand deze informatie gebruikt, zal de echte waarde nooit bekend worden. Helaas hebben weinig mensen het inzicht, de vaardigheden of de hulpmiddelen om de gegevens te nemen en interessante verbanden te leggen tussen schijnbaar niet-verbonden informatie.
Achtergrond
Veel van het onderzoek dat ik voor mijn eigen blog doe, bestaat erin om door het zogenaamde onzichtbare web te graven. 10 Zoekmachines om het onzichtbare web te verkennen 10 Zoekmachines om het onzichtbare web te verkennen We kennen het web. Maar wist u dat er een enorm cachegeheugen aan informatie is dat zoekmachines als Google geen directe toegang hebben? Dit is het onzichtbare web. Lees meer, om gegevens te onthullen die zijn vrijgegeven voor het publiek, maar verborgen zijn voor zoekmachines De 5 meest geavanceerde zoekmachines op het web De 5 meest geavanceerde zoekmachines op internet Lees meer in een online database. Dit is het deep web TorSearch streeft ernaar Google For The Deep Web te zijn TorSearch heeft de ambitie om de Google For The Deep Web te zijn Tor is een verborgen dienst en onderdeel van Deep Web. TorSearch is een nieuwe, anonieme zoekmachine waarvan oprichter Chris MacNaughton de "Google of Tor" wil maken. Meer lezen en het staat vol met waardevolle gegevens. Heel vaak kom ik webpagina's tegen die net gevuld zijn met enkele van de meest waardevolle gegevens over onderwerpen die het hele gamma van censusdata tot epidemiologische studies over zeldzame ziekten lopen. Ik heb constant nieuwe ideeën over hoe je die ongelijksoortige gegevensbronnen kunt proberen te correleren met verschillende hulpmiddelen - en een van de meest waardevolle tools die ik heb gevonden, is de Web Query in Microsoft Excel.
Interessante gegevenscorrelaties vinden
Wat ik u vandaag laat zien, is een voorbeeld van hoe u Excel Web Queries kunt gebruiken om gegevens van verschillende websites in te voeren en in kaart te brengen om mogelijke correlaties tussen de gegevens te zoeken.
De manier om een oefening als deze te starten is om een interessante hypothese te bedenken. Bijvoorbeeld - om het hier interessant te houden - ga ik willekeurig veronderstellen dat torenhoge autismetarieven in de Verenigde Staten worden veroorzaakt door vaccin-inentingen of de toenemende aanwezigheid van elektromagnetische velden in en rond kinderen, zoals mobiele telefoons. Het is een gekke hypothese zoals die je op de meeste complottheorieënwebsites zult vinden, maar dat maakt dit leuk. Dus laten we beginnen, zullen we?
Open eerst Excel, ga naar het gegevensmenu-item en zoek het pictogram "Van web" in het menulint.
Dit is wat u zult gebruiken om de verschillende gegevenstabellen te importeren van de vele websites die daar zijn gepubliceerd.
Webgegevens importeren in Excel
Vroeger moest je dus proberen de gegevens van die tabel op een webpagina te kopiëren, in Excel te plakken en vervolgens alle gekke opmaakproblemen die daarmee gepaard gaan aan te pakken. Totaal gedoe, en vaak is het de hoofdpijn niet waard. Nou, met Excel Web Queries zijn die dagen voorbij. Voordat u de gegevens kunt importeren, moet u natuurlijk eerst Google rondkijken op het web om de gegevens te vinden die u nodig heeft in tabelformaat. In mijn geval vond ik een website die het Department of Education-statistieken publiceerde voor het aantal Amerikaanse openbare schoolstudenten waarvan werd vastgesteld dat ze autisme hadden. Een mooie tabel daar leverde cijfers uit 1994 tot en met 2006.
Dus u klikt gewoon op "Van internet", plakt de webpagina-URL in het veld voor het adres van de vraag en scrolt vervolgens omlaag totdat u de gele pijl ziet naast de tabel met de gegevens die u wilt importeren.
Klik op de pijl zodat deze een groen vinkje wordt.
Vertel ten slotte aan Excel in welk veld u de tabelgegevens in de nieuwe spreadsheet wilt plakken.
Toen - Voila! De gegevens vloeien automatisch naar uw spreadsheet.
Dus, met een trend van autismetarieven voor openbare scholen van 1996 - 2006, is het tijd om ook op zoek te gaan naar trends in vaccinatie en mobiele telefoons.
Gelukkig vond ik snel trends voor mobiele telefoonabonnees in de VS van 1985 tot en met 2012. Uitstekende gegevens voor dit specifieke onderzoek. Nogmaals, ik heb de Excel Web Query-tool gebruikt om die tabel te importeren.
Ik heb die tabel geïmporteerd in een schoon, nieuw blad. Toen ontdekte ik de vaccinatietrends voor het percentage schoolkinderen dat gevaccineerd was voor verschillende ziekten. Ik heb die tabel geïmporteerd met de Web Query-tool in een derde blad. Dus uiteindelijk had ik drie sheets met de drie tabellen vol met de ogenschijnlijk niet-verbonden gegevens die ik op het web had ontdekt.
De volgende stap is het gebruik van Excel om de gegevens te analyseren en eventuele correlaties te identificeren. Dat is waar een van mijn favoriete tools voor gegevensanalyse in het spel komt: de draaitabel.
Gegevens analyseren in Excel met de draaitabel
Het is het beste om uw draaitabel te maken in een gloednieuw, leeg vel. U wilt de wizard gebruiken voor wat u gaat doen. Om de draaitabel-wizard in Excel in te schakelen, moet u tegelijkertijd op Alt-D drukken totdat een meldingsvenster verschijnt. Laat vervolgens die knoppen los en druk op de "P" -toets. Dan zie je de wizard verschijnen.
In het eerste venster van de wizard wilt u "Meerdere consolidatiebereiken" selecteren, waarmee u de gegevens van alle bladen die u hebt geïmporteerd kunt selecteren. Door dit te doen, kunt u al die ogenschijnlijk niet-verwante gegevens samenvoegen tot één, krachtig draaibaar. In sommige gevallen moet u mogelijk sommige gegevens masseren. Ik moest bijvoorbeeld het veld "Jaar" in de autismetabel corrigeren zodat het "1994" toonde in plaats van "1994-95" - waardoor het beter in lijn lag met de tabellen op de andere bladen, die ook het primaire jaar hadden veld.
Dat gemeenschappelijke veld tussen gegevens is wat u nodig hebt om te proberen informatie te correleren, dus houd dat in gedachten wanneer u op het web jaagt op uw gegevens.
Zodra de draaitabel is voltooid en alle verschillende gegevenswaarden in één tabel worden weergegeven, is het tijd om een visuele analyse uit te voeren om te zien of er een voor de hand liggende verbinding is die naar u springt.
Het visualiseren van gegevens is essentieel
Een aantal getallen in een tabel hebben is geweldig als je een econoom bent, maar de snelste en gemakkelijkste manier om dat "aha!" Moment te hebben wanneer je verbindingen probeert te vinden zoals een speld in een hooiberg, is via grafieken en grafieken. Zodra u uw draaigrafiek op zijn plaats hebt met alle gegevenssets die u hebt verzameld, is het tijd om uw grafiek te maken. Gewoonlijk doet een lijngrafiek het het beste, maar deze is afhankelijk van de gegevens. Er zijn tijden dat een staafdiagram veel beter werkt. Probeer te begrijpen naar wat voor soort gegevens u kijkt en welke vormvergelijkingen het beste werken.
In dit geval kijk ik naar gegevens in de loop van de tijd, dus een lijndiagram is echt de beste manier om trends door de jaren heen te bekijken. In kaart brengen autisme tarieven (groen) tegen verkleinde vaccinatiesnelheden (donkerblauw), waterpokken-vaccins (lichtblauw) en het gebruik van mobiele telefoons (paars), een vreemde correlatie verscheen plotseling in deze steekproef van gegevens die ik speelde.
Vreemd genoeg was de trend in het gebruik van mobiele telefoons van 1994 tot en met 2006 bijna perfect afgestemd op de stijging van autisme in dezelfde periode. Hoewel het patroon compleet onverwacht was, is het een perfect voorbeeld van hoe interessante gegevens aan elkaar kunnen worden gekoppeld om fascinerende leads te onthullen. Zo krijg je meer inzicht en motivatie om vooruit te blijven gaan en te zoeken naar meer gegevens die je hypothese verder kunnen versterken.
Eén correlatie zoals hierboven leert niets. Er zijn tal van trends die stijgen in de tijd - het patroon kan toeval zijn, maar het kan ook een belangrijke aanwijzing zijn in je voortdurende zoektocht naar meer gegevens op internet. Gelukkig beschikt u over een krachtige tool met de naam Excel Web Queries die ervoor zorgt dat die zoektocht net iets eenvoudiger wordt.
Photo Credit: Kevin Dooley via fotopin cc