Importer data fra PDF til Excel via Power Query

Oppgaven med å overføre data fra et regneark i en PDF-fil til et Microsoft Excel-ark er alltid "morsomt". Spesielt hvis du ikke har dyr gjenkjenningsprogramvare som FineReader eller noe sånt. Direkte kopiering fører vanligvis ikke til noe godt, fordi. etter å ha limt inn de kopierte dataene på arket, vil de mest sannsynlig "klemmes sammen" i én kolonne. Så de må da møysommelig skilles ved hjelp av et verktøy Tekst etter kolonner fra fanen Data (Data – tekst til kolonner).

Og selvfølgelig er kopiering kun mulig for de PDF-filene hvor det er et tekstlag, dvs. med et dokument som nettopp er skannet fra papir til PDF, vil dette i prinsippet ikke fungere.

Men det er ikke så trist, egentlig 🙂

Hvis du har Office 2013 eller 2016, er det i løpet av et par minutter, uten ekstra programmer, fullt mulig å overføre data fra PDF til Microsoft Excel. Og Word og Power Query vil hjelpe oss med dette.

La oss for eksempel ta denne PDF-rapporten med en haug med tekst, formler og tabeller fra nettstedet til Den økonomiske kommisjonen for Europa:

Importer data fra PDF til Excel via Power Query

... og prøv å trekke ut det i Excel, si den første tabellen:

Importer data fra PDF til Excel via Power Query

La oss gå!

Trinn 1. Åpne PDF i Word

Av en eller annen grunn er det få som vet, men siden 2013 har Microsoft Word lært å åpne og gjenkjenne PDF-filer (selv skannede, altså uten tekstlag!). Dette gjøres på en helt standard måte: åpne Word, klikk Fil – Åpne (Fil – Åpne) og spesifiser PDF-formatet i rullegardinlisten i nedre høyre hjørne av vinduet.

Velg deretter PDF-filen vi trenger og klikk Åpen (Åpen). Word forteller oss at det kommer til å kjøre OCR på dette dokumentet til tekst:

Importer data fra PDF til Excel via Power Query

Vi er enige, og om noen sekunder vil vi se PDF-en vår åpne for redigering allerede i Word:

Importer data fra PDF til Excel via Power Query

Selvfølgelig vil design, stiler, fonter, topp- og bunntekster osv. delvis fly av dokumentet, men dette er ikke viktig for oss – vi trenger kun data fra tabeller. I prinsippet, på dette stadiet, er det allerede fristende å kopiere tabellen fra det anerkjente dokumentet til Word og bare lime den inn i Excel. Noen ganger fungerer det, men oftere fører det til alle slags dataforvrengninger – for eksempel kan tall bli til datoer eller forbli tekst, som i vårt tilfelle, fordi. PDF bruker ikke-separatorer:

Importer data fra PDF til Excel via Power Query

Så la oss ikke kutte hjørner, men gjøre alt litt mer komplisert, men riktig.

Trinn 2: Lagre dokumentet som en webside

For deretter å laste de mottatte dataene inn i Excel (via Power Query), må dokumentet vårt i Word lagres i websideformatet – dette formatet er i dette tilfellet en slags fellesnevner mellom Word og Excel.

For å gjøre dette, gå til menyen Fil – Lagre som (Fil — Lagre som) eller trykk på tasten F12 på tastaturet og i vinduet som åpnes, velg filtypen Nettside i én fil (Nettside – enkelt fil):

Importer data fra PDF til Excel via Power Query

Etter lagring bør du få en fil med mhtml-utvidelsen (hvis du ser filutvidelser i Utforsker).

Trinn 3. Laste opp filen til Excel via Power Query

Du kan åpne den opprettede MHTML-filen i Excel direkte, men da får vi for det første alt innholdet i PDF-en på en gang, sammen med tekst og en haug med unødvendige tabeller, og for det andre vil vi igjen miste data på grunn av feil separatorer. Derfor vil vi gjøre importen til Excel gjennom Power Query-tillegget. Dette er et helt gratis tillegg som du kan laste opp data til Excel fra nesten hvilken som helst kilde (filer, mapper, databaser, ERP-systemer) og deretter transformere de mottatte dataene på alle mulige måter, og gi den ønsket form.

Hvis du har Excel 2010-2013, kan du laste ned Power Query fra det offisielle Microsoft-nettstedet - etter installasjonen vil du se en fane Strømforespørsel. Hvis du har Excel 2016 eller nyere, trenger du ikke laste ned noe – all funksjonalitet er allerede innebygd i Excel som standard og ligger på fanen Data (Dato) i gruppe Last ned og konverter (Få og transformer).

Så vi går enten til fanen Data, eller på fanen Strømforespørsel og velg et lag For å få data or Lag spørring – Fra fil – Fra XML. For å gjøre synlige ikke bare XML-filer, endre filtrene i rullegardinlisten i nedre høyre hjørne av vinduet til Alle filer (Alle filer) og spesifiser MHTML-filen vår:

Importer data fra PDF til Excel via Power Query

Vær oppmerksom på at importen ikke vil fullføres, fordi. Power Query forventer XML fra oss, men vi har faktisk et HTML-format. Derfor, i det neste vinduet som vises, må du høyreklikke på filen som er uforståelig for Power Query og spesifisere formatet:

Importer data fra PDF til Excel via Power Query

Etter det vil filen bli riktig gjenkjent, og vi vil se en liste over alle tabellene den inneholder:

Importer data fra PDF til Excel via Power Query

Du kan se innholdet i tabellene ved å klikke med venstre museknapp på den hvite bakgrunnen (ikke i ordet Tabell!) i cellene i Data-kolonnen.

Når ønsket tabell er definert, klikk på det grønne ordet Bord – og du "faller gjennom" i innholdet:

Importer data fra PDF til Excel via Power Query

Det gjenstår å gjøre noen få enkle trinn for å "kjemme" innholdet, nemlig:

  1. slett unødvendige kolonner (høyreklikk på kolonneoverskriften - fjerne)
  2. erstatt prikker med komma (velg kolonner, høyreklikk – Erstatter verdier)
  3. fjern likhetstegn i overskriften (velg kolonner, høyreklikk – Erstatter verdier)
  4. fjern den øverste linjen (Hjemprodukt – Slett linjer – Slett øverste linjer)
  5. fjerne tomme linjer (Hjem – Slett linjer – Slett tomme linjer)
  6. heve den første raden til tabelloverskriften (Hjem – Bruk første linje som overskrifter)
  7. filtrere ut unødvendige data ved hjelp av et filter

Når bordet er brakt til normal form, kan det lastes av på arket med kommandoen lukk og last ned (Lukk og last inn) on Den viktigste fanen. Og vi vil få en slik skjønnhet som vi allerede kan jobbe med:

Importer data fra PDF til Excel via Power Query

  • Forvandle en kolonne til en tabell med Power Query
  • Deler opp klebrig tekst i kolonner

Legg igjen en kommentar