Voer data van PDF na Excel in via Power Query

Die taak om data van 'n sigblad in 'n PDF-lêer na 'n Microsoft Excel-blad oor te dra, is altyd "pret". Veral as jy nie duur herkenningsagteware soos FineReader of so iets het nie. Direkte kopiëring lei gewoonlik nie tot iets goeds nie, want. nadat die gekopieerde data op die blad geplak is, sal hulle heel waarskynlik in een kolom "aanmekaar vassit". Hulle sal dus noukeurig met behulp van 'n gereedskap geskei moet word Teks volgens kolomme vanaf die blad data (Data – teks na kolomme).

En natuurlik is kopiëring slegs moontlik vir daardie PDF-lêers waar daar 'n tekslaag is, maw met 'n dokument wat pas van papier na PDF geskandeer is, sal dit in beginsel nie werk nie.

Maar dit is regtig nie so hartseer nie 🙂

As jy Office 2013 of 2016 het, is dit binne 'n paar minute, sonder bykomende programme, heel moontlik om data van PDF na Microsoft Excel oor te dra. En Word and Power Query sal ons hierin help.

Kom ons neem byvoorbeeld hierdie PDF-verslag met 'n klomp teks, formules en tabelle van die webwerf van die Ekonomiese Kommissie vir Europa:

Voer data van PDF na Excel in via Power Query

… en probeer om daaruit te trek in Excel, sê die eerste tabel:

Voer data van PDF na Excel in via Power Query

Kom ons gaan!

Stap 1. Maak PDF in Word oop

Om een ​​of ander rede weet min mense, maar sedert 2013 het Microsoft Word geleer om PDF-lêers oop te maak en te herken (selfs geskandeerdes, dit wil sê sonder 'n tekslaag!). Dit word op 'n heeltemal standaard manier gedoen: maak Word oop, klik Lêer - Maak oop (Lêer - oop) en spesifiseer die PDF-formaat in die aftreklys in die onderste regterhoek van die venster.

Kies dan die PDF-lêer wat ons benodig en klik Opening (Oop). Word sê vir ons dat dit OCR gaan laat loop op hierdie dokument na teks:

Voer data van PDF na Excel in via Power Query

Ons stem saam en binne 'n paar sekondes sal ons sien dat ons PDF reeds in Word oop is vir redigering:

Voer data van PDF na Excel in via Power Query

Natuurlik sal die ontwerp, style, lettertipes, kop- en voettekste, ens. gedeeltelik van die dokument af vlieg, maar dit is nie vir ons belangrik nie – ons benodig net data van tabelle. In beginsel is dit op hierdie stadium reeds aanloklik om eenvoudig die tabel van die erkende dokument na Word te kopieer en dit eenvoudig in Excel te plak. Soms werk dit, maar meer dikwels lei dit tot allerhande dataverdraaiings – getalle kan byvoorbeeld in datums verander of teks bly, soos in ons geval, want. PDF gebruik nie-skeiers:

Voer data van PDF na Excel in via Power Query

Laat ons dus nie hoeke sny nie, maar maak alles 'n bietjie meer ingewikkeld, maar reg.

Stap 2: Stoor die dokument as 'n webblad

Om dan die ontvangde data in Excel (via Power Query) te laai, moet ons dokument in Word in die webbladformaat gestoor word – hierdie formaat is in hierdie geval 'n soort gemene deler tussen Word en Excel.

Om dit te doen, gaan na die spyskaart Lêer – Stoor as (Lêer - Stoor as) of druk die sleutel F12 op die sleutelbord en in die venster wat oopmaak, kies die lêertipe Webblad in een lêer (Webblad - Enkel lêer):

Voer data van PDF na Excel in via Power Query

Nadat u gestoor het, behoort u 'n lêer met die mhtml-uitbreiding te kry (as u lêeruitbreidings in Explorer sien).

Fase 3. Laai die lêer op na Excel via Power Query

U kan die geskepte MHTML-lêer direk in Excel oopmaak, maar dan sal ons eerstens al die inhoud van die PDF gelyktydig kry, tesame met teks en 'n klomp onnodige tabelle, en tweedens sal ons weer data verloor as gevolg van verkeerde skeiers. Daarom sal ons die invoer in Excel doen deur die Power Query-byvoeging. Dit is 'n heeltemal gratis byvoeging waarmee jy data vanaf bykans enige bron (lêers, vouers, databasisse, ERP-stelsels) na Excel kan oplaai en dan die ontvangde data op elke moontlike manier kan transformeer en dit die gewenste vorm gee.

As jy Excel 2010-2013 het, kan jy Power Query aflaai vanaf die amptelike Microsoft-webwerf - na installasie sal jy 'n oortjie sien Kragnavraag. As jy Excel 2016 of nuwer het, hoef jy niks af te laai nie – al die funksionaliteit is reeds by verstek in Excel ingebou en is op die blad geleë data (Datum) in groep Laai af en omskep (Kry en transformeer).

So ons gaan óf na die blad data, of op die blad Kragnavraag en kies 'n span Om data te kry or Skep navraag - Van lêer - Van XML. Om nie net XML-lêers sigbaar te maak nie, verander die filters in die aftreklys in die onderste regterhoek van die venster na Alle lêers (Alle lêers) en spesifiseer ons MHTML lêer:

Voer data van PDF na Excel in via Power Query

Neem asseblief kennis dat die invoer nie suksesvol sal voltooi nie, want. Power Query verwag XML van ons, maar ons het eintlik 'n HTML-formaat. Daarom, in die volgende venster wat verskyn, moet u regskliek op die lêer wat vir Power Query onverstaanbaar is en die formaat daarvan spesifiseer:

Voer data van PDF na Excel in via Power Query

Daarna sal die lêer korrek herken word en ons sal 'n lys sien van al die tabelle wat dit bevat:

Voer data van PDF na Excel in via Power Query

Jy kan die inhoud van die tabelle bekyk deur met die linkermuisknoppie op die wit agtergrond (nie in die woord Tabel nie!) van die selle in die Datakolom te klik.

Wanneer die verlangde tabel gedefinieer is, klik op die groen woord Tabel – en jy “val deur” in die inhoud daarvan:

Voer data van PDF na Excel in via Power Query

Dit bly om 'n paar eenvoudige stappe te doen om die inhoud daarvan te "kam", naamlik:

  1. verwyder onnodige kolomme (regskliek op die kolomopskrif – Verwyder)
  2. vervang kolletjies met kommas (kies kolomme, regskliek – Vervang waardes)
  3. verwyder gelyke tekens in die kopskrif (kies kolomme, regskliek - Vervang waardes)
  4. verwyder die boonste lyn (What is This – Vee reëls uit – Vee boonste reëls uit)
  5. verwyder leë reëls (Tuis – Vee reëls uit – Vee leë reëls uit)
  6. verhoog die eerste ry na die tabelopskrif (Tuis – Gebruik eerste reël as opskrifte)
  7. filter onnodige data uit met behulp van 'n filter

Wanneer die tafel na sy normale vorm gebring word, kan dit met die opdrag op die blad afgelaai word maak toe en laai af (Maak toe en laai) on Die belangrikste oortjie. En ons sal sulke skoonheid kry waarmee ons reeds kan werk:

Voer data van PDF na Excel in via Power Query

  • Omskep 'n kolom na 'n tabel met Power Query
  • Verdeel taai teks in kolomme

Lewer Kommentaar