Skanna og texta viðurkenningu

Pin
Send
Share
Send

Góðan daginn

Sennilega stóðu okkur öll frammi fyrir verkefninu þegar nauðsynlegt var að þýða pappírsskjal yfir á rafrænt form. Þetta er sérstaklega oft nauðsynlegt fyrir þá sem læra, vinna með skjöl, þýða texta með rafrænum orðabókum o.s.frv.

Í þessari grein vil ég deila nokkrum grunnatriðum þessa ferlis. Almennt er að skanna og þekkja texta nokkuð tímafrekt þar sem flestar aðgerðir verða að fara fram handvirkt. Við munum reyna að reikna út hvað, hvernig og hvers vegna.

Ekki allir skilja strax eitt. Eftir skönnun (passa öll blöðin á skannanum) munt þú hafa myndir á BMP, JPG, PNG, GIF sniði (það geta verið önnur snið). Svo af þessari mynd þarftu að fá textann - þessi aðferð kallast viðurkenning. Í þessari röð verður yfirlýsingin hér að neðan.

Efnisyfirlit

  • 1. Hvað þarf til skönnunar og viðurkenningar?
  • 2. Valkostir textaskanna
  • 3. Viðurkenning texta skjalsins
    • 3.1 Texti
    • 3.2 Myndir
    • 3.3 Töflur
    • 3.4 Óþarfir hlutir
  • 4. Viðurkenning á PDF / DJVU skrám
  • 5. Athugun á villum og vistun niðurstaðna

1. Hvað þarf til skönnunar og viðurkenningar?

1) Skanni

Til að umbreyta prentuðum skjölum í texta þarftu fyrst skanni og í samræmi við það „innfæddur“ forrit og reklar sem fylgdu því. Með því að nota þau getur þú skannað skjal og vistað það til frekari vinnslu.

Þú getur notað aðrar hliðstæður, en hugbúnaðurinn sem fylgdi skannanum í settinu virkar venjulega hraðar og hefur fleiri möguleika.

Það fer eftir því hvers konar skanni þú ert með, vinnuhraðinn getur verið mjög breytilegur. Til eru skannar sem geta fengið mynd frá blaði á 10 sekúndum, það eru þeir sem fá á 30 sekúndum. Ef þú skannar bók fyrir 200-300 blöð - held ég að það sé ekki erfitt að reikna út hversu oft það er tímamismunur?

 

2) Viðurkenningaráætlun

Í grein okkar mun ég sýna þér verkið í einu af bestu forritunum til að skanna og viðurkenna nákvæmlega öll skjöl - ABBYY FineReader. Vegna þess að Þar sem forritið er greitt mun ég strax gefa hlekk til annars - ókeypis hliðstæða þess Cunei Form. Satt að segja myndi ég ekki bera þær saman, vegna þess að FineReader vinnur að öllu leyti, ég mæli samt með að prófa það.

ABBYY FineReader 11

Opinber vefsíða: //www.abbyy.ru/

Eitt besta prógramm sinnar tegundar. Það er hannað til að þekkja textann á myndinni. Innbyggður-í mörgum valkostum og aðgerðum. Það getur parað fullt af letri, það styður jafnvel handskrifaða valkosti (þó að ég hafi ekki prófað það persónulega, ég held að það sé ólíklegt að það muni geta þekkst handskrifaða útgáfuna, nema þú hafir fullkomna skrautskrift að handriti). Nánari upplýsingar um að vinna með það verður lýst hér að neðan. Hér höfum við einnig tekið eftir því að greinin mun tala um að vinna í útgáfu 11 forritinu.

Að jafnaði eru mismunandi útgáfur af ABBYY FineReader ekki mjög frábrugðnar hvor annarri. Þú getur auðveldlega gert það sama í öðru. Helsti munurinn getur verið á þægindi, hraða forritsins og getu þess. Til dæmis neita fyrri útgáfur að opna PDF og DJVU ...

 

3) Skjöl til skönnunar

Já, svona ákvað ég að gera skjölin að sérstökum dálki. Í flestum tilvikum eru sumar kennslubækur, dagblöð, greinar, tímarit osfrv skannaðar. þessar bækur og þær bókmenntir sem eftirsóttar eru. Hvað er ég að leiða? Af persónulegri reynslu get ég sagt að margt sem þú vilt skanna er líklega nú þegar á netinu! Hversu oft hef ég persónulega sparað tíma þegar ég fann tiltekna bók sem þegar var skönnuð á netinu. Það eina sem ég þurfti að gera var að afrita textann í skjalið og halda áfram að vinna með það.

Frá þessu, einfalt ábending - áður en þú skannar eitthvað skaltu athuga hvort einhver hafi þegar skannað og þú þarft ekki að eyða tíma þínum.

 

2. Valkostir textaskanna

Hér mun ég ekki ræða ökumennina þína fyrir skannann, forritin sem fylgdu honum, vegna þess að allar gerðir skannans eru ólíkar, hugbúnaðurinn er líka mismunandi alls staðar og það er óraunhæft að giska á hvernig eigi að framkvæma aðgerðina.

En allir skannar hafa sömu stillingar, sem geta haft mikil áhrif á hraða og gæði vinnu þinnar. Við tölum bara um þau hér. Ég mun skrá í röð.

1) Skanngæði - DPI

Í fyrsta lagi skaltu stilla skanna gæði á valkostina að minnsta kosti 300 DPI. Það er jafnvel ráðlegt að stilla meira ef mögulegt er. Því hærra sem DPI vísirinn er, því skýrari verður myndin þín og því verður frekari vinnsla hraðari. Að auki, því meiri gæði skönnunarinnar, því minni villur sem þú verður að leiðrétta seinna.

Besti kosturinn veitir venjulega 300-400 DPI.

 

2) Litur

Þessi breytu hefur áhrif á skönnunartímann mjög sterkt (við the vegur, DPI hefur einnig áhrif, en þær eru svo sterkar, og aðeins þegar notandinn setur hátt gildi).

Venjulega eru þrjár stillingar:

- svart og hvítt (fullkomið fyrir venjulegan texta);

- grátt (hentugur fyrir texta með borðum og myndum);

- litur (fyrir litatímarit, bækur, almennt, skjöl þar sem litur er mikilvægur).

Venjulega fer skannatíminn eftir vali á litnum. Reyndar, ef þú ert með stórt skjal, þá mun jafnvel meira en 5-10 sekúndur á síðunni í heild renna út á viðeigandi tíma ...

 

3) Myndir

Þú getur fengið skjal ekki aðeins með skönnun, heldur einnig með því að ljósmynda það. Sem reglu, í þessu tilfelli áttu í einhverjum öðrum vandamálum: röskun á mynd, óskýrleika. Vegna þessa gæti verið þörf á lengri frekari klippingu og vinnslu á mótteknum texta. Persónulega mæli ég ekki með því að nota myndavélar í þessum viðskiptum.

Það er mikilvægt að hafa í huga að ekki er hægt að þekkja öll slík skjöl vegna þess að skannagæði geta verið mjög lítil ...

 

3. Viðurkenning texta skjalsins

Við gerum ráð fyrir að þú hafir fengið þykja vænt um skannaðar síður. Oftast eru þau snið: tif, bmb, jpg, png. Almennt fyrir ABBYY FineReader - þetta er ekki mjög mikilvægt ...

Eftir að mynd er opnuð í ABBYY FineReader velur forritið að jafnaði svæði sjálfkrafa og þekkir þau á vélinni. En stundum gerir hún það rangt. Við munum íhuga val á nauðsynlegum svæðum handvirkt.

Mikilvægt! Ekki allir skilja strax að eftir að skjal hefur verið opnað í forritinu birtist heimildarskjalið í vinstri glugganum þar sem þú velur ýmis svæði. Eftir að hafa smellt á „viðurkenningu“ hnappinn mun forritið í glugganum til hægri sýna þér lokið texta. Eftir viðurkenningu, við the vegur, það er ráðlegt að athuga textann fyrir villur í sama FineReader.

 

3.1 Texti

Þetta svæði er notað til að undirstrika texta. Myndir og töflur ættu að vera undanskilin því. Sjaldgæft og óvenjulegt letur verður að slá inn handvirkt ...

Til að velja texta svæði, gaum að pallborðinu efst á FineReader. Það er til hnappur „T“ (sjá skjámyndina hér að neðan, músarbendillinn er bara á þessum hnappi). Smellið á það, síðan á myndinni hér að neðan, veldu snyrtilega rétthyrnd svæði þar sem textinn er staðsettur. Við the vegur, í sumum tilvikum þarftu að búa til textablokkir með 2-3, og stundum 10-12 á hverja síðu, vegna þess textasnið getur verið mismunandi og einn rétthyrningur velur ekki allt svæðið.

Það er mikilvægt að hafa í huga að myndir ættu ekki að falla inn á textasvæðið! Í framtíðinni mun þetta spara þér mikinn tíma ...

3.2 Myndir

Notað til að varpa ljósi á myndir og svæði sem erfitt er að þekkja vegna lélegs eðlis eða óvenjulegs leturs.

Í skjámyndinni hér að neðan er músarbendillinn staðsettur á hnappinn sem er notaður til að velja „mynd“ svæðið. Við the vegur, á þessu svæði er hægt að velja nákvæmlega hvaða hluta síðunnar sem er, og FineReader setur það síðan inn í skjalið sem venjuleg mynd. Þ.e.a.s. bara "heimskulega" eintak ...

Venjulega er þetta svæði notað til að varpa ljósi á illa skannaðar töflur, til að varpa ljósi á óstaðlaðan texta og letur, í sjálfu sér myndir.

3.3 Töflur

Skjámyndin hér að neðan sýnir hnapp til að auðkenna töflur. Almennt nota ég það persónulega mjög sjaldan. Staðreyndin er sú að þú verður frekar að teikna (reyndar) hverja línu á borðið og sýna hvað og hvernig á að nota forritið. Ef borðið er lítið og í ekki mjög góðum gæðum, þá mæli ég með að nota „mynd“ svæðið í þessum tilgangi. Sparið því mikinn tíma og síðan er hægt að gera töfluna fljótt í Word út frá myndinni.

 

3.4 Óþarfir hlutir

Það er mikilvægt að hafa í huga. Stundum eru óþarfir þættir á síðunni sem trufla viðurkenningu textans eða jafnvel koma í veg fyrir að þú auðkennir viðkomandi svæði. Hægt er að fjarlægja þau með strokleðri að öllu leyti.

Til að gera þetta, farðu í myndvinnsluham.

 

 

Veldu strokleðurtólið og veldu óþarfa svæðið. Því verður eytt og hvítt blað er á sínum stað.

 

Við the vegur, ég mæli með að þú notir þennan möguleika eins oft og mögulegt er. Prófaðu öll textasvæðin sem þú valdir, þar sem þú þarft ekki texta eða óþarfa punkta, óskýrleika, röskun eru til staðar - eytt með strokleður. Þökk sé þessu verður viðurkenningin hraðari!

 

4. Viðurkenning á PDF / DJVU skrám

Almennt verður þetta viðurkenningarform ekki frábrugðið því sem eftir er - þ.e.a.s. þú getur unnið með það alveg eins og með myndir. Það eina er að forritið ætti ekki að vera of gamalt ef PDF / DJVU skrárnar opnast ekki fyrir þig - uppfærðu í útgáfu 11.

 

Smá ábending. Eftir að skjalið hefur verið opnað í FineReader - mun það sjálfkrafa byrja að þekkja skjalið. Oft í PDF / DJVU skrám er ekki þörf á ákveðnu svæði á öllu skjalinu! Til að fjarlægja slíkt svæði á öllum síðum, gerðu eftirfarandi:

1. Farðu í myndvinnsluhlutann.

2. Kveiktu á „uppskera“ valkostinum.

3. Veldu svæðið sem þú vilt fá á öllum síðum.

4. Smelltu á Nota á allar síður og klipptu.

5. Athugun á villum og vistun niðurstaðna

Það virðist sem enn gætu komið upp vandamál þegar öll svæði voru auðkennd, þá viðurkennd - taktu það og bjargaðu ... Þar var það!

Í fyrsta lagi þarftu skjalaskoðun!

Til að gera það kleift, eftir viðurkenningu, í glugganum hér til hægri, verður „hak“ hnappur, sjá skjámyndina hér að neðan. Eftir að hafa smellt á það sýnir FineReader forritið sjálfkrafa svæðin þar sem forritið hefur villur og það gat ekki áreiðanlegt að bera kennsl á tiltekinn staf. Þú verður aðeins að velja, annað hvort ertu sammála áliti forritsins eða slærð inn persónu þína.

Við the vegur, í helmingi tilfella, um það bil, mun forritið bjóða þér tilbúið rétt orð - þú verður bara að velja nauðsynlegan valkost með músinni.

 

Í öðru lagi, eftir að hafa athugað, þarftu að velja sniðið sem þú vistar afrakstur vinnu þinnar.

Hér gerir FineReader þér kleift að snúa þér til fulls: Þú getur einfaldlega flutt upplýsingar í Word eitt í eitt, eða þú getur vistað það á einu af tugum sniða. En ég vil vekja athygli á öðrum mikilvægum þætti. Sama hvaða snið þú velur er mikilvægara að velja gerð afritsins! Íhuga áhugaverðustu valkostina ...

Nákvæm eintak

Öll svæði sem þú bentir á á síðunni í viðurkenndu skjali passa nákvæmlega við upprunalega skjalið. Mjög hentugur kostur þegar það er mikilvægt fyrir þig að missa ekki snið textans. Við the vegur, leturgerðir verða líka mjög líkar upprunalegu. Með þessum möguleika mæli ég með að flytja skjalið yfir í Word svo hægt sé að halda áfram frekari vinnu þar.

Editable eintak

Þessi valkostur er góður að því leyti að þú færð þegar sniðinn útgáfu af textanum. Þ.e.a.s. inndráttur með „kílómetra“, sem kann að hafa verið í frumskjalinu - þú mætir ekki. Gagnlegur valkostur þegar þú munt verulega breyta upplýsingum.

Satt að segja ættir þú ekki að velja hvort það sé mikilvægt fyrir þig að varðveita hönnun stíl, leturgerðir, inndrátt. Stundum, ef viðurkenning er ekki mjög vel, getur skjalið „skekkt“ vegna breytts sniðs. Í þessu tilfelli er mælt með því að velja nákvæmlega afritið.

Venjulegur texti

Valkostur fyrir þá sem þurfa bara texta af síðu án alls annars. Hentar vel fyrir skjöl án mynda og borða.

 

Um þessa grein um skönnun og viðurkenningu skjals lauk. Ég vona að með þessum einföldu ráðum geti þú leyst vandamál þín ...

Gangi þér vel

Pin
Send
Share
Send