Skip to main content

Kako uporabljati orodje »Ngram Viewer« v Google Knjigah

Anonim

Ngram, ki se običajno imenuje tudi N-gram, je statistična analiza besedilne ali govorne vsebine, ki jo najdemo n (številka) neke vrste predmeta v besedilu.

Iskalna postavka je lahko vse vrste stvari, kot so fonemi, predpone, fraze ali črke. Čeprav je N-gram nekoliko nejasen zunaj raziskovalne skupnosti, se uporablja na različnih področjih in ima veliko posledic za razvijalce, ki kodirajo računalniške programe, ki razumejo in odzivajo na naravni govorni jezik.

V primeru programa Google Knjige Ngram Viewer je besedilo, ki ga je treba analizirati, izhajati iz velike količine knjig, ki jih je Google pregledal v javnih knjižnicah in tako napolnil iskalni mehanizem za Google Knjige. Za Google Knjige Ngram Viewer se nanašajo na besedilo, ki ga želite iskati kot korpus . Ngram Viewer se agregira glede na jezik, čeprav lahko ločeno analizirate britanski in ameriški angleščini ali pa jih združite skupaj.

Kako deluje Ngram

  1. Pojdite v Google Books Ngram Viewer na book.google.com/ngrams.

  2. Vnesite poljubno besedno zvezo ali fraze, ki jih želite analizirati. Ločite vsako frazo z vejico. Google predlaga, "Albert Einstein, Sherlock Holmes, Frankenstein", da bi začeli. Elementi so občutljivi na velike ali male črke, za razliko od Googlovih spletnih iskanj.

  3. Vnesite časovno obdobje. Privzeto je 1800 do 2000.

  4. Izberite korpus. Lahko iščete tuje jezike ali angleščino in poleg standardnih izbir lahko na dnu opazite stvari, na primer "angleščina (2009) ali ameriška angleščina (2009)". To so starejši korpusi, ki jih je Google od takrat posodobil, vendar imate morda kakšen razlog, da bi svoje primerjave uporabili proti starim nizom podatkov. Večina jih lahko ignorira in se osredotoči na najnovejšo korpeto.

  5. Nastavite stopnjo izravnave. Glajenje se nanaša na to, kako gladko je graf na koncu. Najbolj natančna predstavitev bi bila raven izravnave 0, vendar je ta nastavitev morda težko prebrati. Privzeta nastavitev je 3. V večini primerov ga ni treba prilagajati.

  6. Pritisnite tipko Poiščite veliko knjig gumb.

Google vam omogoča, da se s programom Ngram Viewer precej pomanjšate. Če želite poiskati ribe glagol namesto ribe samostalnik, lahko to storite z uporabo oznak. V tem primeru bi poiskali "fish_VERB"

Google ponuja celoten seznam ukazov, ki jih lahko uporabite, in drugo napredno dokumentacijo na svojem spletnem mestu.

Kaj je prikaz Ngrama?

Google Books Ngram Viewer bo prikazal graf, ki predstavlja uporabo določenega fraza v knjigah skozi čas. Če ste vnesli več kot eno besedo ali besedno zvezo, boste videli barvno označene črte, s katerimi bi razlikovali različne iskalne izraze. To je precej podobno Googlovim trendom, le iskanje pokriva daljše časovno obdobje.

Študija primera

Razmislite o študiji primera kislih pite. Omenjeni so v Lauri Ingalls Wilder's Mala hiša na Prairi serije. Raziskovanje z Googlovim spletnim iskanjem, da bi izvedeli več o piteh za kis, razkriva, da so del ameriške južne kuhinje in so pravzaprav izdelani iz kisa. Poslušajo nazaj, ko nihče ni imel dostopa do svežih proizvodov ves čas v letu. Ali je to celotna zgodba?

Iskanje Google Ngram Viewer za pita s kisom in boste naleteli na nekaj omembe pito v zgodnjih in poznih 1800-ih, veliko omembe v 40-ih letih in vse večje število pomenov v zadnjem času. Toda z izravnavo ravni 3 boste videli planoto čez omembe v devetnajstih letih. Ker v tem času ni veliko knjig objavljenih in ker so naši podatki nastavljeni na gladko, izkrivlja sliko. Verjetno je obstajala ena knjiga, ki je omenila pito kisa, in to je v povprečju izognila konici. Z nastavitvijo glajenja na 0 lahko vidimo, da je to točno tako. Leta 1869 je prišlo do konice, v 1897 in 1900 pa je še en konic.

Majhna je verjetnost, da nihče ni govoril o kisu pito ostalega časa: obstaja verjetnost, da recepti plavajo po vsem mestu, vendar ljudje preprosto niso piši o njih v knjigah, in to je pomembna omejitev teh Ngramov iskanja.