Как да използвате инструмента "Ngram Viewer" в Google Книги

Ngram, наричан обикновено N-грам, е статистически анализ на текстовото или говорното съдържание, за да се намери n (число) на някакъв елемент в текста. Това може да са различни неща, като фонеми, префикси, фрази или букви. Въпреки че N-грамата е донякъде неясен извън изследователя, той всъщност се използва в различни области и има много последствия за хората, които правят компютърни програми, които разбират и отговарят с естествен говорим език. Това, накратко, ще бъде интереса на Google към идеята.

В случая на Google Books Ngram Viewer, текстът, който трябва да се анализира, идва от огромното количество книги, които Google сканира от обществените библиотеки, за да попълни търсещата си машина в Google Книги . За Google Книги Ngram Viewer, те се отнасят до текста, който ще търсите като "корпус". Ефрейторът в програмата Viewer на Ngram се разделя на езика, въпреки че можете да анализирате отделно британския и американски английски или да ги разделите заедно. В края на краищата е изключително интересно да се превключва от британско към американско използване на термини и да се променят графиките.

Как работи Нграм

  1. Отворете Ngram Viewer на Google Книги на адрес books.google.com/ngrams.
  2. Елементите са чувствителни към малки и големи букви, за разлика от търсенията в мрежата на Google, така че не забравяйте да извлечете собствено име.
  3. Въведете всяка фраза или фрази, които искате да анализирате. Не забравяйте да разделите всяка фраза с запетая. Google предлага "Алберт Айнщайн, Шерлок Холмс, Франкенщайн", за да започнете.
  4. След това въведете период от време. По подразбиране е 1800-2000, но има по-скорошни книги (2011 г. беше последният, посочен в документацията на Google, но това може да се промени.)
  5. Изберете корпус. Можете да търсите текстове на чужд език или английски, а в допълнение към стандартните избори, може да забележите неща като "Английски (2009) или Американски (2009)" в дъното. Това са по-стари корпуси, които Google оттогава е актуализиран, но може да имате някаква причина да направите сравненията си срещу стари набори от данни. Повечето потребители могат да ги игнорират и да се съсредоточат върху най-новите корпуси.
  6. Задайте нивото на изглаждане. Изглаждането се отнася до това колко гладко е графиката в края. Най-точното представяне ще бъде нивото на изглаждане от 0, но това може да е трудно за четене. По подразбиране е зададено 3. В повечето случаи не е нужно да коригирате това.
  1. Натиснете бутона Търсене много книги . (Можете също така просто да натиснете клавиша ENTER в прозореца за търсене.)

Какво представлява Ngram?

Google Books Ngram Viewer ще изведе графика, която представя използването на определена фраза в книгите във времето. Ако сте въвели повече от една дума или фраза, ще видите цветно кодирани редове, за да контрастирате различните думи за търсене. Това е доста подобно на Google Тенденции , само търсенето обхваща по-дълъг период от време.

Ето един пример в реалния живот. Бяхме любопитни за оцет пай наскоро. Споменават се в " Малката къща" на Лора Ингълс "Уайлдър" в серията " Прари ", но никога не сме чували за такова нещо. За първи път използвахме Google Web Search, за да научим повече за оцет пайове. Очевидно те се считат за част от американската южна кухня и наистина са направени от оцет. Те слушат време, когато не всеки има достъп до пресни продукти по всяко време на годината. Това ли е цялата история?

Търсихме Google Ngram Viewer и има някои споменавания за пай в ранните и края на 1800-те, много от споменаванията през 40-те години на миналия век и все по-голям брой споменати в последно време (може би някаква носталгия). проблем с данните на изглаждане на ниво 3. Има плато над споменаванията през 1800-те години. Със сигурност не е имало еднакъв брой споменавания на един конкретен пай всяка година в продължение на пет години? Това, което се случва, е, че понеже няма публикувани много книги през това време и тъй като данните ни са нагласени за изглаждане, то изкривява картината. Вероятно имаше една книга, в която се споменава оцет пай, а току-що е усреднено, за да се избегне скок. Като нагласим изглаждането до 0, можем да видим, че точно такъв е случаят. Спайк центрове на 1869, а има и още един скок през 1897 и 1900.

Никой ли не е говорил за оцет пай през останалото време? Вероятно са говорили за тези пайове. Имаше вероятно рецепти, плаващи навсякъде. Те просто не пишат за тях в книгите и това е ограничение на тези търсения на Нгр.

Разширени търсения на Ngram

Спомнете си как казахме, че Ngrams може да се състои от всякакви различни търсения на текст? Google ви позволява да проследявате доста малко и с Ngram Viewer. Ако искате да търсите за риба глаголът, вместо да рибите съществителното, можете да го направите, като използвате маркери. В този случай бихте търсили "fish_VERB"

Google предоставя пълен списък на командите, които можете да използвате, и друга разширена документация на уебсайта си.