National British Corpus: Unlocking the secrets of British English
National British Corpus (NBC) - это один из крупнейших корпусов английского языка, содержащий коллекцию текстов на английском языке, собранных в Великобритании с 1960-х годов. NBC был создан в 1990 году в рамках проекта, реализованного Британской национальной библиотекой и Оксфордским университетом, с целью исследования и анализа современного английского языка.
NBC содержит как письменные, так и устные тексты на английском языке, такие как газеты, журналы, книги, рекламные материалы, беседы и интервью. Корпус состоит из более чем 100 миллионов слов, что делает его одним из наиболее полных и представительных источников для анализа английского языка.
Пример использования NBC в программировании может быть следующим:
import nltk
from nltk.corpus import nbc
# считываем тексты из NBC
nbc_text = nbc.raw()
# токенизируем тексты
tokens = nltk.word_tokenize(nbc_text)
# создаем частотный словарь слов
freqDist = nltk.FreqDist(tokens)
# выводим 10 самых часто встречающихся слов
print(freqDist.most_common(10))
Этот пример кода демонстрирует, как можно использовать NBC для получения частотного списка слов на английском языке. Тексты из NBC загружаются с помощью библиотеки NLTK, после чего они токенизируются и подвергаются статистическому анализу с помощью частотного словаря. Выводится десять самых часто встречающихся слов в корпусе.
Таким образом, NBC представляет собой важный инструмент для исследования английского языка и может использоваться в различных задачах, связанных с анализом и обработкой текстов на английском языке.