National British Corpus: Unlocking the secrets of British English

National British Corpus (NBC) - это один из крупнейших корпусов английского языка, содержащий коллекцию текстов на английском языке, собранных в Великобритании с 1960-х годов. NBC был создан в 1990 году в рамках проекта, реализованного Британской национальной библиотекой и Оксфордским университетом, с целью исследования и анализа современного английского языка.

NBC содержит как письменные, так и устные тексты на английском языке, такие как газеты, журналы, книги, рекламные материалы, беседы и интервью. Корпус состоит из более чем 100 миллионов слов, что делает его одним из наиболее полных и представительных источников для анализа английского языка.

Пример использования NBC в программировании может быть следующим:

import nltk

from nltk.corpus import nbc

# считываем тексты из NBC

nbc_text = nbc.raw()

# токенизируем тексты

tokens = nltk.word_tokenize(nbc_text)

# создаем частотный словарь слов

freqDist = nltk.FreqDist(tokens)

# выводим 10 самых часто встречающихся слов

print(freqDist.most_common(10))

Этот пример кода демонстрирует, как можно использовать NBC для получения частотного списка слов на английском языке. Тексты из NBC загружаются с помощью библиотеки NLTK, после чего они токенизируются и подвергаются статистическому анализу с помощью частотного словаря. Выводится десять самых часто встречающихся слов в корпусе.

Таким образом, NBC представляет собой важный инструмент для исследования английского языка и может использоваться в различных задачах, связанных с анализом и обработкой текстов на английском языке.

National British Corpus: Unlocking the secrets of British English

Похожие вопросы на: "national british corpus "