Статистика

Наполнение корпуса

Таблица показывает, какие тексты и в каком количестве сейчас есть в корпусе.

Источник Текстов Предложений Токенов Словоупотреблений
ЧасКор (статьи) 317 26 702 466 547

367 117 = 146%

ЧасКор (новости) 1 083 15 546 287 723

228 798 = 183%

Википедия 396 14 032 270 204

202 854 = 202%

Викиновости 585 9 205 165 128

130 897 = 104%

Блоги 787 8 914 131 539

101 899 = 203%

Худож. литература 93 10 043 148 164

114 905 = 114%

Нон-фикшн 127 12 025 236 289

182 639 = 0%

Юридические тексты 441 4 895 128 109

102 266 = 0%

Другое 39 7 085 114 789

90 382 = 0%

Всего 4 007 110 304 1 989 538

1 554 301 = 155%