Таблица показывает, какие тексты и в каком количестве сейчас есть в корпусе.
Источник | Текстов | Предложений | Токенов | Словоупотреблений |
---|---|---|---|---|
ЧасКор (статьи) | 317 | 26 702 | 466 547 |
367 117 = 146% |
ЧасКор (новости) | 1 083 | 15 546 | 287 723 |
228 798 = 183% |
Википедия | 396 | 14 032 | 270 204 |
202 854 = 202% |
Викиновости | 585 | 9 205 | 165 128 |
130 897 = 104% |
Блоги | 787 | 8 914 | 131 539 |
101 899 = 203% |
Худож. литература | 93 | 10 043 | 148 164 |
114 905 = 114% |
Нон-фикшн | 127 | 12 025 | 236 289 |
182 639 = 0% |
Юридические тексты | 441 | 4 895 | 128 109 |
102 266 = 0% |
Другое | 39 | 7 085 | 114 789 |
90 382 = 0% |
Всего | 4 007 | 110 304 | 1 989 538 |
1 554 301 = 155% |