Таблица показывает, какие тексты и в каком количестве сейчас есть в корпусе.
| Источник | Текстов | Предложений | Токенов | Словоупотреблений |
|---|---|---|---|---|
| ЧасКор (статьи) | 317 | 26 702 | 466 547 |
367 117 = 146% |
| ЧасКор (новости) | 1 083 | 15 546 | 287 723 |
228 798 = 183% |
| Википедия | 396 | 14 032 | 270 204 |
202 854 = 202% |
| Викиновости | 585 | 9 205 | 165 128 |
130 897 = 104% |
| Блоги | 787 | 8 914 | 131 539 |
101 899 = 203% |
| Худож. литература | 93 | 10 043 | 148 164 |
114 905 = 114% |
| Нон-фикшн | 127 | 12 025 | 236 289 |
182 639 = 0% |
| Юридические тексты | 441 | 4 895 | 128 109 |
102 266 = 0% |
| Другое | 39 | 7 085 | 114 789 |
90 382 = 0% |
| Всего | 4 007 | 110 304 | 1 989 538 |
1 554 301 = 155% |