yury_finkel (yury_finkel) wrote,
yury_finkel
yury_finkel

Category:

оценка словарного запаса

Вот здесь мой френд mevamevo предложил простейший алгоритм оценки словарного запаса человека (в применении к эсперанто, но это не принципиально). Т.е. грубо говоря, так: выбираем случайным образом из большого словарного списка 100 слов (в применении к эсперанто — корней, т.к. в эсперанто очень гибкое словообразование и от одного корня можно образовать кучу слов). Затем предлагаем испытуемому определить, сколько слов из этих 100 он знает. После чего полученный процент умножаем на общее количество слов в словарном списке — и вуаля, примерная оценка словарного запаса (примерно столько-то слов/корней из этого списка человек должен знать) готова. Например, 65 из 100 даёт для исходного списка в 10000 слов 6500 слов.

Но мне кажется, что такой алгоритм несколько некорректен, потому что он включает неявное предположение, что слова в словарном списке встречаются в текстах с примерно равной частотой. На деле же есть слова часто встречающиеся и редко встречающиеся (например, научные термины). И если человек знает слово из группы часто встречающихся слов, то он с большой вероятностью знает и другие слова из этой группы. А если, наоборот, человек знает слово из группы редких, то вероятность, что он знает другие редкие слова (может быть, термины из других наук), гораздо ниже.

Так вот, меня заинтересовал вопрос: а как это учесть? Интуитивно мне кажется, что нужно в оценке учитывать слова с весами, зависящими от их частотности (чем частотнее слово, тем больше вес). Но как именно зависящими? И как разбивать на группы?

Поскольку теорвер и матстат я изучал четверть века назад и на практике не применял (за редчайшим исключением), то сообразить сам не могу. Если кто эти вещи знает и помнит, и при этом не лень пошевелить мозгами, подскажите.
Tags: математика, теория вероятности
Subscribe
  • Post a new comment

    Error

    Comments allowed for friends only

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 31 comments