ЭТАПЫ И ПРОБЛЕМЫ СОЗДАНИЯ УЗБЕКСКОГО ЯЗЫКОВОГО КОРПУСА
Ключевые слова:
корпус, тег, ключевое слово в контексте, конкорданс, метаданныеАннотация
В статье рассматриваются конкретные теоретические и практические вопросы построения корпуса информационных текстов на узбекском языке. Пошагово анализировались структура, возможности, дизайн, рабочий процесс кейса. В частности, был описан процесс разработки Технического задания на построение корпуса узбекского языка, сбор и компьютеризация данных, хранение текстов в корпусе и разметка слов. Корпус узбекского языка представляет собой обширную филологическую базу данных, позволяющую решать проблемы.
Библиографические ссылки
“Corpus.” Merriam-Webster.com Dictionary, Merriam-Webster, https://www.merriam-webster.com/dictionary/corpus.
Crystal, David. An Encyclopedic Dictionary of Language and Languages. Oxford, 1992.
Ю.А.Волоснова. Корпусная лингвистика: проблемы иперспективы. Лесной вестник 7/2006.
McEnery T., Xiao R., Tono Y. Corpus-based Language studies. Routledge, 2006.
CES https://www.cs.vassar.edu/CES/
CLAWS http://ucrel.lancs.ac.uk/claws/
Brill tagger
https://web.archive.org/web/20090425061222/http://cosmion.net/jeroen/software/brill_pos/
Кутузов А.Б. Корпусная лингвистика. 2015. http://tc.utmn.ru/files/corpus_5.pdf
Corpus frequency. https://www.cambridge.org/gb/files/5913/9100/8829/Touchstone-2-Top-500.pdf
Aksan Y., Aksan M., Koltuksuz A., et al. Construction of the Turkish National Corpus (TNC). https://www.researchgate.net/publication/265914832