logo
O‘zbekcha

ПРОЦЕСС СБОРА БАЗЫ ДАННЫХ, АННОТИРОВАНИЯ ПРЕДЛОЖЕНИЙ И ТОКЕНИЗАЦИИ ПРИ СОЗДАНИИ СИНТАКСИЧЕСКОГО АНАЛИЗА ЗАВИСИМОСТЕЙ УЗБЕКСКОГО ЯЗЫКА

Авторы

DOI:

https://doi.org/10.56292/SJFSU/vol31_iss3/a120

Ключевые слова:

аннотация, этапы, токенизация, лемматизация, выбор текстов, документация, руководство, результат, процесс.

Аннотация

В данной статье представлен подробный обзор этапов создания дерева зависимостей (treebank) для узбекского языка. Рассматриваются пять упрощённых, но ключевых этапов, которые широко применяются в международной практике при построении иерархического корпуса для любого языка. Эти этапы включают: выбор текстов; предварительная обработка (включая выбор инструментов и ресурсов); аннотирование; документирование языковых особенностей и описание специфических, неуниверсальных черт языка; и, наконец, этап транслитерации.

Биографии авторов

  • , O‘zbekiston milliy universteti

    O‘zbekiston Milliy universteti tayanch doktoranti

  • , Urganch davlat universiteti

    Urganch davlat universiteti talabasi

Библиографические ссылки

Bruno Guillaume. 2021. Graph Matching and Graph Rewriting: GREW tools for corpus exploration, maintenance and conversion. In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations, pages 168–175, Online. Association for Computational Linguistics.

P Qi, Y Zhang, Y Zhang, J Bolton, Stanza: A Python Natural Language Processing Toolkit for Many Human Languages. CD Manning. Association of Computational Linguistics (ACL) System Demonstrations.

https://stanfordnlp.github.io/stanza/

Salaev U. UzMorphAnalyser: A morphological analysis model for the Uzbek language using inflectional endings //AIP Conference Proceedings. – AIP Publishing, 2024. – Т. 3244. – №. 1

Stefanie Dipper, Cora Haiber, Anna Maria Schröter, Alexandra Wiemann, and Maike Brinkschulte. 2024. Universal Dependencies: Extensions for Modern and Historical German. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), pages 17101–17111, Torino, Italia. ELRA and ICCL.

https://www.nltk.org/api/nltk.tokenize.html

https://huggingface.co/datasets/tahrirchi/uz-crawl

Опубликован

2025-06-25

Выпуск

Раздел

Лингвистика

Как цитировать

ПРОЦЕСС СБОРА БАЗЫ ДАННЫХ, АННОТИРОВАНИЯ ПРЕДЛОЖЕНИЙ И ТОКЕНИЗАЦИИ ПРИ СОЗДАНИИ СИНТАКСИЧЕСКОГО АНАЛИЗА ЗАВИСИМОСТЕЙ УЗБЕКСКОГО ЯЗЫКА. (2025). Научный вестник Ферганский государственный университета, 31(3), 120. https://doi.org/10.56292/SJFSU/vol31_iss3/a120