ПРОЦЕСС СБОРА БАЗЫ ДАННЫХ, АННОТИРОВАНИЯ ПРЕДЛОЖЕНИЙ И ТОКЕНИЗАЦИИ ПРИ СОЗДАНИИ СИНТАКСИЧЕСКОГО АНАЛИЗА ЗАВИСИМОСТЕЙ УЗБЕКСКОГО ЯЗЫКА
DOI:
https://doi.org/10.56292/SJFSU/vol31_iss3/a120Ключевые слова:
аннотация, этапы, токенизация, лемматизация, выбор текстов, документация, руководство, результат, процесс.Аннотация
В данной статье представлен подробный обзор этапов создания дерева зависимостей (treebank) для узбекского языка. Рассматриваются пять упрощённых, но ключевых этапов, которые широко применяются в международной практике при построении иерархического корпуса для любого языка. Эти этапы включают: выбор текстов; предварительная обработка (включая выбор инструментов и ресурсов); аннотирование; документирование языковых особенностей и описание специфических, неуниверсальных черт языка; и, наконец, этап транслитерации.
Библиографические ссылки
Bruno Guillaume. 2021. Graph Matching and Graph Rewriting: GREW tools for corpus exploration, maintenance and conversion. In Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations, pages 168–175, Online. Association for Computational Linguistics.
P Qi, Y Zhang, Y Zhang, J Bolton, Stanza: A Python Natural Language Processing Toolkit for Many Human Languages. CD Manning. Association of Computational Linguistics (ACL) System Demonstrations.
https://stanfordnlp.github.io/stanza/
Salaev U. UzMorphAnalyser: A morphological analysis model for the Uzbek language using inflectional endings //AIP Conference Proceedings. – AIP Publishing, 2024. – Т. 3244. – №. 1
Stefanie Dipper, Cora Haiber, Anna Maria Schröter, Alexandra Wiemann, and Maike Brinkschulte. 2024. Universal Dependencies: Extensions for Modern and Historical German. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024), pages 17101–17111, Torino, Italia. ELRA and ICCL.
Загрузки
Опубликован
Выпуск
Раздел
Лицензия
Copyright (c) 2025 Научный вестник Ферганский государственный университета

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.
Как цитировать
Наиболее читаемые статьи этого автора (авторов)
- Hulkar Nе'matova, САФАРНАМЕ ХАДЖИ МУИНА "ВОСПОМИНАНИЯ О КАТTАКУРГОНЕ" , Научный вестник Ферганский государственный университета: № 1 (2023): Научный журнал Ферганского государственного университета (Точные и естественные науки)
- , , , ЭФФЕКТИВНЫЕ МЕТОДЫ ПОЛУЧЕНИЯ МЕТАЛЛ-ОРГАНИЧЕСКИХ АДСОРБЕНТОВ НА ОСНОВЕ ЖЕЛЕЗА , Научный вестник Ферганский государственный университета: № 1 (2025): FarDU ilmiy xabarlari jurnali (TABIIY FANLAR)
- Hulkar Nе'matova, САФАРНАМЕ ХАДЖИ МУИНА "ВОСПОМИНАНИЯ О КАТTАКУРГОНЕ" , Научный вестник Ферганский государственный университета: № 1 (2023): Научный журнал Ферганского государственного университета (Социальные гуманитарные науки)