Методы пополнения корпусных данных в статистическом машинном переводе
	  Доклады Башкирского университета. 2017. Том 2. № 1. С. 97-103.
      
    
	  
	  
	  	  
	  
	  	  
	  Авторы
Мифтахова Р. Г.*
Башкирский государственный университет
Россия, Республика Башкортостан, 450076 г. Уфа, улица Заки Валиди, 32
*E-mail: miftahovar@yandex.ru
Абстракт
Для увеличения корпусных данных для систем статистического машинного перевода предложено использование промежуточного корпуса тривиально родственного или родственного языка.
	  
	  	  
	  
	  
	  	  
	  Ключевые слова
- статистический машинный перевод
 - выравнивание
 - корпус
 - конкатенация
 
Литература
- Кипяткова И. С. Применение синтаксического анализа при создании n-граммной модели языка для систем распознавания русской речи / И. С. Кипяткова // Труды 5 междисциплинарного семинара Анализ разговорной русской речи АР3-2011, 25-26 августа 2011 г. - СПб., 2011. - С. 13-18.
 - Бабин Д. Н. О перспективах создания системы автоматического распознавания слитной устной русской речи / Д. Н. Бабин, И. Л. Мазуренко, А. Б. Хо-лоденко // Интеллектуальные системы. - 2004. - Т. 8, Вып. 1-4. - С.45-70.
 - Pang B., Lee L. Sentiment Classification using Machine Learning Techniques. Proceedings of the Conference on Empirical Methods in Natural. Language Processing (EMNLP). Philadelphia. 2002. P. 79-86.
 - Бузикашвили Н. Е., Самойлов Д. В., Бродский Л. И., Усков А. В. Задача поиска в неструктурированном тексте и лингвистический анализ. // Интеллектуальные технологии ввода и обработки информации, М., 1998.
 - Морозкина Е. А., Влияние информационных технологий на развитие лингвистических норм. // Вестник Башкирского университета, -2012 №1 -С 163.
 - Морозкина Е. А., Наука о переводе в свете лингвистического учения Вильгельма Фон Гумбольдта // Языки в диалоге культур, Материалы 2 Международной научно-практической конференции, посвященной 100-летию со дня рождения первого ректора БашГуШ. Х. Чанбарисова. -2016. -С 33
 - URL: http://www.rae.ru/monographs/189-5958
 
New approaches to resolving the problem of corpora data shortage
Authors
Miftakhova R. G.*
Bashkir State University
32 Zaki Validi Street, 450074 Ufa, Republic of Bashkortostan, Russia
*E-mail: miftahovar@yandex.ru
Abstract
The usage of agnate languages for more accurate alignment in statistical machine translation to resolve the problem of corpora data shortage.
	  
	  	  
	  
	  
	  	  
	  Keywords
- statistical machine translation
 - concatenation
 - corpora
 - alignment
 
