Подходы к оценке семантического сходства текстов в многоязычном пространстве

1. Камский институт; АНО «Научно-исследовательский Центр физико-технической информатики» (доцент; вед. научный сотрудник)
Набережные Челны, Республика Татарстан, Россия

2. ФГУ «Федеральный исследовательский центр «Информатика и управление» Российской академии наук» (старший научный сотрудник)
Россия

3. Moscow Institute of Physics and Technology

4. FRC CSC of the Russian Academy of Sciences
Россия

Тип:

Статья конференции

DOI:

https://doi.org/10.30987/conferencearticle_5fce2773b1aff6.26436513

Страницы:

с 299 по 304

Опубликовано:

07.12.2020

Классификаторы:

УДК 81 Лингвистика. Языкознание. Языки
BISAC LAN016000 Linguistics / Semantics

Язык материала:

английский

Ключевые слова:

межъязыковое семантическое сходство, мера семантического текстового сходства, семантические неявные ссылки, совокупность документов, мера сходства текстов, метод релевантных фраз, векторные представления слов

Аннотация и ключевые слова

Аннотация:
Данная статья посвящена разработке методологии оценки семантического сходства любых текстов на разных языках. В основе исследования лежит гипотеза о том, что близость векторных представлений терминов в семантическом пространстве можно интерпретировать как семантическое сходство в кросс-языковой среде. Каждый текст будет связан с вектором в едином многоязычном семантическом векторном пространстве. Мера семантического сходства текстов будет определяться мерой близости соответствующих векторов. Мы предлагаем количественный индикатор под названием Индекс семантического текстового сходства (ISTS), который измеряет степень семантического сходства многоязычных текстов на основе выявленных межъязыковых семантических неявных связей. Настройка параметров основана на корреляции с наличием формальной ссылки между документами. Мера семантического сходства выражает наличие двух общих терминов, словосочетаний или словосочетаний. Оптимальные параметры алгоритма выявления неявных ссылок выбираются на тематической коллекции за счет максимизации корреляции явных и неявных связей. Разработанный алгоритм может облегчить поиск близких документов при анализе многоязычной патентной документации.

Ключевые слова:
межъязыковое семантическое сходство, мера семантического текстового сходства, семантические неявные ссылки, совокупность документов, мера сходства текстов, метод релевантных фраз, векторные представления слов

Текст

Текст (PDF): Читать Скачать

Список литературы

1. Jarmasz, M., Szpakowicz, S. (2003). Roget’s Thesaurus and Semantic Similarity. Recent Adv. Nat. Lang. Process. III Sel. Pap. from RANLP 2003, vol. 111, 2004.

2. Islam, A., Inkpen, D. (2012). Unsupervised Near-Synonym Choice using the Google Web 1T. ACM Trans. Knowl. Discov. Data, vol. V, no. June, pp. 1-19.

3. Li, H., Xu, J. (2014). Semantic matching in search. Foundations and Trends in Information Retrieval, 7(5):343-469.

4. Aliguliyev R. M. (2009). A new sentence similarity measure and sentence based extractive technique for automatic text summarization. Expert Systems with Applications. 36. 7764-7772.https://doi.org/10.1016/j.eswa.2008.11.022.

5. Wäschle, K. (2015). Quantifying Cross-lingual Semantic Similarity for Natural Language Processing Applications. Heidelberg. - 139 р.

6. Wäschle, K. and Riezler, S. (2012). Structural and topical dimensions in multi-task patent translation. In Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics (EACL).Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics, pages 818-828, Avignon, France, April 23 - 27, 2012

7. Andersson, L., Hanbury, A. and Rauber, A. (2017). The Portability of Three Types of Text Mining Techniques into the Patent Text Genre, chapter 9, pages 241-280. Springer Berlin. Heidelberg, Berlin, Heidelberg. ISBN 978-3-662-53817-3.

8. Eneko, A., Enrique, A., Keith, H., Jana, K., Marius, P., & Aitor, S. (2009). A study on similarity and relatedness using distributional and WordNet-based approaches. Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics (pp. 19-27). Boulder, Colorado: Association for Computational Linguistics

9. Zou, W. Y., Socher, R., Cer, D.M. and Manning C.D. (2013). Bilingual word embeddings for phrase-based machine translation. In Proceedings of EMNLP (pp. 1393-1398).

10. de Melo, G. (2015). Wiktionary-based word embeddings. Proceedings of MT Summit XV (pp. 346-359).

11. Ammar, W., Mulcaire, G., Tsvetkov, Y., Lample, G., Dyer, C. and Smith, N.A. (2016). Massively multilingual word embeddings. arXiv preprint arXiv:1602.01925.

12. Michael, J. F., Alon, Y. H., & David, M. (2005). From databases to data spaces: A new abstraction for information management. SIGMOD Record, 34(4), 27-33

13. Potthast, M., Hagen, M., Beyer, A., Busse, M., Tippmann, M., Rosso, P. and Stein, B. (2014). Overview of the 6th International Competition on Plagiarism Detection. In PAN at CLEF 2014. Sheffield, UK (pp. 845-876).

14. Ferrero, J., Besacier, L., Schwab, D. & Agnes, F. (2017). Using Word Embedding for Cross-Language Plagiarism Detection. In Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics, (EACL 2017). Association for Computational Linguistics, Valencia, Spain, volume 2 (pp. 415-421).

15. Page, L., Brin, S., Motwani, R., Winograd, T. (1998). The PageRank Citation Ranking: Bringing Order to the Web. In: Technical Report. Stanford University, Stanford, 1998. http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf

Отправить рукопись Скачать PDF
Текст

Цитировать

Цитирований:

Подтверждение

Регистрация