Первый из новых представленных программных пакетов – RCO Deduplicator SDK – предназначен для создания программного обеспечения, устраняющего информационные дубли документов.
Второй программный пакет – RCO Block Parser SDK – обеспечивает автоматическую идентификацию типов входных документов, их разбор на блоки и извлечение информации в соответствии с заданными шаблонами.
Третий пакет – RCO TopExtractor SDK – предназначен для построения информационного портрета текста в виде набора значимых терминов, общего реферата, рефератов по каждому термину и сети ассоциативных связей между терминами.
Четвертый пакет – RCO Glossary Maker – обеспечивает автоматическое построение словарей терминов по коллекции текстов.
Завершает ряд пятый пакет RCO Law Reference Extractor SDK, предназначенный для выявления упоминаний нормативно-правовых актов в анализируемом тексте в виде строки атрибутов.
Все представленные продукты являются расширениями программы RCO Fact Extractor SDK – комплексного инструмента для разработки информационно-поисковых и аналитических систем, требующих лингвистического анализа текста на русском языке. RCO Fact Extractor SDK выполняет синтактико-семантический разбор русского текста, выделяет различные классы упомянутых в тексте сущностей и строит сеть отношений, связывающих эти сущности, а также обеспечивает семантическую интерпретацию результатов разбора текста в соответствии с заданными моделями.
Редактор раздела: Алена Журавлева (info@mskit.ru)
Рубрики: ПО