StructScraper

Инструмент для веб‑разработчиков


Позволяет "на лету" включать в контент веб‑страницы семантические данные внешних веб‑ресурсов.

О проекте

В семантических разметках Всемирной паутины накоплено большое число данных, и их количество продолжает расти. Эти данные широко используются поисковыми системами для представления информации о найденных страницах в виде специальных сниппетов. Мы предлагаем инструмент, позволяющий веб-разработчику включать эти данные в контент своих веб‑страниц аналогично тому, как это делают поисковые системы в своих выдачах.

Предлагаемый инструмент позволяет извлекать и включать в контент веб‑страницы данные внешних веб‑ресурсов, заключенные в разметках популярных форматов «микроданные» и JSON‑LD, а также метаданные из тегов <meta> HTML‑документов и свойств документов Word и PDF.

Инструмент не надо инсталлировать и для его использования не надо писать программный код. При работе с StructScraper автору страницы достаточно разметить HTML‑страницу и подключить стартовые скрипты, вставив в страницу фрагмент уже готового кода, вся остальная работа будет выполнена автоматически в процессе загрузки страницы.

StructScraper позволяет создавать веб-страницы с актуальными на момент загрузки данными из внешних источников, независимо от того, допускают ли они кросс-доменные запросы. Этот инструмент может быть полезен блогерам, авторам страниц с кулинарными рецептами, научным работникам для создания персональных страниц и списков публикаций, его можно использовать для сравнения цен на товары, рейтингов сайтов и пр. Здесь приведены конкретные примеры использования с реальными данными из страниц Всемирной паутины.

StructScraper – инструмент с открытым кодом. Репозиторий на GitHub – RimmaSkorn/struct-scraper.

© ИПМ им.М.В.Келдыша РАН, 2019-2020
e-mail: structscraper@gmail.com

Ссылки