Scrapy

Scrapy
Scrapy
Тип	Web crawler
Разработчик	Scrapinghub, Ltd.
Написана на	Python
Операционные системы	Windows, Linux, macOS и BSD
Дата выпуска	26 июня 2008
Последняя версия	2.16.0 (19 мая 2026);
Репозиторий	github.com/scrapy/scrapy
Лицензия	модифицированная лицензия BSD
Сайт	scrapy.org (англ.)

Scrapy (произн. /ˈskreɪpaɪ/^[7]) – это бесплатный фреймворк для веб-краулинга находящийся в открытом доступе, который написан на языке программирования Python. Изначально задумывался для веб-скрейпинга, однако также может использоваться для извлечения информации используя API или же как веб краулер общего применения.^[8] В настоящее время фреймворк обслуживается компанией Scrapinghub Ltd., которая разрабатывает и предоставляет услуги в сфере веб-скрейпинга.

Архитектура проекта Scrapy построена вокруг «пауков», которые по сути являются автономными краулерами с заданными инструкциями. Следуя другим фреймворкам которые работают по принципу don't repeat yourself (DRY), таких как Django,^[9] это упрощает создание и масштабирование больших проектов обхода контента, позволяя разработчикам повторно использовать свой код. Scrapy также предоставляет командную оболочку для веб-краулинга, которую разработчики могут использовать для проверки своих предположений о поведении сайта.^[10]

Некоторые известные компании и продукты, использующие Scrapy: Lyst,^[11]^[12] Parse.ly,^[13] Sayone Technologies ^[14], Sciences Po Medialab,^[15] государственный сайт Великобритании Data.gov.uk. Архивная копия от 16 августа 2018 на Wayback Machine

История

Scrapy создавался в лондонской компании Mydeco, занимающейся веб-агрегацией и электронной торговлей, где ее разработали и поддерживали сотрудники Mydeco и Insophia (консалтинговая компания из Монтевидео, Уругвай). Первый публичный релиз был в августе 2008 года под лицензией BSD, а релиз Milestone 1.0 был выпущен в июне 2015 года.^[16] В 2011 году Scrapinghub стал новым официальным мейнтейнером.^[17]^[18]

Примечания

↑ The scrapy Open Source Project on Open Hub: Languages Page — 2006.
1 2 3 Installation guide
↑ Scrapy
↑ Release 2.16.0 — 2026.
↑ Free Software Directory
↑ The scrapy Open Source Project on Open Hub: Licenses Page — 2006.
↑ Commit 975f150 . GitHub. Дата обращения: 18 октября 2021. Архивировано 18 октября 2021 года.
↑ Scrapy at a glance Архивная копия от 17 сентября 2018 на Wayback Machine.
↑ Frequently Asked Questions . Дата обращения: 28 июля 2015. Архивировано 11 ноября 2020 года.
↑ Scrapy shell . Дата обращения: 28 июля 2015. Архивировано 31 октября 2020 года.
↑ Bell, Eddie. Scalable Scraping Using Machine Learning . Дата обращения: 28 июля 2015. Архивировано из оригинала 9 октября 2016 года.
↑ Scrapy | Companies using Scrapy . Дата обращения: 28 февраля 2020. Архивировано 12 ноября 2020 года.
↑ Montalenti, Andrew. Web Crawling & Metadata Extraction in Python . Дата обращения: 28 февраля 2020. Архивировано 19 сентября 2020 года.
↑ Scrapy Companies . Scrapy website. Дата обращения: 28 февраля 2020. Архивировано 12 ноября 2020 года.
↑ Hyphe v0.0.0: the first release of our new webcrawler is out! Дата обращения: 28 февраля 2020. Архивировано 13 июня 2016 года.
↑ Scrapy 1.0 official release out! (Mailing list). Архивировано 22 января 2011. Дата обращения: 28 февраля 2020.
↑ Pablo Hoffman. List of the primary authors & contributors (англ.). — 2013. — [Архивировано 29 мая 2017 года.]
↑ Interview Scraping Hub Архивная копия от 29 октября 2020 на Wayback Machine.

Ссылки

Официальный сайт

[_d43ed19c7a0c47f6-1] The scrapy Open Source Project on Open Hub: Languages Page — 2006.

[_0fc97a4d69b096c0-2] 1 2 3 Installation guide

[_b803a634934cbe1d-3] Scrapy

[_b34b749ca99bf220-4] Release 2.16.0 — 2026.

[_3636feb35c34f9fc-5] Free Software Directory

[_86c28f6b9cd72f78-6] The scrapy Open Source Project on Open Hub: Licenses Page — 2006.

[7] Commit 975f150 . GitHub. Дата обращения: 18 октября 2021. Архивировано 18 октября 2021 года.

[8] Scrapy at a glance Архивная копия от 17 сентября 2018 на Wayback Machine.

[9] Frequently Asked Questions . Дата обращения: 28 июля 2015. Архивировано 11 ноября 2020 года.

[10] Scrapy shell . Дата обращения: 28 июля 2015. Архивировано 31 октября 2020 года.

[11] Bell, Eddie. Scalable Scraping Using Machine Learning . Дата обращения: 28 июля 2015. Архивировано из оригинала 9 октября 2016 года.

[12] Scrapy | Companies using Scrapy . Дата обращения: 28 февраля 2020. Архивировано 12 ноября 2020 года.

[13] Montalenti, Andrew. Web Crawling & Metadata Extraction in Python . Дата обращения: 28 февраля 2020. Архивировано 19 сентября 2020 года.

[14] Scrapy Companies . Scrapy website. Дата обращения: 28 февраля 2020. Архивировано 12 ноября 2020 года.

[15] Hyphe v0.0.0: the first release of our new webcrawler is out! Дата обращения: 28 февраля 2020. Архивировано 13 июня 2016 года.

[16] Scrapy 1.0 official release out! (Mailing list). Архивировано 22 января 2011. Дата обращения: 28 февраля 2020.

[list-17] Pablo Hoffman. List of the primary authors & contributors (англ.). — 2013. — [Архивировано 29 мая 2017 года.]

[18] Interview Scraping Hub Архивная копия от 29 октября 2020 на Wayback Machine.

[1]