Scrapy
| Scrapy | |
|---|---|
| | |
| Тип | Web crawler |
| Разработчик | Scrapinghub, Ltd. |
| Написана на | Python[1] |
| Операционные системы | Windows[2], Linux[2], macOS[2] и BSD[3] |
| Дата выпуска | 26 июня 2008 |
| Последняя версия | |
| Репозиторий | github.com/scrapy/scrapy |
| Лицензия | модифицированная лицензия BSD[5][6] |
| Сайт | scrapy.org (англ.) |
Scrapy (произн. /ˈskreɪpaɪ/[7]) – это бесплатный фреймворк для веб-краулинга находящийся в открытом доступе, который написан на языке программирования Python. Изначально задумывался для веб-скрейпинга, однако также может использоваться для извлечения информации используя API или же как веб краулер общего применения.[8] В настоящее время фреймворк обслуживается компанией Scrapinghub Ltd., которая разрабатывает и предоставляет услуги в сфере веб-скрейпинга.
Архитектура проекта Scrapy построена вокруг «пауков», которые по сути являются автономными краулерами с заданными инструкциями. Следуя другим фреймворкам которые работают по принципу don't repeat yourself (DRY), таких как Django,[9] это упрощает создание и масштабирование больших проектов обхода контента, позволяя разработчикам повторно использовать свой код. Scrapy также предоставляет командную оболочку для веб-краулинга, которую разработчики могут использовать для проверки своих предположений о поведении сайта.[10]
Некоторые известные компании и продукты, использующие Scrapy: Lyst,[11][12] Parse.ly,[13] Sayone Technologies [14], Sciences Po Medialab,[15] государственный сайт Великобритании Data.gov.uk. Архивная копия от 16 августа 2018 на Wayback Machine
История
[править | править код]Scrapy создавался в лондонской компании Mydeco, занимающейся веб-агрегацией и электронной торговлей, где ее разработали и поддерживали сотрудники Mydeco и Insophia (консалтинговая компания из Монтевидео, Уругвай). Первый публичный релиз был в августе 2008 года под лицензией BSD, а релиз Milestone 1.0 был выпущен в июне 2015 года.[16] В 2011 году Scrapinghub стал новым официальным мейнтейнером.[17][18]
Примечания
[править | править код]- ↑ The scrapy Open Source Project on Open Hub: Languages Page — 2006.
- 1 2 3 Installation guide
- ↑ Scrapy
- ↑ Release 2.16.0 — 2026.
- ↑ Free Software Directory
- ↑ The scrapy Open Source Project on Open Hub: Licenses Page — 2006.
- ↑ Commit 975f150. GitHub. Дата обращения: 18 октября 2021. Архивировано 18 октября 2021 года.
- ↑ Scrapy at a glance Архивная копия от 17 сентября 2018 на Wayback Machine.
- ↑ Frequently Asked Questions. Дата обращения: 28 июля 2015. Архивировано 11 ноября 2020 года.
- ↑ Scrapy shell. Дата обращения: 28 июля 2015. Архивировано 31 октября 2020 года.
- ↑ Bell, Eddie. Scalable Scraping Using Machine Learning. Дата обращения: 28 июля 2015. Архивировано из оригинала 9 октября 2016 года.
- ↑ Scrapy | Companies using Scrapy. Дата обращения: 28 февраля 2020. Архивировано 12 ноября 2020 года.
- ↑ Montalenti, Andrew. Web Crawling & Metadata Extraction in Python. Дата обращения: 28 февраля 2020. Архивировано 19 сентября 2020 года.
- ↑ Scrapy Companies. Scrapy website. Дата обращения: 28 февраля 2020. Архивировано 12 ноября 2020 года.
- ↑ Hyphe v0.0.0: the first release of our new webcrawler is out! Дата обращения: 28 февраля 2020. Архивировано 13 июня 2016 года.
- ↑ Scrapy 1.0 official release out! (Mailing list). Архивировано 22 января 2011. Дата обращения: 28 февраля 2020.
- ↑ Pablo Hoffman. List of the primary authors & contributors (англ.). — 2013. — [Архивировано 29 мая 2017 года.]
- ↑ Interview Scraping Hub Архивная копия от 29 октября 2020 на Wayback Machine.