Semalt веб баракчаларын скраптоого 5 кадам сунуштайт

Скрапи ар кандай веб-сайттан маалымат алуу үчүн ачык булак жана негиз болуп саналат. Ал API'лерди колдонот жана Python'до жазылган. Scrapy учурда жүргүзөт желе тейлеген Scrapinghub Ltd. аттуу компания

Бул Scrapy программасын колдонуп, желе текшергичти жазуу, Craigslist талдоо жана CSV форматындагы маалыматты сактоо боюнча жөнөкөй окуу куралы. Төмөндө бул окуу куралынын беш кадамы келтирилген:

1. Жаңы Scrapy долбоорун түзүңүз

2. Вебсайтты сойлоп, маалыматтарды алуу үчүн жөргөмүш жаз

3. Буйрук сабын колдонуп, кырылган маалыматтарды экспорттоңуз

4. Шилтемелерди ээрчүү үчүн жөргөмүштү өзгөртүңүз

5. Жөргөмүш аргументтерин колдонуңуз

1. Долбоор түзүңүз

Биринчи кадам - долбоорду түзүү. Сиз Scrapy жүктөп алып, орнотушуңуз керек. Издөө тилкесине сиз маалыматты сактоону каалаган каталог атын киргизишиңиз керек. Scrapy маалымат алуу үчүн ар кандай жөргөмүштөрдү колдонот жана бул жөргөмүштөр каталогдорду түзүү үчүн баштапкы сурамдарды беришет. Жөргөмүштү орнотуу үчүн, каталогдордун тизмесине кирип, ал жерге белгилүү бир код киргизишиңиз керек. Учурдагы каталогуңуздагы файлдарды карап, эки жаңы файлды байкаңыз: quotes-a.html жана quotes-b.html.

2. Вебсайтты сойлоп, маалыматтарды алуу үчүн жөргөмүш жазыңыз:

Жөргөмүштү жазуунун жана маалыматтарды чыгаруунун эң мыкты жолу - Scrapy кабыгында ар башка селекторлорду түзүү. Сиз URL'дерди ар дайым тырмакчага тиркеп турушуңуз керек; антпесе, Scrapy ошол URL даректерин же аталыштарын дароо өзгөртөт. Жөргөмүштү туура жазуу үчүн URL'дин айланасында кош тырмакча колдонушуңуз керек. Сиз.extract_first () колдонуп, индекстин катасынан алыс болушуңуз керек.

3. Буйрук сабын колдонуп, кесилген маалыматты экспортто:

Кесилген маалыматты буйрук сабын колдонуп экспорттоо маанилүү. Эгер аны экспорттобосоңуз, так натыйжа албайсыз. Жөргөмүш пайдалуу маалыматты камтыган ар кандай каталогдорду түзөт. Бул маалыматты жакшыраак экспорттоо үчүн, кирешелүүлүктүн Python ачкыч сөздөрүн колдонушуңуз керек. JSON файлдарына маалыматтарды импорттоо мүмкүн. JSON файлдары программисттер үчүн пайдалуу. JQ сыяктуу шаймандар эч кандай көйгөйсүз, кырылган маалыматтарды экспорттоого жардам берет.

4. Шилтемелерди ээрчүү үчүн жөргөмүштү өзгөртүңүз:

Кичинекей долбоорлордо сиз жөргөмүштөрдү шилтемелерди ылайыктуу түрдө өзгөртө аласыз. Бирок бул чоң көлөмдөгү маалыматтарды кыруу долбоорлору менен кереги жок. Сиз жөргөмүштү алмаштырганда, Элдик түтүктөр үчүн толтуруучу файл орнотулат. Бул файл окуу куралы / pipelines.py бөлүмүндө жайгашкан. Scrapy жардамы менен сиз татаал жөргөмүштөрдү куруп, алардын жайгашкан жерин каалаган убакта өзгөртө аласыз. Бир эле учурда бир нече сайтты казып, ар кандай маалыматтарды чыгаруу боюнча долбоорлорду ишке ашыра аласыз.

5. Жөргөмүш аргументтерин колдонуңуз:

Parse_author кайра чалуу - бул динамикалык веб-сайттардан маалыматтарды алуу үчүн колдонула турган жөргөмүш аргументи. Белгилүү код менен жөргөмүштөргө буйрук сабынын жүйөлөрүн келтирсе болот. Жөргөмүштүн аргументтери эч убакта жөргөмүш атрибуттарына айланат жана берилиштериңиздин жалпы көрүнүшүн өзгөртөт.

Бул окуу куралында биз Scrapy негиздерин гана камттык. Бул куралдын көптөгөн өзгөчөлүктөрү жана жолдору бар. Техникалык мүнөздөмөлөрү жөнүндө көбүрөөк билүү үчүн, Scrapy программасын жүктөп алып, активдештирүү керек.