Find Jobs
Hire Freelancers

Web scraper in Scrapy

$30-250 USD

В роботі
Опублікований over 11 years ago

$30-250 USD

Оплачується при отриманні
I require a web scraper (written in Python using Scrapy) that will have multiple spiders (to scrape multiple web sites) for scraping news websites and retrieving articles, filtering these articles using keyword matching (with Scrapy pipelines) and storing relevant articles in a postgreSQL database. Spiders - The specific web sites that I would like scraped will be provided at project commencement. - The spiders should scrape the news website's RSS feeds (where possible). - The spiders should store the following information for each article: * title * author * date * publication name * article URL * article text (including all HTML formatting) * keywords (either from the article itself or from HTML meta tags) - The spiders should be as generic as possible, extending some base spider class to allow for further extension Pipelines - A pipeline should filter the article by matching the article's keywords or article text with a list of "interesting" keywords - A second pipeline should write all "interesting" articles to a postgreSQL database.
ID проекту: 4164609

Про проект

3 пропозицій(-ї)
Дистанційний проект
Активність 11 yrs ago

Хочете заробити?

Переваги подання заявок на Freelancer

Вкажіть свій бюджет та терміни
Отримайте гроші за свою роботу
Опишіть свою пропозицію
Реєстрація та подання заявок у проекти є безкоштовними

Про клієнта

Прапор AUSTRALIA
Castle Hill, Australia
5,0
9
Спосіб оплати верифіковано
На сайті з квіт. 9, 2012

Верифікація клієнта

Дякуємо! Ми надіслали на вашу електронну пошту посилання для отримання безкоштовного кредиту.
Під час надсилання електронного листа сталася помилка. Будь ласка, спробуйте ще раз.
Зареєстрованих користувачів Загальна кількість опублікованих робіт
Freelancer ® is a registered Trademark of Freelancer Technology Pty Limited (ACN 142 189 759)
Copyright © 2024 Freelancer Technology Pty Limited (ACN 142 189 759)
Завантажуємо для перегляду
Дозвіл на визначення геолокації надано.
Ваш сеанс входу закінчився, і сеанс було закрито. Будь ласка, увійдіть знову.