Find Jobs
Hire Freelancers

Text Extraction from HTML using Python

$30-80 USD

Завершено
Опублікований over 14 years ago

$30-80 USD

Оплачується при отриманні
The objective is to extract a section of TEXT from a document that either may or maynot have HTML based tags. The program should be in PYTHON. - The program should first download a file from a given URL. - The program should then strip the file of all HTML tags and retain only text. I prefer a non-REGEX based removal of HTML tags using sgmllib or other libraries. - Then it should use REGEX to extract a section of a document based on some specified rules. - It should then save the extracted text in a location on local hard drive. - It should delete the PARENT file that was downloaded URL. As an example, I have a document with the list of URLs. Let us suppose we want to extract the text in the section titled "Item 7. Management Discussion and Analysis" based on the rule. Please feel free to play with this test case and with the REGEX rules for extraction. Please note that the format of the document changes between the first and the last i.e. the first ones are not HTMLs.
ID проекту: 3070246

Про проект

5 пропозицій(-ї)
Дистанційний проект
Активність 14 yrs ago

Хочете заробити?

Переваги подання заявок на Freelancer

Вкажіть свій бюджет та терміни
Отримайте гроші за свою роботу
Опишіть свою пропозицію
Реєстрація та подання заявок у проекти є безкоштовними
Доручений:
Аватарка користувача
See private message.
$25,50 USD за 2 дні(-в)
5,0 (6 відгуки(-ів))
3,7
3,7
5 фрілансерів(-и) готові виконати цю роботу у середньому за $46 USD
Аватарка користувача
See private message.
$68 USD за 2 дні(-в)
5,0 (41 відгуки(-ів))
6,7
6,7
Аватарка користувача
See private message.
$25,50 USD за 2 дні(-в)
4,8 (15 відгуки(-ів))
3,7
3,7
Аватарка користувача
See private message.
$42,50 USD за 2 дні(-в)
4,5 (10 відгуки(-ів))
2,9
2,9
Аватарка користувача
See private message.
$68 USD за 2 дні(-в)
0,0 (0 відгуки(-ів))
0,0
0,0

Про клієнта

Прапор UNITED STATES
Levittown, United States
5,0
10
На сайті з лист. 3, 2006

Верифікація клієнта

Дякуємо! Ми надіслали на вашу електронну пошту посилання для отримання безкоштовного кредиту.
Під час надсилання електронного листа сталася помилка. Будь ласка, спробуйте ще раз.
Зареєстрованих користувачів Загальна кількість опублікованих робіт
Freelancer ® is a registered Trademark of Freelancer Technology Pty Limited (ACN 142 189 759)
Copyright © 2024 Freelancer Technology Pty Limited (ACN 142 189 759)
Завантажуємо для перегляду
Дозвіл на визначення геолокації надано.
Ваш сеанс входу закінчився, і сеанс було закрито. Будь ласка, увійдіть знову.