pdf-crawler

The goal of pdf-crawler is to download PDF files from web pages for testing PyPDF2.

Install

pip install -r requirements.txt

Usage

It's organized in mostly isolted scripts, e.g.

python crawl.py

starts downloading PDF documents.

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
data_analysis		data_analysis
.gitignore		.gitignore
.isort.cfg		.isort.cfg
.pre-commit-config.yaml		.pre-commit-config.yaml
LICENSE		LICENSE
README.md		README.md
crawl.py		crawl.py
get_coverage_by_pdf.py		get_coverage_by_pdf.py
requirements.in		requirements.in
requirements.txt		requirements.txt
spider-snapshot.json		spider-snapshot.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

data_analysis

data_analysis

.gitignore

.gitignore

.isort.cfg

.isort.cfg

.pre-commit-config.yaml

.pre-commit-config.yaml

LICENSE

LICENSE

README.md

README.md

crawl.py

crawl.py

get_coverage_by_pdf.py

get_coverage_by_pdf.py

requirements.in

requirements.in

requirements.txt

requirements.txt

spider-snapshot.json

spider-snapshot.json

Repository files navigation

pdf-crawler

Install

Usage

About

Releases

Packages

Languages

License

py-pdf/pdf-crawler

Folders and files

Latest commit

History

Repository files navigation

pdf-crawler

Install

Usage

About

Resources

License

Stars

Watchers

Forks

Languages