Well ! Series này thật chất không focus nặng vào XCrawler. Bản chất series sẽ xoay quanh các vấn đề liên quan và … mở rộng. Version mình dùng hiện tại là Ubuntu 20.04
Bản chất Ubuntu cũng chỉ là OS based trên Linux thôi. Không có gì đặc biệt hết. Được cái phổ cập và dễ sử dụng.
Do đó mọi câu chuyện sẽ xoay quanh Ubuntu
XCrawler
Biết rồi ! Khỏi giới thiệu lại ha. Tuy nhiên sẽ điểm lại requirements của em nó 1 chút
Web Server
- Apache hay Nginx cũng được. Tạm thời đây là thứ không quá quan trọng vì GUI chưa được implement nhiều.
PHP Ngoài các extensions cơ bản ra thì sẽ cần
- MongoDB – 1.13.0
- Redis
- Memcached
https://github.com/jooservices/bash/blob/main/services/multi-php.sh
Database
Như vậy ta đã biết việc prepare environment cho XCrawler là gì rồi
Supervisor dùng cho Horizon. Horizon hỗ trợ việc scale up, tăng số lượng workers node. Tạm thời do chưa implement Proxy do đó
- n servers / tương ứng với n public IPs sử dụng cho việc crawling data. Như vậy giảm được rủi ro bị block IP
- và 1 server dùng cho web UI
Và đó là cơ bản những gì cần thiết để setup XCrawler. Tuy nhiên câu hỏi đặt ra
Việc setup n nodes cho XCrawler lập đi lập lại nhiều lần và rất mất thời gian
Vậy phải làm sao
Leave a Reply