[Series] XCrawler – Truyền kì truyện – Ubuntu

Well ! Series này thật chất không focus nặng vào XCrawler. Bản chất series sẽ xoay quanh các vấn đề liên quan và … mở rộng. Version mình dùng hiện tại là Ubuntu 20.04

Ubuntu

Bản chất Ubuntu cũng chỉ là OS based trên Linux thôi. Không có gì đặc biệt hết. Được cái phổ cập và dễ sử dụng.

Do đó mọi câu chuyện sẽ xoay quanh Ubuntu

XCrawler

Biết rồi ! Khỏi giới thiệu lại ha. Tuy nhiên sẽ điểm lại requirements của em nó 1 chút

Web Server

  • Apache hay Nginx cũng được. Tạm thời đây là thứ không quá quan trọng vì GUI chưa được implement nhiều.

PHP Ngoài các extensions cơ bản ra thì sẽ cần

  • MongoDB – 1.13.0
  • Redis
  • Memcached

https://github.com/jooservices/bash/blob/main/services/multi-php.sh

Database

Như vậy ta đã biết việc prepare environment cho XCrawler là gì rồi

Supervisor dùng cho Horizon. Horizon hỗ trợ việc scale up, tăng số lượng workers node. Tạm thời do chưa implement Proxy do đó

  • n servers / tương ứng với n public IPs sử dụng cho việc crawling data. Như vậy giảm được rủi ro bị block IP
  • và 1 server dùng cho web UI

Và đó là cơ bản những gì cần thiết để setup XCrawler. Tuy nhiên câu hỏi đặt ra

Việc setup n nodes cho XCrawler lập đi lập lại nhiều lần và rất mất thời gian

Vậy phải làm sao

Leave a Reply

Please log in using one of these methods to post your comment:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Up ↑

%d bloggers like this: