[Tổng quan công việc]
Chúng tôi tìm kiếm kỹ sư vận hành hệ thống Python có kinh nghiệm, chuyên phát triển và bảo trì hệ thống thu thập dữ liệu web. Vị trí này yêu cầu ứng viên có kỹ năng lập trình Python vững, cũng như kinh nghiệm phong phú trong phát triển hệ thống thu thập dữ liệu web (web scraping).
[Nhiệm vụ của bạn]
- Thiết kế, phát triển và bảo trì hệ thống thu thập dữ liệu web phân tán (distributed web scraping systems)
- Thực hiện trích xuất, lọc và phân tích thông tin từ nhiều nền tảng
- Tối ưu hóa chiến lược thu thập để nâng cao hiệu quả trích xuất
- Giám sát tiến trình thu thập dữ liệu theo thời gian thực và phản hồi nếu có cảnh báo
- Giải quyết nếu vấn đề kỹ thuật phát sinh trong quá trình thu thập dữ liệu, để bảo đảm tính ổn định của hệ thống
- Tham gia vào quá trình thiết kế kiến trúc và phát triển hệ thống thu thập dữ liệu
[Yêu cầu với ứng viên]
- Tốt nghiệp đại học trở lên, chuyên ngành khoa học máy tính hoặc liên quan
- Thành thạo lập trình ngôn ngữ Python với ít nhất 3 năm kinh nghiệm
- Quen thuộc với hệ điều hành Linux, có khả năng vận hành hệ thống tốt
- Hiểu sâu về giao thức HTTP và nguyên lý, kỹ thuật thu thập dữ liệu web
- Thành thạo các framework thu thập dữ liệu phổ biến như Scrapy, pyspider
- Thành thạo HTML, cấu trúc DOM, Xpath, regular expressions và CSS
- Hiểu biết về kỹ thuật chống thu thập dữ liệu phổ biến và có khả năng đối phó
- Có kinh nghiệm về kiến trúc thu thập dữ liệu phân tán và xử lý dữ liệu quy mô lớn
[Điểm cộng nếu bạn có]
- Quen thuộc với các công nghệ web front-end và render động JavaScript
- Kinh nghiệm về data mining và machine learning
- Thành thạo MySQL, MongoDB hoặc cơ sở dữ liệu khác
- Kinh nghiệm với kỹ thuật phân tích trang web như PageRank hoặc TrustRank
- Khả năng thực hiện những thao tác trích xuất, như đánh giá chất lượng trang, phân tích chủ đề hoặc LDA
- Khả năng giải quyết vấn đề phức tạp, như chặn tài khoản, chặn IP hoặc CAPTCHA
[Công nghệ sử dụng]
- Ngôn ngữ lập trình: Python (bắt buộc), Shell scripting (ưu tiên)
- Hệ điều hành: Linux
- Cơ sở dữ liệu: MySQL, MongoDB
- Framework thu thập dữ liệu: Scrapy, pyspider
- Quản lý code: Git
- Kỹ thuật khác: Regular expressions, Xpath, BeautifulSoup
[Yêu cầu về kỹ năng mềm]
- Khao khát học hỏi và có thể giải quyết vấn đề
- Kỹ năng làm việc nhóm và giao tiếp hiệu quả
- Khả năng làm việc dưới áp lực, trách nhiệm và chủ động trong công việc
- Tinh thần đổi mới sáng tạo, liên tục tối ưu hóa quy trình làm việc và tối ưu hóa giải pháp kỹ thuật
[Môi trường làm việc]
- Đội ngũ nhân sự kỹ thuật năng động
- Lương thưởng cạnh tranh
- Giờ làm việc linh hoạt
- Cơ hội học tập và phát triển liên tục
[Địa điểm làm việc]
- Thành phố Hồ Chí Minh, Việt Nam