Blog

Kỹ sư Vận hành Python (Chuyên về Thu thập dữ liệu)

【Địa điểm làm việc】 Thành phố Hồ Chí Minh

【Tổng quan công việc】
Chúng tôi đang tìm kiếm một Kỹ sư Vận hành Python có kinh nghiệm, chuyên về phát triển và bảo trì hệ thống thu thập dữ liệu web. Vị trí này yêu cầu ứng viên có kỹ năng lập trình Python vững chắc và kinh nghiệm phong phú trong phát triển hệ thống thu thập dữ liệu web.

【Trách nhiệm chính】
1. Thiết kế, phát triển và bảo trì hệ thống thu thập dữ liệu web phân tán
2. Thực hiện việc trích xuất, làm sạch và phân tích thông tin từ nhiều nền tảng
3. Tối ưu hóa chiến lược thu thập để nâng cao hiệu quả trích xuất của nền tảng
4. Giám sát tiến trình thu thập dữ liệu theo thời gian thực và phản hồi cảnh báo
5. Giải quyết các thách thức kỹ thuật chống thu thập dữ liệu để đảm bảo tính ổn định của việc thu thập dữ liệu
6. Tham gia vào thiết kế kiến trúc và phát triển liên quan đến thu thập dữ liệu

【Yêu cầu】
1. Tốt nghiệp đại học trở lên, ưu tiên chuyên ngành Khoa học Máy tính hoặc các ngành liên quan
2. Thành thạo lập trình Python với ít nhất 3 năm kinh nghiệm làm việc liên quan

【Kỹ năng cần thiết】
1. Quen thuộc với hệ điều hành Linux và có khả năng vận hành hệ thống tốt
2. Hiểu sâu về giao thức HTTP và nguyên lý, kỹ thuật thu thập dữ liệu web
3. Thành thạo các framework thu thập dữ liệu phổ biến như Scrapy, pyspider
4. Thành thạo HTML, cấu trúc DOM, và các kỹ thuật trích xuất dữ liệu như XPath, biểu thức chính quy, và CSS selectors
5. Hiểu biết về các kỹ thuật chống thu thập dữ liệu phổ biến và có khả năng đối phó
6. Có kinh nghiệm với kiến trúc thu thập dữ liệu phân tán và xử lý dữ liệu quy mô lớn

【Kỹ năng ưu tiên】
1. Quen thuộc với công nghệ Web frontend và hiểu về render động JavaScript
2. Có kinh nghiệm về khai thác dữ liệu và học máy
3. Thành thạo trong việc thao tác với MySQL, MongoDB và các cơ sở dữ liệu khác
4. Có kinh nghiệm với phân tích liên kết (ví dụ: PageRank, TrustRank)
5. Khả năng trích xuất đặc trưng (ví dụ: đánh giá chất lượng trang, phân tích chủ đề, LDA)
6. Có khả năng giải quyết các vấn đề phức tạp như chặn tài khoản, chặn IP, và nhận dạng CAPTCHA

【Công nghệ sử dụng】
– Ngôn ngữ lập trình: Python (bắt buộc), Shell scripting (ưu tiên)
– Hệ điều hành: Linux
– Cơ sở dữ liệu: MySQL, MongoDB
– Framework thu thập dữ liệu: Scrapy, pyspider
– Quản lý phiên bản: Git
– Công cụ khác: Biểu thức chính quy, XPath, BeautifulSoup

【Kỹ năng mềm】
1. Có khát khao học hỏi mạnh mẽ và khả năng giải quyết vấn đề
2. Kỹ năng làm việc nhóm và giao tiếp xuất sắc
3. Khả năng làm việc dưới áp lực, có trách nhiệm và thái độ làm việc chủ động
4. Tinh thần đổi mới, có khả năng liên tục tối ưu hóa quy trình làm việc và giải pháp kỹ thuật

【Môi trường làm việc】
– Đội ngũ kỹ thuật năng động
– Chế độ lương thưởng cạnh tranh
– Giờ làm việc linh hoạt
– Cơ hội học tập và phát triển liên tục

Add comment