TM Data School – Data Analyst, Data Engineer, Data Scientist là 3 vị trí công việc mà bạn chắc hẳn đã được nghe rất nhiều khi bắt đầu tìm hiểu về mảng data.
Những vị trí này có gì khác nhau? Liệu bạn sẽ phù hợp với vị trí nào? Hãy cùng TM tìm hiểu về tính chất công việc, vai trò của từng vị trí, những kỹ năng cần trang bị để xem liệu data có phải mảnh đất phù hợp với bạn không nhé!
Xem thêm: Record Event Unlock Data Careers – Mở khóa sự nghiệp ngành Data
Nội dung bài viết:
- Data Analyst
– Data Analyst sẽ làm gì?
– Data Analyst cần có những kiến thức và kỹ năng gì? - Data Engineer
– Data Engineer sẽ làm gì?
– Data Engineer cần có những kiến thức và kỹ năng gì? - Data Scientist
– Data Scientist sẽ làm gì?
– Data Scientist cần có những kiến thức và kỹ năng gì?
1. Data Analyst
Data analyst là người thu thập, xử lý và phân tích dữ liệu để giúp doanh nghiệp đưa ra quyết định tốt hơn.
Ví dụ, một người làm nhiệm vụ phân tích dữ liệu sẽ sử dụng dữ liệu lịch sử về doanh thu, số lượng đơn hàng và các dữ liệu liên quan để xác định đâu là sản phẩm được mua nhiều nhất trong dịp nghỉ lễ, nhằm có kế hoạch dự trù lượng cầu mà công ty cần sản xuất trước.
Nhu cầu tuyển dụng Data Analyst tại các doanh nghiệp – Slide được trích từ khóa học Data Analysis for decision making with Power BI
Data Analyst sẽ làm gì?
Các công việc của một Data Analyst sẽ phụ thuộc vào nhu cầu và đặc thù của công ty, dù vậy Data Analysts thường sẽ chịu trách nhiệm cho những đầu việc:
- Thu thập dữ liệu từ nhiều nguồn khác nhau
- Làm việc với các stakeholder để phát triển nhu cầu và yêu cầu về dữ liệu, ví dụ làm việc với các PM để yêu cầu các lập trình viên phát triển phần mềm lưu lại dữ liệu của các event hit-level như click vào banner, click vào mục review,…
- Làm sạch và tổ chức dữ liệu để đảm bảo dữ liệu đã chính xác và có độ tin cậy cao trong phân tích
- Xây dựng, duy trì các báo cáo, dashboard và trực quan hóa dữ liệu nhằm hỗ trợ các phòng ban đảm bảo vận hành và tiến độ hoàn thành kế hoạch
- Phân tích adhoc để tìm ra vấn đề trong vận hành và biến động bất thường, ví dụ xu hướng tăng giảm doanh thu hoặc chi phí theo ngày,…
- Sử dụng các kiến thức về toán học và thống kê nhằm khám phá dữ liệu để xác định patterns, xu hướng và mối tương quan giữa các yếu tố từ dữ liệu lịch sử
- Làm việc với đa phòng ban chức năng để có thêm góc nhìn về dữ liệu, từ đó kết hợp đưa ra kết luận cho các phân tích, đánh giá
- Phát triển và duy trì cơ sở dữ liệu (databases) và hệ thống dữ liệu (data systems), trong đó vai trò của Data Analyst quan trọng nhất trong việc sử dụng SQL để thiết kế và tạo ra datamart nhằm phục vụ nhu cầu sử dụng dữ liệu của từng phòng ban chức năng trong doanh nghiệp
- Tùy theo quy mô, đặc thù của công ty và thiết kế của cơ sở hạ tầng dữ liệu, Data Analyst có thể làm việc với các khái niệm về dữ liệu như datamart, dataset, data warehouse, data pipeline, data lake, data lake-house,… nhằm tìm ra hướng tiếp cận hỗ trợ người dùng dữ liệu có thể truy cập dễ dàng và tự khám phá.
- Với các công ty quy mô vừa và nhỏ, một Data Analyst cũng có thể kiêm nhiệm vai trò quản lý metadata – dữ liệu của dữ liệu, quản lý tính bảo mật của dữ liệu trong việc cấp quyền truy cập dữ liệu,…
Đọc thêm: Quy trình và phương pháp phân tích dữ liệu
Một số câu hỏi mà Data Analyst có thể trả lời bằng cách phân tích dữ liệu:
- Làm thế nào để marketer có thể sử dụng dữ liệu phân tích để giúp tăng hiệu quả reach của một facebook ads campaign?
- Phân khúc khách hàng theo các đặc điểm hành vi tiêu dùng như nào? Đâu là chân dung của nhóm đối tượng mục tiêu cho sản phẩm mới?
- Đánh giá mức độ cạnh tranh của một thị trường mà công ty có kế hoạch phát triển, ví dụ mở rộng sang các quốc gia lân cận có đặc điểm thị trường khá tương đồng như Lào, Campuchia.
- Lý giải cho sự tăng giảm bất thường của GMV trong 3 tháng gần đây?
- Phân tích mức độ hài lòng của nhân viên với công việc trong 6 tháng đầu năm?
- Đánh giá hiệu quả của feature boost upsell?
- Phân tích tiềm năng phát triển tính năng quản lý kho hàng cho các shop bán hàng online trong lĩnh vực FMCG?
- …
Vậy một Data Analyst cần có những kiến thức và kỹ năng gì?
Một Data Analyst cần phải thành thạo trong việc chuyển dữ liệu số thành thông tin mà mọi người đều có thể hiểu được. Tổng hòa của một Data Analyst sẽ bao gồm kiến thức về technical (ngôn ngữ và cơ bản về hạ tầng dữ liệu), mathematical (kiến thức toán) và domain (kiến thức về nghiệp vụ, chuyên môn và đặc thù của ngành/công ty), cụ thể:
- Kiến thức toán và xác suất thống kê
- Kiến thức về một số programming language như SQL, Python, R. Với một số công ty chưa có nhiều dữ liệu và lưu trữ chủ yếu trên Excel, Google Sheets, Data Analyst cũng cần thành thạo pivot table, các hàm chức năng, VBA, Python Editor,…
- Kỹ năng sử dụng một số công cụ báo cáo như Power BI, Tableau,… với các kiến thức và nguyên tắc về trực quan hóa dữ liệu, Power Query, DAX (Data Analysis Expressions), measure,…
- Kiến thức về ngành hàng, cách vận hành của công ty và đặc thù của sản phẩm để xác định đúng bài toán doanh nghiệp đang cần giải quyết, từ đó tìm ra hướng tiếp cận và đề xuất ra giải pháp “đúng đắn”. Ví dụ, đặc thù của một doanh nghiệp SaaS sẽ khác biệt so với công ty E-commerce, dù cả hai đều sống trên môi trường số.
- Kỹ năng giao tiếp, problem-solving, cách đặt câu hỏi và kỹ năng báo cáo
Đọc thêm: Lộ trình học Data Analysis cho dân trái ngành background Business
Bạn cũng có thể tham khảo một số vị trí khác cũng yêu cầu các kỹ năng tương đồng với Data Analyst như business analyst, operations analyst, market research analyst và business intelligence analyst.
Tổng quan về các vị trí công việc trong ngành Data – Slide được trích từ khóa học Data Analysis for decision making with Power BI
2. Data Engineer
Data Engineer là người chịu trách nhiệm xây dựng quy trình và duy trì thu thập và lưu trữ dữ liệu, đồng thời thiết kế và xây dựng đường ống để đảm bảo dữ liệu được lưu trữ tại nhà kho đầy đủ và toàn vẹn.
Cấu trúc của một hệ thống dữ liệu trong doanh nghiệp Data Engineer cần xây dựng – Slide được trích từ khóa học Data System with SQL
Data Engineer sẽ làm gì?
Tương tự Data Analyst, các đầu việc của một Data Engineer sẽ phụ thuộc vào quy mô của khối lượng dữ liệu và của công ty, có thể khái quát như:
- Call API dữ liệu từ các nguồn bên ngoài dữ liệu nội bộ nhằm tổng hợp dữ liệu về một nơi lưu trữ
- Thiết kế và xây dựng đường ống dữ liệu (data pipelines) để vận chuyển dữ liệu từ các nguồn khác nhau vào một giải pháp lưu trữ dữ liệu cho báo cáo và phân tích.
- Đảm bảo dữ liệu toàn vẹn so với nguồn và ở định dạng thuận tiện cho thực hiện các bước chuyển đổi và xử lý dữ liệu sau đó, trong đó bao gồm xử lý dữ liệu định dạng JSON hoặc decode dữ liệu
- Liên tục duy trì và kiểm tra đường ống để đảm bảo hiệu suất đồng bộ dữ liệu được tối ưu
- Với các công ty quy mô vừa và nhỏ, Data Engineer có thể kiêm nhiệm vai trò thiết kế quy trình extract transform load (ETL) nhằm lưu trữ dữ liệu tại nhà kho (data warehouse), duy trì hạ tầng dữ liệu (data infrastructure) và có thể tham gia thiết kế kiến trúc dữ liệu (data architecture)
Vậy một Data Engineer cần có những kiến thức và kỹ năng gì?
Data Engineer đảm bảo rằng dữ liệu đều được nhận, chuyển đổi, lưu trữ đúng cách và có thể truy cập được. Data Engineer xây dựng và tối ưu hóa các công cụ, nền tảng và dữ liệu tầng cơ sở.
Vai trò của một Data Engineer yêu cầu bạn phải có kiến thức và hiểu biết về:
- Các ngôn ngữ lập trình như Java, SQL, Python
- Framework của các công cụ xử lý Big Data như Hadoop, MapReduce, Pig, Kafka, Hive, Apache Spark, và Data Streaming, đồng thời nắm được cách tiếp cận cơ sở dữ liệu không có cấu trúc (NoSQL) như Amazon DynamoDB, MongoDB và Cassandra. Với công nghệ lưu trữ trên giải pháp đám mây, Data Engineer cũng cần học thêm về AWS, Google Cloud, Microsoft Azure,… tùy theo công cụ mà công ty sử dụng.
- Các mô hình và cơ chế xử lý tải dữ liệu của các giải pháp làm việc với dữ liệu lớn, ví dụ Tự động điều chỉnh quy mô (auto scaling instance) của Amazon AWS,…
- Tư duy xử lý vấn đề (Problem-Solving): Khả năng để xác định vấn đề và tối ưu quy trình đồng bộ dữ liệu theo thời gian thực
- Kiến thức về các loại kiến trúc dữ liệu và các phương pháp lưu trữ dữ liệu
Đọc thêm: Hướng dẫn tự học và các nguồn SQL để luyện tập dành cho người mới bắt đầu
3. Data Scientist
Data Scientist là người sử dụng kiến thức về toán, xác suất thống kê, machine learning và lập trình để phát triển mô hình, đưa ra các dự đoán, hoặc đánh giá kết quả của các tình huống khác nhau nhằm tìm ra phương án tốt nhất cho một câu hỏi.
Đọc thêm: 04 giai đoạn phân tích dữ liệu – Descriptive, Diagnostic, Predictive & Prescriptive Analytics
Data Scientist sẽ làm gì?
- Phát triển và train dữ liệu cho các mô hình machine learning, đồng thời liên tục kiểm thử, cross validation để cải tiến, điều chỉnh hệ số và biến số dự báo kịp thời để đảm bảo tính chính xác (accuracy) và tính linh hoạt (flexible)
- Phát triển các giả thuyết và thực hiện các nghiên cứu để kiểm chứng các giả thuyết đó
- Thực hiện các phân tích thống kê và ứng dụng các định lý trong giải thuật nhằm phát triển các thuật toán machine learning trong xử lý dữ liệu, xác định, phân cụm và dự báo
Data Scientist sẽ áp dụng những kỹ thuật xử lý dữ liệu nâng cao có giám sát (supervised learning) như: classification (phân loại), regression (hồi quy); hoặc các kỹ thuật không giám sát (unsupervised learning) như: clustering (phân cụm), neural networks (mạng thần kinh), anomaly detection (phát hiện bất thường),… để đào tạo các mô hình toán học nhằm xác định các quan sát và đưa ra dự đoán chính xác.
Ví dụ về Regression Analytics trong khóa học Advanced Analytics with Python
Khác với Analyst thường sử dụng dữ liệu quá khứ để phân tích xu hướng và trả lời các câu hỏi mang tính chất thống kê mô tả, thì một Scientist sẽ sử dụng những dữ liệu đó để kiểm nghiệm các giả thuyết, đào tạo và xây dựng thuật toán, mô hình để đưa ra những dự đoán khi dữ liệu mới liên tiếp đổ về.
Data Scientist có thể dự báo các xu hướng và hành vi trong tương lai. Trong khi Data Analyst thiên về mô tả và phân tích những thông tin hiện tại hơn. Cả 2 vị trí đều phối hợp chặt chẽ với nhóm lập trình cho công tác quản lý dữ liệu; tuy nhiên hầu như các Data Analyst không cần phải xây dựng mô hình thống kê; áp dụng Machine learning hay các phần mềm cao cấp. Trong khi đó, những phần việc này lại là yêu cầu bắt buộc đối với một Data Scientist.
Một số câu hỏi mà Data Scientist có thể trả lời:
- Dự báo cầu về các sản phẩm sẽ phát sinh đơn hàng lớn và khối lượng cần prestock tại kho của các quốc gia và khu vực khác nhau
- Các mô hình và signal dự báo khả năng gian lận của một người dùng hoặc một đơn hàng
- Phân loại bình luận mạng xã hội (sentiment analysis) có chứa cảm xúc tiêu cực hay tích cực
- Gợi ý sản phẩm có khả năng sẽ được khách hàng mua theo combo
- Dự báo dispute rate của các cổng thanh toán PayPal và Stripe trong 2 tháng tới
- Dự báo số lượng ticket của đội ngũ chăm sóc khách hàng sẽ tiếp nhận trong 30 ngày tiếp theo
- Đánh giá khả năng rời bỏ (churn) khỏi ứng dụng/dịch vụ của một người dùng
- …
Một số bài toán nâng cao sẽ được giải quyết trong khóa học Advanced Analytics with Python
Vậy một Data Scientist cần có những kiến thức và kỹ năng gì?
Nhìn chung, Data Scientist cần có nền tảng về toán học, thống kê nâng cao, khoa học máy tính và kiến thức về lĩnh vực cụ thể. Data Scientist thường sử dụng kiến thức về:
- Ngôn ngữ và công cụ lập trình như Python, R, SQL và một số library trong Python
- Kỹ năng sử dụng các công cụ trực quan như Tableau hoặc PowerBI để trực quan hóa những insight từ dữ liệu
- Kiến thức về định lý toán học, giải thuật, khả năng phân tách lý giải thuật toán và xác suất thống kê. Vị trí Data Scientist cũng đòi hỏi kiến thức toán học nâng cao hơn ngoài các khái niệm cơ bản.
- Kiến thức khác về công nghệ như Deep learning, và Machine Learning cũng là một phần quan trọng.
Kiến thức về Deep learning, Machine Learning và AI mà Data Scientist cần trang bị – Trích từ khóa học Advanced Analytics with Python
Kết luận
Nhìn chung, có thể tóm gọn điểm khác biệt cơ bản nhất:
- Data Analyst thường tập trung vào thu thập, xử lý làm sạch, khám phá và phân tích insight có được từ dữ liệu – một Analyst sẽ cần có một chiếc đầu lạnh và trực quan tốt về Business và Toán học
- Data Engineer sẽ tập trung vào việc xây dựng, duy trì quy trình thu thập dữ liệu, đảm bảo tính toàn vẹn nhất và đảm bảo dữ liệu được lưu trữ an toàn, dưới hình thức dễ dàng xử lý nhất – nhiệm vụ này đòi hỏi một Data Engineer thiên nhiều hơn về kiến thức công nghệ thông tin
- Data Scientist thường tập trung để đưa ra dự đoán – vì vậy kiến thức của Data Scientist cần tập trung nhiều nhất vào Toán học, thống kê và machine learning
Hy vọng bài viết này sẽ giúp bạn có cái nhìn toàn diện về các vị trí phổ biến nhất của người làm trong ngành dữ liệu – Data Analyst, Data Engineer và Data Scientist, đồng thời hiểu được nhiệm vụ, vai trò, công việc và các kiến thức, kỹ năng cần thiết.
Dù vậy, đừng vội vàng nhảy vào ngành chỉ bởi màu hồng “lương ngàn đô” thật hấp dẫn. Một mức lương 8 chữ số không dễ dàng đạt được khi bạn là người mới đối với ngành và đặc biệt khi thị trường nhân sự của ngành tech đang đối mặt với nhiều thách thức. Vậy làm thế nào để tạo được lợi thế cạnh tranh nhằm đáp ứng yêu cầu về nhân sự chất lượng cao để theo đuổi sự nghiệp Data chuyên nghiệp? Nếu bạn cảm thấy tò mò và mông lung và cần có một mentor chỉ đường dẫn lối theo một lộ trình, tham khảo ngay các khóa học về dữ liệu của Tomorrow Marketers!
Các khóa học Data tại TM Data School được thiết kế đi theo từng giai đoạn của dòng chảy dữ liệu trong doanh nghiệp: từ “tạo số” đến “đọc số + dự đoán” để tìm ra insight, phục vụ cho quá trình ra quyết định chiến lược. Nhằm cung cấp những kiến thức & kỹ năng cần thiết để học viên có thể tự tin bước ngành data và đảm nhận các vai trò khác nhau trong quy trình làm data trong doanh nghiệp.
Vai trò của Team Data (Data Analyst, Data Engineer và Data Scientist) trong doanh nghiệp
Khóa học Data Analysis with PowerBI – Kiến thức nền tảng cho phân tích dữ liệu
- Hiểu tổng quan về dữ liệu, quy trình làm việc với dữ liệu và công việc Data Analysis.
- Rèn luyện tư duy đặt vấn đề, xác định bài toán phân tích dữ liệu.
- Trang bị kỹ năng xử lý & trực quan hóa dữ liệu cơ bản với công cụ Power BI.
- Trau dồi khả năng đọc số, phân tích dữ liệu qua các case study.
Khóa học Data System with SQL – Xây dựng nhà kho và Truy vấn dữ liệu
- Trang bị kiến thức bài bản về hệ thống dữ liệu và cơ sở dữ liệu.
- Biết xây dựng hệ thống dữ liệu để kết nối các dữ liệu từ nhiều nguồn khác nhau: TikTok, Facebook Ads, Google Analytics 4,… về một kho dữ liệu trung tâm (Data Warehouse).
- Truy vấn data từ kho dữ liệu trung tâm bằng SQL từ cơ bản đến nâng cao.
Khóa học Visualization & Analytics with Excel – Làm sạch dữ liệu và visualize
- Xử lý dữ liệu và xây dựng báo cáo, dashboard nâng cao từ các file excel riêng lẻ.
- Ứng dụng công cụ nâng cao (Excel Solver, Excel Toolpak) để đưa ra các phân tích dự báo, tương quan, hay phân tích tối ưu.
- Trang bị kỹ năng Data storytelling – kể chuyện bằng dữ liệu để truyền tải thông tin từ dữ liệu một cách hấp dẫn.
Khóa học Advanced Analytics with Python – Phân tích nâng cao (phân tích dự báo)
- Trang bị kiến thức bài bản từ gốc rễ về Predictive Analytics và Machine Learning từ các chương trình Master of Science in Data Science hàng đầu thế giới.
- Biết cách sử dụng Python và các thuật toán quan trọng như KNN, Linear Regression, và Logistic Regression để xây dựng và kiểm tra các mô hình dự đoán phục vụ cho việc ra quyết định.
Bài viết được tổng hợp và biên dịch bởi Tomorrow Marketers, xin vui lòng không sao chép dưới mọi hình thức!