Data Analyst Roadmap – Phần 1: Chuẩn bị nền tảng như nào để “chắc chân” vào ngành?

marketing foundation

Tomorrow MarketersCần phải học và chuẩn bị những gì để trở thành Data Analyst? Cần có nền tảng về toán mới trở thành Data Analyst? Chỉ cần thành thạo công cụ là có thể chắc suất vào ngành? Đây là một trong những câu hỏi của nhiều bạn trẻ muốn thử sức trong lĩnh vực dữ liệu. Tiếp nối chủ đề phân biệt các vị trí Data Analyst, Data Engineer và Data Scientist, trong bài viết lần này, cùng TM tìm hiểu những hành trang cần có của một beginner Data Analyst nhé!

1. Data Analyst (DA) là làm gì? Một ngày của Data Analyst làm gì?

Không dễ để đưa ra câu trả lời chính xác cho câu hỏi này, do phạm vi công việc (scope of work) sẽ khác nhau tùy theo quy mô và cách tổ chức đội nhóm dữ liệu tại mỗi công ty. 

Ví dụ, với các công ty có quy mô nhỏ và vừa, một Data Analyst có thể sẽ kiêm nhiệm thêm công việc cơ bản của Business Intelligence, Data Engineer và Data Governance, trong khi với doanh nghiệp lớn và tầm cỡ như các ngân hàng thì các vị trí trong team Data sẽ chuyên môn hóa sâu hơn, và vị trí của Data Analyst sẽ tập trung nhiều vào làm sạch và mapping data. Hoặc một team Data-centralized cũng sẽ khác với team Data-decentralized với mỗi Data Analyst chuyên môn sâu với một domain (Product/Marketing/Supply/Sales/…).

Bạn có thể tham khảo một số chia sẻ từ một Marketing Analyst để hiểu hơn về vị trí phân tích trong domain Marketing: 

Các task của Marketing Analyst tại công ty có thể được chia thành 3 level, tổng quát hóa theo 2 level chính: adhoc và strategic.

Các nhiệm vụ adhoc level 1 là công việc mà mọi Data Analyst đều đã từng phải “xắn tay áo” làm qua. Đây là những nhiệm vụ mà bạn sẽ được yêu cầu gì làm nấy. Đa phần các nhiệm vụ này khá sẵn có và có thể drag-and-drop để tạo thành biểu đồ từ các công cụ BI để lấy thông tin trả lời cho các câu hỏi mang tính “khám phá” dữ liệu. Nhiệm vụ này yêu cầu cần thành thạo SQL để truy vấn dữ liệu và công cụ BI để trực quan hóa. 

Các câu hỏi mà task adhoc có thể trả lời như:

  • Doanh thu tháng trước là bao nhiêu?
  • Tổng khách hàng của công ty đang là bao nhiêu?
  • Tổng lượng sản phẩm bán ra của công ty là bao nhiêu?

Các nhiệm vụ ở level 2 chính là phân tích – từ dữ liệu ở task adhoc, có thể rút ra được điều gì? 

  • Giờ nhìn vào doanh thu đang giảm, vậy tại sao giảm?
  • Cần cải thiện ở gì để không giảm nữa? 
  • Làm sao để tăng lượng khách hàng quay trở lại mua hàng? 
  • Có 10000 mã code khuyến mãi, gửi cho ai trong 1.000.000 khách hàng hiện có của công ty để tỷ lệ Conversion Rate cao nhất (CR = tổng người dùng / tổng gửi).

Với domain Marketing, sẽ có một số dạng bài toán để phân tích ra được bức tranh tổng quát của khách hàng: RFM, Cohort Analysis, Transaction Behavior, Basket Analysis, Customer Churn Prediction,… 

Giả sử, với bài toán RFM, kết quả phân tích sẽ cho ta thấy có thể chia nhóm khách hàng thành 3 nhóm: (1) nhóm buyer mua nhiều lần, thường xuyên và có giá trị giỏ hàng trung bình thấp, (2) nhóm buyer mua hàng không thường xuyên và có giá trị giỏ hàng trung bình cao,…

Đọc thêm: Phân tích RFM là gì và các bước phân khúc khách hàng theo RFM

Với các bài toán này, một Data Analyst có thể nâng cấp độ khó bằng cách ứng dụng các mô hình học máy (Machine Learning) để xác định pattern và phân nhóm khách hàng tự động nhờ các mô hình classification. 

Nhìn chung, các vị trí Analyst theo domain (Finance Analyst, Marketing Analyst, Supply Chain Analyst,…), đòi hỏi kiến thức chuyên môn về domain đó cao hơn các kỹ năng technical về dữ liệu. 

Vậy với Data Analyst tại một team centralized thì có gì khác biệt? 

Nhiệm vụ hàng ngày của Data Analyst cũng có 2 công việc chính: data service – cung cấp giải pháp dữ liệu để người dùng tiếp cận được dữ liệu dễ dàng, đầy đủ, chính xác với BI tool, và data analysis – cung cấp phân tích và làm rõ insight cho các team để đưa ra quyết định trên dữ liệu. Trong khi về dài hạn, Data Analyst sẽ có thêm các nhiệm vụ lớn hơn: hỗ trợ văn hóa data-driven trong công ty và thực hiện data analytics – đưa data model vào cải tiến vận hành và sản phẩm.

Công việc của Data Analyst sẽ đi theo các bước trong quy trình phân tích dữ liệu:

Đầu tiên, Data Analyst cần làm rõ bài toán với stakeholder: Người sử dụng dữ liệu là ai, bối cảnh cần khám phá từ dữ liệu là gì? Đây là hoạt động business understanding và data understanding.

  • Team Marketing thay đổi chiến lược inbound, bổ sung SEO và Google Ads như một kênh chính. Bài toán lúc này là tích hợp data từ Google Analytics với hệ thống dữ liệu đã có, kết hợp với dữ liệu của các kênh khác như dữ liệu tracking từ Facebook, TikTok, từ đó mapping được các user nào trên các kênh marketing sẽ được chuyển đổi, giúp quan sát đầy đủ vòng đời của một khách hàng,…
  • Team Product có những thay đổi trong sản phẩm: (1) thay đổi CTA của button, thay vì Check bill thì hiển thị Check invoice; (2) thay đổi format hiển thị ETA, thay vì tính theo ngày lịch biểu thì hiển thị theo ngày làm việc, (3) bổ sung giao diện dark mode,… Data Analyst sẽ cần làm rõ mục tiêu của những thay đổi này là gì, từ đó lựa chọn ra những chỉ số để đánh giá user behavior đối với mục tiêu, đặt ra benchmark để biết các chỉ số đó như nào là “hiệu quả”, xác định những kĩ thuật kiểm chứng như A/B Testing, Hypo Testing để đánh giá tính tương quan giữa những thay đổi này với kết quả đạt được,…

Ví dụ, với bài toán của team Marketing, Data Analyst sẽ hỗ trợ Data Engineer, Data Architect, Database Administrator,… với các đầu việc như thiết kế ERD, tích hợp dữ liệu,…

Sau khi đã có dữ liệu sơ cấp, Data Analyst sẽ tiếp tục nhiệm vụ làm sạch và làm giàu dữ liệu qua quá trình transform: công việc lúc này sẽ là điều chỉnh hoặc loại bỏ dữ liệu không chính xác, sai định dạng, trùng lặp, không liên quan, không đầy đủ hoặc bổ sung các trường dữ liệu để gom nhóm, phân cụm dữ liệu để đảm bảo dữ liệu nhất quán và không có bất kỳ lỗi nào xảy ra trong quá trình sử dụng và phân tích. Đầu ra của hoạt động này là các bảng data thuận tiện trong sử dụng.

Các công việc data service cũng sẽ bao gồm một số yêu cầu adhoc như chuẩn bị dữ liệu hoặc những nhiệm vụ không tên nhưng lại rất quan trọng để đảm bảo chất lượng dữ liệu, ví dụ hỗ trợ Data Engineer đảm bảo quá trình ETL liên tục và ổn định nhờ các công cụ ETL như Airflow, Airbyte,…; hoặc đảm bảo dữ liệu được làm sạch và mapping đúng logic. Bạn có thể bắt gặp một Data Analyst tốn nguyên 1 tiếng đồng hồ “debug” dữ liệu chỉ vì amount của một giao dịch không đủ/tính toán sai lệch.

Data Analyst cũng cần đảm bảo các hoạt động kiểm soát chất lượng dữ liệu (data governance) bằng cách đóng gói tài liệu thông tin về các ràng buộc (constraints), khóa chính (primary key), mối quan hệ giữa các bảng, ý nghĩa của các bảng và các trường thông tin hoặc có thể bổ sung use case khi sử dụng data.

Đọc thêm: Hướng dẫn các bước làm sạch dữ liệu

Trong khi với bài toán của team Product, Data Analyst sẽ cần khám phá dữ liệu (data mining). Data Analyst sẽ sử dụng đa dạng các công cụ để chuẩn bị dữ liệu, tùy thuộc toolset của mỗi người: sử dụng SQL với các tool như Metabase, Superset, Redash,… hoặc sử dụng Python với Jupyter Notebook, kết hợp với các giải pháp BI như  Excel, Power BI hoặc Tableau,…  để trực quan hóa tạo thành report/dashboard. 

Demo xây dựng Dashboard trên Power BI trong khóa học Data Analysis with Power BI | Tableau

Từ những dữ liệu sẵn có, Data Analyst sẽ đặt ra các giả thuyết, xác định quy mô mẫu và thời gian chạy A/B Testing, từ đó áp dụng kiến thức thống kê để kiểm định (validate) giả thuyết, cuối cùng là tìm ra phiên bản thử nghiệm có kết quả tốt nhất, sau đó tổng hợp kết quả phân tích thành report.

Nhưng không phải lúc nào team Data cũng sẽ có request phân tích của các stakeholder. Bản thân Data Analyst sau khi đã hoàn thiện trực quan hóa thành report và dashboard tự động cũng cần chủ động tìm ra cách tối ưu hiệu suất của hệ thống báo cáo. Đây chính là điểm khác biệt mà một Data Analyst có thể level up chuyên môn bên cạnh việc “làm đẹp” báo cáo. 

  • Semantic model trên Power BI có nên đưa về chế độ incremental khi load không? 
  • Cần schedule lịch refresh báo cáo như nào để không “đụng độ” với giờ DAG trên Airflow chạy transform? 
  • Thiết kế các bảng trong semantic model như nào để tránh dư thừa dữ liệu nhưng vẫn thuận tiện và dễ hiểu cho end user có nhu cầu muốn explore data? 
  • Kết hợp các cách storage như nào để tận dụng được sức mạnh của import, hạn chế những limit của direct query nhưng vẫn đảm bảo model không có kích thước quá lớn? 

Data Analyst cũng cần chủ động quan sát dữ liệu để khám phá ra xu hướng bất thường. Revenue giảm bất thường, một nhóm người dùng có behavior dự đoán sẽ churn, mức loss trên doanh thu của một mã sản phẩm do bất ngờ có thêm chi phí phụ trong sản xuất,… Data Analyst cần liên tục vẽ ra các scenario và có trong đầu nhiều problem tree để tìm ra vấn đề và đâu là yếu tố tương quan dẫn tới kết quả đó.

Vậy tóm lại, Data Analyst sẽ làm gì?

  • Làm rõ mô hình kinh doanh và quy trình vận hành
  • Làm việc với Data Engineer để đảm bảo quá trình thu thập dữ liệu thích hợp từ nhiều nguồn khác nhau và đường ống dữ liệu tự động và xuyên suốt
  • Làm sạch và chuẩn bị dữ liệu, đảm bảo dữ liệu chính xác, đầy đủ, nhất quán và đáng tin cậy
  • Chuẩn bị dữ liệu để trả lời cho các câu hỏi adhoc và xây dựng hệ thống dashboard/report tự động
  • Phân tích dữ liệu để hiểu biết sâu sắc, mô hình hoặc xu hướng
  • Hợp tác với các stakeholder và trình bày insight từ dữ liệu

Đọc thêm: 3 bước biến dữ liệu thành “Actionable Insight” – Chia sẻ từ kinh nghiệm làm Data tại Meta, Uber, Rippling

Trọng số của mỗi đầu việc sẽ phụ thuộc vào level, vai trò trong team, tổ chức cũng như định hướng của team và domain công việc phân tích.

2. Data Analyst Myth – Thực tế có như lời đồn?

Để trở thành Data Analyst cần giỏi tool?  

Đúng. Mặc dù công cụ chỉ là “phương tiện” để tìm ra kết quả, nhưng nếu không có công cụ thì làm gì cũng khó, ngay cả khi tìm được hướng đi cho bài toán vẫn sẽ loay hoay khi không biết thực hiện lời giải đó. 

Dù vậy, Data Analyst có nhiều công cụ và nhiều cách khác nhau, không nhất thiết phải làm việc với các tool phổ biến như Power BI/Tableau,  kể cả nếu không quá thành thạo Python nhưng master Excel cũng có thể trở thành một Data Analyst giỏi trong một số lĩnh vực như Sales, Marketing,…

Data Analyst sẽ có một ngày làm việc liên tục với dữ liệu để đưa ra quyết định?

Sai. Trước khi có sẵn bộ dữ liệu sạch sẽ để phân tích, đưa ra kết luận và trình bày với các bên liên quan, chuẩn bị dữ liệu cũng là một phần công việc quan trọng của Data Analyst để đảm bảo tính chuẩn xác của đầu ra. Công việc này sẽ tốn rất nhiều thời gian và đôi khi mang tính chất “tay chân” trước khi phân tích để đảm bảo những kết luận đưa ra được dựa trên dữ liệu đã chuẩn xác. Nhìn nhận thực tế, với nhiều công ty Việt Nam, Data Analyst vẫn mang vai trò cung cấp data service để hỗ trợ stakeholder đưa ra quyết định vì cần kết hợp với kiến thức domain.

Cần có nền tảng về toán để trở thành Data Analyst?  

Đúng. Nền tảng về toán, xác suất thống kê và logic là một phần quan trọng trong công việc của Data Analyst trong việc hình thành logical mindset. Nếu thiếu đi kiến thức xác suất thống kê, bạn sẽ không thể trả lời được các câu hỏi trong quá trình phân tích, ví dụ: 

Cuối tháng 10, tỉ lệ chuyển đổi của sales A đạt 95% và tỉ lệ chuyển đổi của sales B đạt 75%. Liệu sales A có đang làm tốt hơn so với sales B? – Câu hỏi này cần bổ sung thêm quy mô mẫu, thông tin về cách thiết kế A/B Testing, các chỉ số như mức ý nghĩa alpha, sai số chuẩn, giá trị z để kiểm định giả thuyết.

Một số kiến thức bạn nên làm quen bao gồm các khái niệm trong Xác suất Thống kê, Toán rời rạc, Đại số tuyến tính,… Điều quan trọng là bạn phải biết cách áp dụng những kiến thức đó như nào. 

Data Analyst có thể ngồi một chỗ và không cần giao tiếp nhiều như business-side? 

Sai. Data Analyst phải dành rất nhiều thời gian để làm rõ requirement với các bên, đôi khi còn là cầu nối giữa business và tech. Đồng thời, một ngày của Data Analyst cũng có các đầu việc như thuyết trình, trình bày các kết luận từ dữ liệu và cần tới kỹ năng giao tiếp, đào sâu vấn đề và thuyết trình tốt.

3. Lộ trình để trở thành Data Analyst

3.1. Chuẩn bị kiến thức nền tảng (mindset)

Data Analyst cần có ba nhóm kiến thức nền tảng quan trọng:

Kiến thức cơ bản về toán

Các lý thuyết của toán học là nền tảng của tư duy logic và lập luận chặt chẽ, đồng thời cũng cung cấp các định lý, công thức và mô hình toán học trong phân tích và xử lý dữ liệu. Trong đó, thống kê là kiến thức căn bản của Data Analyst khi phân tích một tập dữ liệu lớn, đặc biệt khi các tập dữ liệu thường chỉ là một mẫu đại diện cho một tổng thể.

Tuần 1: Cơ bản về Xác suất và Thống kê

  • Khái niệm: Các khái niệm cơ bản về xác suất, phân phối xác suất, biến ngẫu nhiên

Đọc thêm: 10 khái niệm thống kê cơ bản cần biết khi làm việc với dữ liệu

  • Phân phối xác suất: Phân phối nhị thức, phân phối chuẩn (Normal Distribution), phân phối Poisson
  • Ước lượng thống kê: Ước lượng điểm và khoảng, độ tin cậy (confidence intervals)

Tuần 2: Kiểm định giả thuyết, hồi quy, phân tích tương quan và xác suất có điều kiện

  • Kiểm định giả thuyết thống kê (t-test, chi-square test), p-value
  • Hồi quy tuyến tính, hồi quy logistic, phân tích tương quan giữa các biến.
  • Xác suất điều kiện và định lý Bayes

Tuần 3: Khái niệm cơ bản trong Toán rời rạc

  • Làm quen với các mệnh đề toán học: Mệnh đề, các phép toán mệnh đề, các quy tắc suy diễn, vị từ lượng từ, tập hợp, quan hệ, đồ thị,…
  • Phương pháp đếm: Hoán vị, tổ hợp,…

Kiến thức cơ bản về cấu trúc dữ liệu và cơ sở dữ liệu

Tuần 1: Cơ bản về cấu trúc dữ liệu, các kiểu dữ liệu và căn bản về cơ sở dữ liệu quan trọng

Tuần 2: Giới thiệu cơ bản về hạ tầng dữ liệu và quá trình chuyển đổi dữ liệu

Kiến thức về domain

Dữ liệu cần kết hợp với kiến thức và hiểu biết trong một lĩnh vực để đưa ra những phân tích có ý nghĩa và có tính áp dụng. Chỉ khi hiểu rõ đặc thù của ngành, bạn mới nắm rõ dữ liệu được sử dụng làm gì, đâu là những dữ liệu quan trọng, các chỉ số đo lường cần được thay đổi để phù hợp với ngành như nào, các mô hình và kỹ thuật phù hợp hoặc nhận ra những dữ liệu bất thường mà nếu là người không có chuyên môn có thể bỏ qua,…

3.2. Chuẩn bị kỹ năng sử dụng bộ công cụ (toolset)

Ngôn ngữ truy vấn và thao tác với dữ liệu

SQL (Structured Query Language)

Một trong những đầu việc chính chính là trích xuất dữ liệu từ cơ sở dữ liệu và SQL là ngôn ngữ được sử dụng để thực hiện việc đó.

Bạn có thể tham khảo lộ trình học SQL chi tiết với bài viết Hướng dẫn tự học SQL và các nguồn luyện tập dành cho người mới bắt đầuTổng quan về SQL của Tomorrow Marketers.

Ngày 1-7: Làm quen với những khái niệm cơ bản và nền tảng nhất

  • Các ràng buộc dữ liệu: Primary Key (Khóa chính), Foreign Key (Khóa ngoại),…
  • Cơ bản về một truy vấn: SELECT, FROM, WHERE,…
  • Các câu lệnh định nghĩa dữ liệu (thay đổi cấu trúc của bảng): INSERT, DELETE, UPDATE,…
  • Thực hành tạo cơ sở dữ liệu, bảng, và các loại dữ liệu và các câu lệnh SQL cơ bản như SELECT, INSERT, UPDATE, DELETE để nhập dữ liệu

Ngày 8-12: Các toán tử và những khái niệm nâng cao

  • Truy vấn con (subquery/nested query) và Common Table Expression (CTE)
  • Mệnh đề logic với CASE WHEN
  • Toán tử số học: ‘=’, ‘>’, ‘<’, ‘<>’, ‘>=’,…
  • Toán tử đại diện: ‘LIKE’, ‘iLIKE’, ‘%’, ‘~’, AND & OR, BETWEEN & IN, NOT,…
  • Các hàm chuyển đổi kiểu dữ liệu ngày tháng: DATE_TRUNC, DATEPART, EXTRACT, TO_DATE, DATEDIFF, DATE, DATE_FORMAT,…
  • Các hàm chuyển đổi theo kiểu dữ liệu số: ::INT, ::FLOAT,…
  • Các hàm chuyển đổi kiểu dữ liệu văn bản: ::VARCHAR, TO_CHAR, CONCAT, LEFT, RIGHT, LTRIM, TRIM, LOWER, UPPER, REPLACE, SUBSTR,……
  • Các hàm chuyển đổi kiểu dữ liệu JSON: JSON_EXTRACT, JSON_UNQUOTE, JSON_EXTRACT_PATH_TEXT, JSON_PARSE,…
  • Các hàm xử lý và làm sạch dữ liệu: COALESCE, NULLIF,…

Ngày 12-17: Thành thạo JOIN và UNION

  • UNION và UNION ALL
  • JOIN: INNER JOIN, LEFT JOIN, RIGHT JOIN, FULL JOIN, CROSS JOIN, SELF JOIN, RECURSIVE JOIN,…

Đọc thêm: JOIN trong SQL là gì? JOIN và UNION có giống nhau?

Ngày 18-25: Thành thạo các hàm tổng hợp, hàm tính toán và các hàm xử lý dữ liệu theo nhóm

  • DISTINCT: Truy xuất các bản ghi duy nhất và loại bỏ các bản ghi trùng lặp.
  • Các hàm tổng hợp (Aggregate): COUNT, SUM, AVG, MIN, MAX,…
  • Các hàm tính toán (Mathematical): DIVIDE, MINUS, GREATEST, LEAST, ROUND, CEILING, FLOOR,…
  • ORDER BY
  • GROUP BY & HAVING
  • TOP & LIMIT
  • Window Functions: ROW_NUMBER, DENSE_RANK, RANK, PERCENT_RANK, NTILE, LAG, LEAD, FIRST_VALUE, LAST_VALUE, NTH_VALUE,…

Đọc thêm: Window Functions là gì? Tìm hiểu từ A-Z các hàm window functions trong SQL

Ngày 26-30: Làm quen với các câu lệnh quản trị cơ sở dữ liệu và tối ưu truy vấn 

  • Làm việc với quyền truy cập dữ liệu: CREATE ROLE, GRANT, ALTER, REVOKE, DROP,…
  • Tối ưu truy vấn với EXPLAIN

Đọc thêm: 

Tham khảo thêm khóa học SQL for Data Analysis của TM Data School để trang bị kiến thức tổng quát và tinh gọn nhất của lộ trình trên: SQL là gì, các loại ngôn ngữ SQL và cách sử dụng các câu lệnh SQL để thiết kế, tùy chỉnh và thao tác với cơ sở dữ liệu.

Visualization Tool

Bằng cách thành thạo công cụ trực quan hóa dữ liệu, bạn sẽ có thể tạo các hình ảnh trực quan tương tác và hấp dẫn giúp bạn hiểu rõ hơn về dữ liệu của mình và truyền đạt những phát hiện của mình cho người khác

Power BI

PowerBI là một lựa chọn tuyệt vời để trực quan hóa dữ liệu vì nó dễ học và tích hợp với các sản phẩm khác của Microsoft.

Ngày 1–3: Giới thiệu và cài đặt PowerBI

Ngày 4-5: Kết nối nguồn dữ liệu và chuẩn bị dữ liệu

  • Cách kết nối các nguồn dữ liệu khác nhau trong Power BI, từ cơ bản như Excel, CSV, Google Sheets cho tới nâng cao hơn như các website, các công cụ thứ ba như Twilio, Google Analytics và các cơ sở dữ liệu như Redshift, MySQL, SQL Server,…
  • Tìm hiểu ưu nhược của các storage mode như Import, Direct Query, Composite
  • Tìm hiểu về ưu nhược khi “tái sử dụng” Semantic Model và Dataflows trong Power BI Service

Ngày 6-8: Xây dựng Data Model và thiết kế relationship

Ngày 9-10: Làm quen với Power Query (M Query) để làm sạch dữ liệu

Ngày 11-13: Tạo các đo lường (Measures) và cột tính toán (Calculated Columns) với DAX

  • DAX là gì? Tổng quan về DAX trong Power BI
  • Hàm tính toán cơ bản: SUM, AVERAGE, CALCULATE, MAX, COUNT, COUNTROWS, DISTINCTCOUNT,… 
  • Hàm xử lý văn bản: CONCATENATE, LEFT, RIGHT, MID, FIND, SEARCH, LEN, UPPER, LOWER, FORMAT,…
  • Hàm Logic: IF, SWITCH, AND, OR, NOT,…
  • Hàm time intelligence: TOTALYTD ,DATESYTD, PARALLELPERIOD, DATEADD, SAMEPERIODLASTYEAR, PREVIOUSMONTH, NEXTMONTH,…
  • Hàm xử lý thời gian: YEAR, MONTH, DAY, WEEKDAY, QUARTER, DATE, TIME, NOW, TODAY,… 
  • Hàm định nghĩa: CALCULATE, CALCULATETABLE, FILTER, ALL, ALLEXCEPT, REMOVEFILTERS, VALUES, SELECTEDVALUE,…
  • Hàm tính toán cấp cao: RANKX, TOPN, SUMX, AVERAGEX, MINX, MAXX, COUNTX,… 
  • Hàm kiểm soát mối quan hệ: RELATED, RELATEDTABLE, USERELATIONSHIP,…
  • Hàm dự đoán và phân tích: FORECAST.ETS, FORECAST.LINEAR,…

Ngày 14-15: Kỹ thuật trực quan hóa dữ liệu với Power BI

Ngày 16-17: Các tính năng hỗ trợ tăng tính tương tác cho báo cáo

  • Slicers và filter
  • Drill-through và bookmark
  • Parameters (tham số) – cho phép người dùng nhập hoặc chọn giá trị đầu vào để điều chỉnh dữ liệu hiển thị trong báo cáo

Ngày 18-19: Các tính năng hỗ trợ phân tích dự báo trong Power BI

  • What-if Analysis kết hợp Parameters: Dự đoán kết quả của một tình huống khác nhau bằng cách thay đổi các giá trị đầu vào trong mô hình.
  • Visual Forecasting: Dự báo trực tiếp trên các biểu đồ từ dữ liệu lịch sử với các loại dynamic line Constant line, Max line, Min line, Average line, Median line, Percentile line, Symmetry shading, Trend line, Forecasts
  • Decomposition Tree: Cây phân tích giúp dự đoán các yếu tố ảnh hưởng đến các chỉ số chính  sắp xếp các tính năng theo thứ bậc và hiển thị bảng phân tích của một số liệu ở mỗi cấp trong hệ thống phân cấp đó.
  • Anomaly Detection: Tính năng phát hiện các điểm dữ liệu bất thường
  • Key Influencers: Tự động xác định mối quan hệ giữa các biến được chọn, đánh giá các yếu tố ảnh hưởng chính tới kết quả và cung cấp những nhận định về mỗi yếu tố
  • Nâng cao: Tích hợp các script R hoặc Python vào Power BI để thực hiện các phân tích và dự đoán phức tạp

Ngày 24: Tối ưu hóa hiệu suất của báo cáo

  • Pause visual, Refresh visual: Cho phép tạm dừng cập nhật dữ liệu trong một báo cáo và chỉ cập nhật visual cụ thể khi cần thiết.
  • Optimization presets: Tự động thay đổi theo cấu hình mặc định cho các chỉ số, làm mới dữ liệu, hoặc tối ưu các truy vấn DAX để tối ưu hiệu suất báo cáo.
  • Performance analyzer: Phân tích hiệu suất các visual và báo cáo để xác định các “điểm nghẽn” khiến hiệu suất kém.

Ngày 25: Khám phá các tính năng khác trong Power BI Service

  • Scorecard: Công cụ giúp theo dõi và đánh giá hiệu suất dựa trên các chỉ số quan trọng (KPIs) và mục tiêu.
  • Dashboard: Tổng hợp dữ liệu từ nhiều báo cáo và nguồn dữ liệu khác nhau về một dashboard duy nhất.
  • Apps: Tập hợp của các báo cáo và dashboards được đóng gói lại và chia sẻ với một nhóm người dùng/các bộ phận.
  • Paginate Reports: Loại báo cáo thiết kế để xuất ra các trang báo cáo dài và chi tiết, thường được sử dụng để tạo báo cáo có định dạng cố định và in ấn như các báo cáo tài chính, báo cáo kiểm toán,…
  • Q&A Visual: Tính năng hỏi đáp để tự động tạo báo cáo từ câu hỏi bằng ngôn ngữ tự nhiên.
  • Personalize Visuals: Tùy chỉnh các yếu tố trực quan của báo cáo.

Ngày 26: Chia sẻ báo cáo với Power BI Service

  • Power BI Service là gì? Hiểu tổng quan về Power BI Service
  • Chia sẻ report từ Power BI Desktop lên Power BI Service

Ngày 27: Chỉnh sửa báo cáo với chế độ Power BI Mobile

  • Khám phá ứng dụng Power BI Mobile và cách xem báo cáo trên thiết bị di động
  • Thiết kế báo cáo cho trình duyệt điện thoại và tối ưu hóa trải nghiệm người dùng trên thiết bị di động.

Ngày 28: Quyền truy cập báo cáo và chia sẻ báo cáo

Các mức bảo mật dữ liệu chính:

  • Row-Level Security (RLS): cho phép kiểm soát quyền truy cập đến dữ liệu ở mức hàng, cung cấp bảo mật dữ liệu linh hoạt cho các nhóm người dùng khác nhau, chẳng hạn như đảm bảo rằng nhân viên chỉ có thể xem dữ liệu liên quan đến bộ phận của họ.
  • Object-Level Security (OLS): cho phép kiểm soát quyền truy cập vào các đối tượng dữ liệu cụ thể trong mô hình dữ liệu, chẳng hạn như bảng hoặc cột. Điều này giúp bảo vệ dữ liệu nhạy cảm hoặc không liên quan bằng cách giới hạn quyền truy cập đến các đối tượng này.
  • Dataset Permissions: cho phép quản lý quyền truy cập đối với các tập dữ liệu, quy định ai có thể xem, chỉnh sửa hoặc chia sẻ các tập dữ liệu, đảm bảo chỉ những người có quyền truy cập hợp lệ mới có thể làm việc với dữ liệu.
  • Workspace Access Control: cho phép bạn kiểm soát quyền truy cập vào các không gian làm việc (workspaces) và tài nguyên bên trong đó. Bạn có thể phân quyền cho các thành viên theo các vai trò khác nhau như Viewer, Contributor, Member, hoặc Admin.
  • Ngoài ra có thể kể tới các mức bảo mật Data Encryption, Conditional Access Policies, Auditing and Monitoring.

Ngày 29: Vận dụng Power BI kết hợp với Power Automation và Power Apps để tự động hóa 

  • Power Automation: Tạo workflow công việc tự động hóa công việc dựa trên việc định nghĩa các hành động cần thực hiện khi có trigger, ví dụ như gửi email, thông báo đến ứng dụng di động, tự động làm mới dữ liệu,…
  • Power Apps: Nhúng Power BI với Power Apps có thể cho phép người dùng có thể nhập dữ liệu trực tiếp vào biểu mẫu trong Power Apps để cập nhật vào báo cáo trên Power BI hoặc cho phép người dùng tương tác, thay đổi filter trong Power BI,…
  • Tìm hiểu cơ bản về Copilot trong Power BI

Ngày 30: Thực hành với dự án thực tế: 

Bạn có thể tham khảo thêm khóa học Data Analysis with Power BI | Tableau để rút ngắn thời gian học, đồng thời kết nối và nhận lời khuyên từ các anh chị trainers có nhiều kinh nghiệm trong cả mảng business và data. 

Excel

Với Excel, bạn có thể tạo các công thức và hàm để thực hiện các phép tính, bảng tổng hợp và biểu đồ để trực quan hóa dữ liệu cũng như sử dụng các công cụ phân tích dữ liệu để đưa ra dự đoán và xác định các mẫu. 

Ngày 1: Giới thiệu về Excel và các chức năng cơ bản

  • Cài đặt Excel
  • Tìm hiểu các tổng hợp dữ liệu từ các nguồn khác: tệp CSV, từ website,…
  • Giao diện làm việc của Excel: các khái niệm cơ bản (cell, range, sheet,…)
  • Thanh công cụ (ribbons), điều hướng với menus và các tabs
  • Cách tùy chỉnh thanh công cụ nhanh với Quick Access Toolbar (QAT)
  • Cách sử dụng hộp thoại (Dialog Box) và các bảng công cụ (Task Panes)
  • Các chức năng format cell cơ bản như thay đổi màu sắc, font chữ, size chữ, wrap text, merge cells,…
  • Các phím tắt cơ bản trong Excel

Ngày 2-3: Filter & Sorting 

  • Sorting Data với một và nhiều trường dữ liệu
  • Filter Data bằng giao diện và filter theo công thức
  • Conditional Formatting với Color Scale và Formula
  • Slicers

Ngày 4-9: Data Entry & Basic Formulas in Excel

  • Các hàm tính toán và tổng hợp giá trị cơ bản: SUM, COUNT, AVERAGE, MIN, MAX, SQRT, PERCENTILE, VAR.S, STDEV.S,…
  • Các hàm tính toán có điều kiện: SUMIF, COUNTIF, AVERAGEIF, MAXIF, MINIF,…
  • Các hàm điều kiện: AND, OR, IF, NESTEDIFs, IFNA, IFERROR, NOT, XOR, SWITCH,…
  • Các hàm xác định và thay đổi loại dữ liệu: ISBLANK, ISNUMBER, ISTEXT, ISLOGICAL, VALUETOTEXT, TEXT, DATEVALUE, N, T, REPLACE, REPT, CHAR, FIXED, SUBSTITUTE, CLEAN,…
  • Các hàm thời gian: TODAY, YEAR, MONTH, DAY, DATE, EDATE, EOMONTH, WEEKDAY, WORKDAY, NETWORKDAYS, YEARFRAC, DATEDIF,… 
  • Các hàm xử lý chuỗi string: CONCATENATE, TRIM, LEFT, RIGHT, MID, LEN, LOWER, UPPER, PROPER, RANDBETWEEN, TEXTSPLIT, NAME RANGEs,…
  • Các hàm tham chiếu và tìm kiếm giá trị: OFFSET, MATCH & INDEX, SEARCH, FIND, CHOOSE, VLOOKUP, HLOOKUP, XLOOKUP, LET, XMATCH, INDIRECT,…
  • Các hàm làm việc với mảng dữ liệu (array): LARGE, SMALL, FREQUENCY, TRANSPOSE, SEQUENCE,…

Đọc thêm: 05 hàm phổ biến nhất trong Excel cho phân tích dữ liệu (có sẵn dataset thực hành)

Ngày 10: Các chức năng kiểm tra chất lượng dữ liệu của dữ liệu 

  • Xác định phụ thuộc trong công thức với Trace Precedents and Dependents
  • Xác định ô bị lỗi với Show Formulas và Error Checking
  • Kiểm soát và đảm bảo rằng dữ liệu nhập vào ô được nhập đúng bằng cách giới hạn data types, tạo một danh sách chọn sẵn, thiết lập các điều kiện, tự động xử lý dữ liệu sai với Data Validation 
  • Remove Duplicates & Unique Formula

Ngày 11-13: Các chức năng trực quan hóa dữ liệu 

  • Các loại biểu đồ được hỗ trợ trong Excel: Column, Line, Pie, Bar, Area, Scatter, Histogram, và các biểu đồ đặc biệt như Waterfall, Funnel,…
  • Tùy chỉnh biểu đồ với các yếu tố nâng cao như Secondary Axis, Data Labels, và Combo Charts.

Ngày 14-17: Pivot Table

Ngày 18-20: Làm quen với Data Model và DAX measure (có sẵn dataset thực hành) 

  • Thực hành các bước tạo Data Model trong Excel 
  • Thực hành các bước tạo DAX Measure 

Ngày 21-22: Làm quen với Power Query 

  • Làm quen giao diện 
  • Sử dụng Power Query để kết nối và làm việc với các nguồn dữ liệu khác nhau: ví dụ SQL Server, Access,…
  • Một số kỹ thuật làm sạch dữ liệu với Transpose table, Promote Headers, Pivot/Unpivot, Split/Merge Columns, Removing duplicates, Change data types, Filter data,…

Ngày 23: Làm quen với Python Editor trong Excel trước khi kết hợp với kiến thức nâng cao hơn trong quá trình học Python dưới đây

Ngày 24-25: Làm quen với các công cụ hỗ trợ làm sạch và phân tích dữ liệu 

  • Làm quen với What-if Analysis để dự đoán kết quả của một tình huống khác nhau bằng cách thay đổi các giá trị đầu vào trong mô hình với các tính năng: Scenario Manager, Goal Seek, Data Tables, Solver và Analysis ToolPak
  • Làm quen với Forecast Sheets: Áp dụng các kỹ thuật dự đoán như Exponential Smoothing, Regression Analysis

Ngày 26-27: Làm quen với Add-ins, VBA (Visual Basic for Applications) và Macros trong Excel

  • Làm quen với Macros: Ghi lại chuỗi tác vụ (recording) và tạo macros để tự động hóa các công việc lặp đi lặp lại như tạo lịch trình cập nhật báo cáo và gửi báo cáo tự động qua email,…
  • Lập Trình VBA Cơ Bản: Tìm hiểu cú pháp VBA, biến, hàm, và cấu trúc điều khiển.
  • Tạo User Forms: Thiết kế và sử dụng forms để thu thập dữ liệu từ người dùng.

Ngày 28-30: Xây dựng một dự án hoàn chỉnh, bao gồm các bảng tính, báo cáo tự động, và phân tích dữ liệu

  • Dự báo tài chính (Financial forecasting)
  • Quản lý hàng tồn kho (Inventory management)

Tham gia khóa học Data Visualization & Analytics with Excel của Tomorrow Marketers để có thêm cơ hội tiếp xúc với đa dạng dataset, đa dạng bài toán thực tế và được feedback sau khi thực hành xây dựng báo cáo.

Ngôn ngữ lập trình

Python

Một số điểm cộng lớn của Python có thể kể đến như: 

  • (1) Python là ngôn ngữ open-source
  • (2) Python cung cấp đa dạng các thư viện với các kỹ thuật phân tích nâng cao – một số thư viện phổ biến thường được dùng trong phân tích dữ liệu như Pandas để thao tác và phân tích dữ liệu, NumPy để tính toán khoa học và Matplotlib để trực quan hóa dữ liệu đồng thời
  • (3) Python hỗ trợ vector hóa, cho phép thực hiện các thao tác trên nhiều phần tử của một mảng dữ liệu cùng một lúc 

Nói riêng trong lĩnh vực phân tích dữ liệu, Python có một số ứng dụng:

  • Thu thập dữ liệu từ các website (Web Scraping): Python cũng thường được dùng để kéo dữ liệu từ các trang web khác cho các bài toán như so sánh giá cả (price comparison), danh sách công việc (job listings), nghiên cứu và phát triển (research and development),…
  • Thao tác với dữ liệu (Data manipulation): Python có thể tương tác với bất kỳ cơ sở dữ liệu nào một cách đơn giản. Syntax đơn giản, tích hợp đa dạng các thư viện và giao diện lập trình thuận tiện để làm việc trực tiếp trong tập lệnh thông qua truy vấn SQL giúp đơn giản hóa đáng kể công việc xử lý dữ liệu. Với Python, Data Analyst có thể thay đổi loại dữ liệu, tổng hợp nhiều dataset, làm sạch dữ liệu, tạo ra các function, trực quan dữ liệu,…
  • Phân tích thống kê (Statistical analysis): Python có thể được sử dụng để thực hiện phân tích thống kê về dữ liệu, chẳng hạn như means, medians và standard deviations.
  • Tự động hóa (Automation with scripting): Python có thể tự động hóa nhiều tác vụ cơ bản tới nâng cao thông qua script – ví dụ tổng hợp nhiều file dữ liệu, kết nối với database và thực hiện truy vấn và hỗ trợ export ra nhiều loại file,… Các đoạn script có thể được sử dụng để kiểm tra lỗi (errors) và duplicate records trong các tệp dữ liệu, thực hiện các flow công việc như tìm, download và đổi tên tệp dữ liệu, thực hiện gửi email, tự động điền vào các form mẫu, chuyển đổi tập tin văn bản sang bảng tính, phân công ngẫu nhiên công việc cho các thành viên,… 
  • Artificial Intelligence và Machine Learning – Python có thể được sử dụng để thiết kế các thuật toán và xây dựng các mô hình học máy nhằm đưa ra dự đoán từ dữ liệu quá khứ nhờ hỗ trợ đa dạng thư viện Scikit-Learn, Tensorflow,…

Bạn có thể tham khảo lộ trình tìm hiểu cơ bản về Python trong 30 ngày dưới đây:

Ngày 1-5: Giới thiệu cơ bản về Python

  • Ngày 1: Cài đặt Python và một môi trường phát triển tích hợp (IDE) như  Pycharm, Visual Studio Code, trình phân phối Python như Anaconda hoặc các nền tảng/cloud-service cho phép thực hiện chương trình Python như Jupyter Notebook, Google Colab.
  • Ngày 2-5: Nắm chắc các khái niệm cơ bản:
    • Biến (variable)
    • Loại dữ liệu (numbers, strings, booleans)
    • Các phép logic cơ bản (các phép toán cộng trừ nhân chia, lũy thừa, chia dư; các phép so sánh; các toán tử logic;…)

Ngày 6-10: Các câu lệnh điều khiển luồng (control flow statements) và hàm (functions)

  • Ngày 6-8: Các câu lệnh điều khiển luồng (if statements, loops): Các câu lệnh điều khiển luồng cho phép lập trình viên thay đổi thứ tự các câu lệnh và luồng xử lý của chương trình dựa trên các điều kiện cụ thể. Nắm vững khái niệm đệ quy và các vòng lặp for loop, while loop cho các tác vụ lặp lại nhiều lần.
  • Ngày 9-10: Nắm được hàm (functions) và mô-đun (modules): 
    • Hàm (functions) là nhóm các lệnh có tổ chức và có thể tái sử dụng được dùng để thực hiện một tác vụ cụ thể. Mô-đun (modules) là tập hợp các hàm và biến có liên quan. 
    • Hiểu được bản chất của các khái niệm, biết các định nghĩa và gọi một hàm (call functions), import và sử dụng các module.

Ngày 11-15: Cấu trúc dữ liệu (data structures)

  • Ngày 11-12: Tìm hiểu cấu trúc dữ liệu (data structure) trong Python
    • Lists: một tập hợp các phần tử theo một thứ tự nhất định, phân tách bởi dấu phẩy “,” và được đặt trong cặp dấu ngoặc vuông []. Lists có tính chất có thể thay đổi (mutable) – có thể bổ sung, xóa bỏ hoặc chỉnh sửa các phần tử trong list.
    • Tuples: tương tự với list, điểm khác biệt là các phần tử không thể thay đổi (immutable). Các phần tử của tuples được đặt trong cặp dấu ngoặc tròn ().
    • Sets: một tập hợp các phần tử độc nhất (nghĩa là mỗi phần tử chỉ xuất hiện một lần), có thể thay đổi (mutable) và được đặt trong cặp dấu ngoặc nhọn {}. Sets thường được sử dụng để thực hiện các phép toán như phép hợp (union), phép giao (intersection) hoặc phép trừ (difference).
    • Dictionaries: tập hợp các cặp giá trị key-value không theo thứ tự nhất định, trong đó mỗi key sẽ độc nhất. Các cặp giá trị trong dictionaries có thể thay đổi (mutable) và được đặt trong cặp dấu ngoặc nhọn {}. Dictionaries thường được dùng để lưu trữ và truy xuất dữ liệu một cách hiệu quả.
  • Ngày 13-15: Tìm hiểu về các kỹ thuật thao tác với một chuỗi (string)

Ngày 16-23: Các thư viện phổ biến trong phân tích và trực quan hóa dữ liệu

  • Ngày 16-17: Làm quen với NumPy và thực hiện các phép toán số (numerical operations): 
    • Numpy cung cấp hỗ trợ làm việc với các mảng đa chiều lớn (multi-dimensional arrays) và ma trận (matrices) với các hàm toán học phức tạp và các phép toán đại số tuyến tính (linear algebra). 
    • Thực hành các câu lệnh để khởi tạo, thao tác và phân tích một mảng trong Numpy.
  • Ngày 18-19: Làm quen với Pandas và thực hiện thao tác với dữ liệu (data manipulation): 
    • Pandas là thư viện được phát triển dựa trên Numpy, hỗ trợ làm việc với dữ liệu như tệp CSV, Excel, các data table trong cơ sở dữ liệu quan hệ có cấu trúc thông qua Series – mảng một chiều (có thể gắn nhãn thay vì chỉ được đánh số như mảng trong Numpy) và DataFrame – mảng hai chiều tương tự với một bảng dữ liệu với nhiều trường thông tin khác nhau. 
    • Pandas cho phép thay đổi cấu trúc dữ liệu thành các đối tượng DataFrame giúp dễ dàng làm sạch, khám phá và tiền xử lý dữ liệu. 
    • Thực hành làm sạch dữ liệu, xử lý các giá trị bị thiếu, xác định giá trị ngoại lai (outliers).
  • Ngày 20: Làm quen với Matplotlib và thực hiện trực quan hóa dữ liệu (data visualization)
    • Matplotlib cung cấp hỗ trợ để trực quan hóa dữ liệu bằng diagram và các loại biểu đồ hai chiều cơ bản như biểu đồ đường, biểu đồ cột, scatter plots, histograms,…
    • Thực hiện trực quan hóa dữ liệu với các loại biểu đồ cơ bản.
  • Ngày 21: Làm quen với Seaborn
    • Seaborn được phát triển dựa trên Matplotlib, cung cấp nhiều dạng biểu đồ hơn, ví dụ như Pair plots (sử dụng để mối tương quan giữa các chiều dữ liệu theo từng cặp với nhau), Distplot (trực quan phân phối của dữ liệu), Joint distributions, Heatmap, hoặc các loại plot như Box plot, Swarm plot và Violin plot,…

Đọc thêm: Data visualization với Seaborn

  • Ngày 22: Làm quen với  Plotly
    • Plotly hỗ trợ trực quan hóa dữ liệu với tính tương tác, cho phép người dùng phóng to, thu nhỏ và di chuyển biểu đồ.
  • Ngày 23: Các kỹ thuật Exploratory data analysis (EDA)
    • EDA bao gồm các kỹ thuật tìm hiểu, phân tích đặc điểm của một tập dữ liệu dựa trên các phép tính thống kê, phân phối dữ liệu để xác định pattern và xu hướng trong dữ liệu.

Ngày 23-30: Một số thư viện nâng cao

  • Ngày 24-25: Làm quen với Scikit-learn
    • Scikit-learn là thư viện được dùng trong machine learning, cung cấp hỗ trợ cho nhiều thuật toán như hồi quy tuyến tính (linear), hồi quy logistics (logistic regression), các thuật toán cây (decision trees), phân loại (classification) và phân cụm (clustering).
  • Ngày 26-27: Làm quen với BeautifulSoup
    • BeautifulSoup cung cấp công cụ để điều hướng, tìm kiếm và trích xuất dữ liệu từ cấu trúc HTML hoặc XML, giúp bạn tìm kiếm các thẻ HTML, thuộc tính của chúng, nội dung bên trong các thẻ, và thậm chí các đoạn văn bản cụ thể trong tài liệu.
  • Ngày 28-29: Làm quen với Request
    • Requests là thư viện Python đơn giản hóa việc gửi yêu cầu HTTP như GET và POST, xử lý xác thực, và quản lý cookie. Requests được sử dụng rộng rãi trong web scraping và tương tác với API.
  • Ngày 30: Thực hiện project phân tích dữ liệu với Python
    • Lựa chọn một dataset và áp dụng các kiến thức đã học và thử xây dựng một mô hình dự đoán.

Nếu bạn muốn thực hành các kĩ thuật trên với các project thực tế dưới sự hướng dẫn của các trainer giàu kinh nghiệm, hãy tham gia khóa học Advanced Analytics with Python với 100% giảng viên được đào tạo về Data Science tại nước ngoài.

3.3. Chuẩn bị bộ kỹ năng (skill-set)

  • Tư duy phân tích (Analytical thinking): Phân tích dữ liệu là quá trình tổng hợp và trực quan một khối lượng lớn dữ liệu để đưa ra thông tin có ý nghĩa. Tư duy phân tích chính là mấu chốt cho mọi bước trong quy trình này: bắt đầu từ việc xác định đâu mới là mục tiêu/nguyên nhân chính, sắp xếp thứ tự ưu tiên và lựa chọn giải pháp.
  • Kỹ năng giải quyết vấn đề (Problem-solving skills): Kỹ năng giải quyết vấn đề giúp Data Analyst nhận ra bản chất của vấn đề trước mắt và suy luận để lựa chọn các công cụ, hướng tiếp cận và kỹ thuật phân tích dữ liệu phù hợp để giải quyết vấn đề. 
  • Kỹ năng trình bày (Presentation skills): Data Analyst phải trình bày một cách hiệu quả những hiểu biết sâu sắc của mình theo cách mà stakeholder — một bên là business, một bên là technical — có thể hiểu được. Kỹ năng thuyết trình tốt sẽ cho phép bạn truyền đạt những phát hiện và dự đoán của mình một cách thuyết phục mà người nghe sẽ quan tâm.
  • Kỹ năng giao tiếp và làm việc nhóm (Communication & collaboration skills): Data Analyst không phải công việc con sói đơn độc như nhiều người suy nghĩ mà sẽ phải tương tác với nhiều người ở các trình độ và phòng ban khác nhau, có kỹ năng giao tiếp và giao tiếp tốt sẽ giúp tạo điều kiện hợp tác giữa các bên và đặc biệt có thể là cầu nối giữa business – tech.
  • Kỹ năng nghiên cứu (Research): Tính tò mò, mong muốn đào sâu vấn đề cùng với các kỹ năng nghiên cứu bản chất sẽ giúp Data Analyst biết cách đặt câu hỏi khai thác và khám phá dữ liệu để tìm ra những thông tin mới và giá trị.

Kết luận

Sau khi đã chuẩn bị đầy đủ hành trang về kiến thức và kĩ năng, làm thế nào để thể hiện bản thân để tăng sức nặng cho CV, sẵn sàng cạnh tranh với các ứng viên khác khi mà yêu cầu về nhân sự ngày càng cao và số lượng ứng viên cho một vị trí Fresher/Junior không ngừng tăng? Cùng đón đọc bài viết Chuẩn bị Data Portfolio và sẵn sàng cho buổi phỏng vấn nhé!

Hoặc, nếu bạn cảm thấy tò mò và mông lung và cần có một mentor chỉ đường dẫn lối theo một lộ trình, tham khảo lộ trình học phân tích dữ liệu cho người mới bắt đầu của TM Data School!

Các khóa học Data tại TM Data School được thiết kế đi theo từng giai đoạn của dòng chảy dữ liệu trong doanh nghiệp, đáp ứng đầy đủ nhu cầu kĩ năng của một Data Analyst: từ “chuẩn bị số”, “đọc số”, đến “dự đoán” để tìm ra insight, phục vụ cho quá trình ra quyết định chiến lược. Nhằm cung cấp những kiến thức & kỹ năng cần thiết để học viên có thể tự tin bước ngành data và đảm nhận các vai trò khác nhau trong quy trình làm data trong doanh nghiệp.

Khóa học SQL for Data Analysis – Truy vấn & trích xuất dữ liệu với SQL

  • Nắm được các khái niệm trong hệ thống dữ liệu bao gồm: Nhà kho dữ liệu, thiết kế đường ống dẫn truyền dữ liệu để kết nối dữ liệu từ nhiều nguồn khác nhau về một kho dữ liệu trung tâm.  
  • Biết cách sử dụng SQL từ cơ bản đến nâng cao để chủ động thao tác & truy vấn data từ nhà kho dữ liệu.

Khóa học Data Analysis with PowerBI – Kiến thức nền tảng cho phân tích dữ liệu

  • Hiểu tổng quan về dữ liệu, quy trình làm việc với dữ liệu và công việc Data Analysis.
  • Rèn luyện tư duy đặt vấn đề, xác định bài toán phân tích dữ liệu.
  • Trang bị kỹ năng xử lý & trực quan hóa dữ liệu cơ bản với công cụ Power BI.
  • Trau dồi khả năng đọc số, phân tích dữ liệu qua các case study.

Khóa học Visualization & Analytics with Excel – Làm sạch dữ liệu và visualize

  • Xử lý dữ liệu và xây dựng báo cáo, dashboard nâng cao từ các file Excel riêng lẻ.
  • Trang bị kỹ năng Data storytelling – kể chuyện bằng dữ liệu để truyền tải thông tin từ dữ liệu một cách hấp dẫn.
  • Ứng dụng công cụ nâng cao (Excel Solver, Excel Toolpak) để đưa ra các phân tích dự báo, tương quan, hay phân tích tối ưu.

Khóa học Advanced Analytics with Python – Phân tích nâng cao (phân tích dự báo)

  • Trang bị kiến thức bài bản từ gốc rễ về Predictive Analytics và Machine Learning từ các chương trình Master of Science in Data Science hàng đầu thế giới.
  • Biết cách sử dụng Python và các thuật toán quan trọng như KNN, Linear Regression, và Logistic Regression để xây dựng và kiểm tra các mô hình dự đoán phục vụ cho việc ra quyết định.

Bài viết được tổng hợp và biên dịch bởi Tomorrow Marketers, xin vui lòng không sao chép dưới mọi hình thức!

Tagged: