Tomorrow Marketers – Nếu đang chuẩn bị cho buổi phỏng vấn cho vị trí Business Intelligence Analyst, bạn cần chuẩn bị một portfolio với các dự án đã thực hiện. Trong bài viết này, hãy tham khảo 15 project sử dụng Power BI nhé!
Đọc thêm: Ứng dụng Power BI trong phân tích dữ liệu
Power BI là gì?
Microsoft Power BI là một công cụ Business Intelligence, với các tính năng giúp bạn xây dựng báo cáo & interactive dashboards dựa trên dữ liệu từ nhiều nguồn khác nhau.
Power BI hiện cung cấp 3 giải pháp khác nhau: Power BI Desktop dùng cho máy tính bàn/laptop, dịch vụ phần mềm SaaS online Power BI service và ứng dụng Power BI Mobile dành cho các thiết bị di động (tương thức với cả hệ điều hành Windows, iOS và Android). 3 giải pháp này cho phép người dùng tạo, chia sẻ và khai thác các insight cho doanh nghiệp một cách hiệu quả theo từng mục đích khác nhau, tùy thuộc vào nhiệm vụ và vai trò của họ trong doanh nghiệp.
Một số lợi ích của việc sử dụng Power BI bao gồm:
- Dễ dàng kết nối với các ứng dụng khác: Power BI hỗ trợ thực hiện các phân tích và xây dựng báo cáo dễ dàng nhờ kết nối các nguồn dữ liệu khác nhau và tự động hóa quy trình xử lý dữ liệu.
- Dashboards: Người dùng có thể tùy chỉnh dashboard theo nhu cầu nhờ giao diện thân thiện.
- Phân tích chuyên sâu nhờ tích hợp ngôn ngữ lập trình R: Data scientist thường sử dụng R cho machine learning, phân tích thống kê và lập mô hình dữ liệu phức tạp. Các mô hình dữ liệu được tạo trong R có thể dễ dàng được tích hợp vào dashboard trong Power BI và trực quan dữ liệu thông qua các biểu đồ.
- Không giới hạn lưu trữ: Power BI không có hạn chế về bộ nhớ hay tốc độ khi lưu chuyển từ hệ thống Power BI sang các phần mềm điện toán đám mây, nhằm đảm bảo dữ liệu đổ về chính xác, đồng bộ cho các phân tích hiệu quả.
- Tính bảo mật của các báo cáo và dashboard: Power BI cho phép làm mới dữ liệu tự động và xuất bản báo cáo một cách an toàn, đảm bảo thông tin được cập nhật mới nhất theo thời gian thời.
Đọc thêm: Làm thế nào để thiết kế các dashboard hữu ích cho doanh nghiệp? 5 nguyên tắc mà bạn cần ghi nhớ
15 datasets để thực hành phân tích dữ liệu với Power BI
Dưới đây là 15 datasets theo các cấp độ: beginner, intermediate, và advanced levels. Bạn có thể lựa chọn các dự án tùy theo khả năng để luyện tập và nâng cao kỹ năng phân tích dữ liệu.
Beginner-Level
Những dự án này phù hợp với các bạn sinh viên, mới tìm hiểu về ngành Data Science và các bạn có dự định chuyển ngành. Những project đơn giản này sẽ giúp bạn hiểu tổng quát về các ứng dụng Business Intelligence và bắt đầu làm quen dưới vai trò là một Data Analytics.
1. Customer Churn Analysis
Phân tích khả năng khách hàng rời đi (Customer Churn) sẽ giúp doanh nghiệp tính toán được doanh thu và lợi nhuận sản phẩm của khách hàng theo từng khu vực. Người sử dụng các phân tích có thể dựa trên những thông tin này để phân tích tăng trưởng kinh doanh theo khu vực địa lý, từ đó biết được thông tin về phân phối lợi nhuận giữa các khách hàng. Project cũng bao gồm phân tích dòng tiền đầu vào theo từng khu vực và các nhóm khách hàng của các sản phẩm theo thời gian.
Đối với project dành cho các beginner này, hãy sử dụng dataset phân khúc khách hàng trên Kaggle. Trong trang tổng quan, bạn có thể sử dụng Biểu đồ cột, Biểu đồ bong bóng, Bản đồ điểm, Bảng, v.v. biểu đồ kết hợp (Combo Charts), các thẻ (Cards), biểu đồ thanh (Bar Charts), bảng (Tables), biểu đồ đường (Line Charts); đối với trang phân tích các phân khúc khách hàng, bạn có thể sử dụng biểu đồ thanh (Column Charts), biểu đồ bong bóng (Bubble Charts), biểu đồ bản đồ (Point Maps), v.v.
2. Product Sales Data Analysis
Doanh nghiệp cần luôn lưu lại chi tiết thông tin ghi nhận về kết quả bán hàng vì nhiều lý do. Phân tích dữ liệu bán hàng giúp doanh nghiệp có thể theo sát hoạt động bán hàng và trả lời tất cả câu hỏi quan trọng dựa trên hiệu quả bán.
Project phân tích dữ liệu bán hàng sẽ đi sâu vào việc phân tích hoạt động bán hàng và xác định lợi nhuận theo sản phẩm, doanh thu và các yếu tố quan trọng khác có thể ảnh hưởng tới hiệu quả kinh doanh của doanh nghiệp.
Bạn có thể sử dụng mẫu dataset về tài chính của Microsoft. Dữ liệu phải được kết nối với Power BI Desktop để loại bỏ các dữ liệu không liên quan trước khi trực quan hóa và tạo thành dashboard. Một số loại biểu đồ có thể được sử dụng trong dashboard như biểu đồ tròn (Pie Charts), biểu đồ cột (Bar Charts), biểu đồ bánh (Doughnut Charts), biểu đồ dạng phễu (Funnel Charts), v.v.
3. Marketing Campaign Insights Analysis
Project sẽ trình bày các dashboard thể hiện hiệu quả của các chiến dịch Marketing và hiệu suất bán hàng theo các nhóm sản phẩm và platform. Bạn có thể sử dụng dataset Marketing Analytics trên Kaggle cho project này. Đối với các dashboard, bạn có thể khám phá các dạng biểu đồ có sẵn trên Power BI, ví dụ như biểu đồ thanh (Bar Chart) để trực quan hóa dữ liệu tổng chi tiêu theo từng danh mục, biểu đồ cột (Column Chart) để đánh giá phần trăm thành công của chiến dịch, biểu đồ Smart Narratives để hiển thị các điểm nổi bật của chiến dịch, biểu đồ bong bóng (Bubble Chart) để hiển thị mức độ chi tiêu của từng nhóm khách hàng, v.v.
Đọc thêm: Mẫu marketing dashboard giúp bạn theo dõi và đánh giá hiệu quả bộ phận Marketing
4. Financial Performance Analysis
Project phân tích hiệu quả tài chính nhằm mục đích tối ưu hóa các phân tích tài chính cho một công ty cung cấp dịch vụ kế toán.
Để bắt đầu project, bạn có thể sử dụng dataset tài chính của nhiều doanh nghiệp trên Kaggle. Một số gợi ý để giải quyết bài toán dữ liệu này:
- Đối với trang phân tích tổng quan/tóm tắt, bạn có thể sử dụng biểu đồ dạng phễu (Funnel Chart), biểu đồ kết hợp (Combo Chart) giữa các dạng biểu đồ cột (Column Chart), biểu đồ đường (Line Chart) và biểu đồ thác nước (Waterfall Charts);
- Đối với trang báo cáo thu nhập của doanh nghiệp, bạn có thể sử dụng dạng trực quan thẻ (Cards), biểu đồ dạng phễu (Funnel Card) hoặc biểu đồ kết hợp giữa biểu đồ đường (Line Chart) và biểu đồ cột (Column Chart); và
- Đối với bảng cân đối kế toán, bạn có thể sử dụng dạng trực quan thẻ (Cards) và bảng (Tables).
5. Healthcare Sales Analysis
Project này giúp các công ty hoạt động trong lĩnh vực Chăm sóc sức khỏe cho thú cưng có thể theo dõi doanh số và hiệu quả bán hàng của các sản phẩm điều trị dành riêng cho thú cưng/động vật nhỏ. Công ty cũng có thể dễ dàng so sánh doanh số bán sản phẩm cao nhất và thấp nhất theo khu vực thành phố. Các dashboard của project cũng cho thấy xu hướng bán hàng theo các khoảng thời gian cụ thể.
Bạn có thể sử dụng dataset về tình hình bán hàng của công ty dược phẩm trên Kaggle. Một số gợi ý để giải quyết bài toán dữ liệu này:
- Đối với doanh số bán hàng của nhóm các sản phẩm điều trị, bạn có thể sử dụng dạng trực quan theo bảng (Tables);
- Đối với xu hướng bán hàng hàng tháng, bạn có thể sử dụng dạng biểu đồ cột (Column Chart);
- Đối với xếp hạng doanh thu của từng thành phố, bạn có thể sử dụng dạng biểu đồ thanh (Bar Chart).
Intermediate-Level
Nếu đã vượt qua các bài toán dữ liệu ở cấp độ cơ bản, chúc mừng bạn đã sẵn sàng cho các bài toán mới ở mức độ cao hơn.
6. Anomaly Detection in Credit Card Transactions
Project này nhằm mục tiêu phát hiện các bất thường xảy ra trong giao dịch thẻ tín dụng. Trong thực tế, để phát hiện các bất thường này, các công ty sẽ cần sử dụng kỹ thuật học máy – machine learning – để lưu lại thông tin và phát hiện những sự kiện hoặc quan sát bất thường, có sự khác biệt so với những phần dữ liệu còn lại. Có ba hướng tiếp cận machine learning để làm được điều này: supervised (đối với những tập dữ liệu đã được gắn nhãn), semi-supervised (đối với những tập dữ liệu đã được đào tạo), unsupervised (đối với những tập dữ liệu không được gắn nhãn).
Để bắt đầu project, bạn có thể sử dụng dataset về giao dịch thẻ tín dụng hoặc dataset về phát hiện các gian lận trong thẻ tín dụng trên Kaggle. Đầu tiên, bạn phải import tập dữ liệu vào Power BI desktop. Sau đó, bạn có thể sử dụng Power BI để xây dựng mô hình phát hiện bất thường và giúp machine learning học thêm nhờ đưa ra các trường hợp khác nhau. Để gắn nhãn cho các bất thường trong Power BI, bạn cần chạy lệnh Python trong Query Editor và sử dụng hàm get_outliers(). Bạn cũng có thể xây dựng các mô hình phát hiện bất thường trong bất kỳ IDE hoặc Notebook nào, sau đó chuyển mô hình đó sang Power BI để gắn nhãn. Cuối cùng, Power BI Dashboard sẽ giúp bạn trực quan hóa những dữ liệu này, sử dụng một số biểu đồ như biểu đồ đường (Line Charts), biểu đồ bong bóng (Bubble Charts), bản đồ cây (TreeMaps), v.v.
7. AutoML Cashflow Optimization for Insurance Company
Automated machine learning (AutoML) là kỹ thuật tự động hóa các quy trình lặp đi lặp lại của máy học. Kỹ thuật này khi được áp dụng trong lĩnh vực Dữ liệu sẽ giúp nhanh chóng xây dựng các mô hình máy học mà vẫn đảm bảo giữ được chất lượng của mô hình, nhằm mục tiêu xác định mô hình tối ưu nhất.
Để bắt đầu project, bạn có thể sử dụng dataset về chi phí y tế trên Kaggle. Một công ty bảo hiểm muốn cải thiện dự báo dòng tiền bằng cách ước tính chính xác chi phí bảo hiểm sức khỏe thông qua các biến số đo lường mức độ rủi ro về sức khỏe của khách hàng và các yếu tố nhân khẩu học tại thời điểm các khách hàng này nhập viện.
Đầu tiên, bạn cần truy cập Power BI Desktop, import và sao chép tập dữ liệu. Sau đó, Power Query sẽ thực hiện các câu lệnh Python, trong đó:
- Hàm compare_models() được sử dụng để đào tạo các mô hình khác nhau, so sánh và đánh giá dữ liệu hiệu quả của các mô hình;
- Hàm automl() được sử dụng để tìm ra mô hình tối ưu nhất.
Đối với các dashboard kết quả, bạn có thể sử dụng các dạng trực quan như biểu đồ thanh (Bar Chart), biểu đồ bong bóng (Bubble Chart), bảng (Tables
8. Global Health Expenditure Analysis
Project này giúp bạn trau dồi khả năng triển khai phân tích cụm (clustering analysis) trong Power BI bằng PyCaret. Clustering là phương pháp tập hợp các dữ liệu tương đồng nhau thành từng nhóm, nhằm phát hiện pattern, phân tích dữ liệu và xác định các cấu trúc dữ liệu cơ bản.
Để bắt đầu project, bạn có thể sử dụng dataset về chi tiêu dành cho y tế của WHO trên Kaggle. Dataset bao gồm dữ liệu chi tiêu dành cho y tế theo tỷ lệ phần trăm GDP quốc gia của hơn 200 quốc gia từ năm 2000 đến 2018. Bạn cũng có thể sử dụng kỹ thuật K-Means để phân tích phân cụm.
Sau đó, bạn cần tải dataset lên Power BI Desktop, xây dựng mô hình phân cụm, đào tạo mô hình và trực quan hóa từng phân cụm:
- Đối với trang tổng quan, bạn có thể lựa chọn các loại biểu đồ như Filled Maps, Bar Chart, v.v.,
- Đối với trang dữ liệu chi tiết, bạn có thể sử dụng Point Maps.
9. Loan Application Analysis
Project này nhằm mục đích sử dụng dữ liệu về đơn xin vay tiền để đánh giá tác động của từng loại khoản vay đối với tỷ lệ vỡ nợ. Bạn sẽ cần xây dựng mô hình Phân bổ Dirichlet tiềm ẩn (LDA) trong Power BI để tự động phân tích một tập hợp các tài liệu và xác định loại khoản vay của chúng.
Để bắt đầu project, bạn có thể sử dụng dataset về hoạt động cho vay của Kiva trên Github. Tập dữ liệu này sẽ bao gồm dữ liệu về khoản vay, số tiền vay, quốc tịch, giới tính và một số dữ liệu văn bản từ ứng dụng của 6.818 người vay tiềm năng được chấp nhận.
Đầu tiên, bạn cần import dữ liệu vào Power BI desktop, xây dựng mô hình, đào tạo mô hình đó và bổ sung định nghĩa các loại khoản vay. Sau đó, sử dụng dashboard để trực quan hóa dữ liệu với các tính năng Word Cloud và các dạng biểu đồ như biểu đồ tròn (Pie Chart), biểu đồ thanh (Bar Chart), biểu đồ phân tán (Scatter Chart), v.v.
10. Movie Sales Visualization
Project này nhằm mục đích trực quan hóa tập dữ liệu về doanh số của các bộ phim theo thời gian. Bạn có thể sử dụng dataset của 1,000 bộ phim nổi tiếng trên IMDb từ năm 2006 đến 2016 trên cả IMDb và Kaggle. Tập dữ liệu này bao gồm danh sách các phim có điểm IMDb từ 6 trở lên và các dữ liệu về ngân sách, thể loại và điểm đánh giá.
Một số gợi ý để giải quyết bài toán dữ liệu này: Bạn có thể tạo Radial Bar Chart và sử dụng Slicers để chọn ra thể loại phim, quốc gia và khoảng điểm đánh giá để tích hợp trực tiếp vào PowerBI. Thao tác này sẽ hiển thị các chỉ số như Điểm trung bình (Average Score) và Tổng các collection (Gross Collections) cho các bộ phim đã chọn.
Sau đó, sử dụng dạng biểu đồ Plotting a Histogram với trục ngang biểu thị năm và trục dọc biểu thị thể loại phim để biểu diễn phân bố tần suất của điểm số IMDb. Bạn cũng có thể sử dụng biểu đồ KDE để biểu diễn mật độ và thông tin chi tiết về xếp hạng trung bình cho một thể loại và phân phối trong một khung thời gian nhất định.
Advanced-Level
Cuối cùng, sau khi đã giải quyết các bài toán ở cấp độ Intermediate, bạn có thể nâng độ khó với các dự án ở cấp độ nâng cao.
11. Airport Authority Data Analysis
Mục đích của project này nhằm cung cấp bức tranh toàn cảnh về các dữ liệu quan trọng về chuyến bay, ví dụ tổng số chuyến bay, tổng số chuyến bay bị hoãn, thời gian xử lý ở mặt đất và phản hồi của hành khách, v.v. Trong trường hợp thay đổi chuyến bay, trường hợp khẩn cấp hoặc chậm trễ, những phân tích này có thể hỗ trợ các bộ phận quản lý sân bay đưa ra các lựa chọn dựa trên dữ liệu kịp thời.
Để bắt đầu project, bạn có thể sử dụng dataset về sự chậm trễ và hủy chuyến của một hãng hàng không trên Kaggle. Dataset này bao gồm dữ liệu của hãng hàng không theo chuỗi thời gian từ năm 2009 đến năm 2018. Một số gợi ý để giải quyết bài toán dữ liệu này:
- Để phân tích dữ liệu của chuyến bay, bạn có thể sử dụng các biểu đồ như Cards, Bar Charts, Flow Maps, TreeMaps, và Tornado Charts.
- Để phân tích dữ liệu phản hồi của hành khách, bạn có thể sử dụng các biểu đồ như Bar Charts, Column Charts, hoặc Cards.
12. Covid-19 Insights Analysis
Project này nhằm mục tiêu nắm được cái nhìn tổng quát về tình hình tổng quan dịch bệnh Covid-19, tình hình mới nhất và các đánh giá theo từng quốc gia. Bạn có thể xây dựng dashboard để trực quan dữ liệu về số ca nhiễm bệnh, các nạn nhân đã tử vong hoặc số bệnh nhân hồi phục, tỷ lệ tử vong, tỷ lệ hồi phục theo quốc gia theo thời gian.
Để bắt đầu project, bạn có thể sử dụng dataset về tình hình Covid-19 trên Kaggle. Một số gợi ý để giải quyết bài toán dữ liệu này:
- Để phân tích tình hình tổng quan, bạn có thể sử dụng các dạng biểu đồ như biểu đồ thanh (Bar Chart), biểu đồ điểm (Point Map), biểu đồ đường (Line Chart) và biểu đồ cột (Column Chart)
- Để phân tích tình hình các ca nhiễm và theo từng quốc gia, bạn có thể sử dụng các dạng biểu đồ bánh (Doughnut Chart) và biểu đồ nhiệt (Heat Maps).
13. Construction Permit Data Analysis
Giả sử, bạn làm việc trong một công ty xây dựng và bài toán dữ liệu bạn cần giải quyết là giúp công ty có thêm những hiểu biết về ngành. Bạn có thể tập trung khai thác các dữ liệu chi tiết như: tốc độ tăng trưởng đầu tư theo thời gian, mức độ tập trung đầu tư vào các khu vực cụ thể theo từng hạng mục, nhà thầu hoặc cá nhân,..
Để bắt đầu project, bạn có thể sử dụng dataset về giấy phép xây dựng tại Seattle trên Kaggle. Một số gợi ý để giải quyết bài toán dữ liệu này:
- Đối với trang tổng quan, bạn có thể lựa chọn các dạng biểu đồ như: bản đồ theo khu vực (Regional Maps), biểu đồ tròn (Pie Charts), biểu đồ thanh (Bar Charts), bảng (Tables), thẻ (Cards);
- Đối với trang mô tả sự cạnh tranh giữa các nhà thầu và sự tăng trưởng của các danh mục, bạn có thể lựa chọn các dạng biểu đồ như: biểu đồ thanh (Bar Charts), biểu đồ đường (Line Charts), v.v.
14. Global Energy Trade Analysis
Project này xoay quanh bài toán phân tích dữ liệu bao gồm các chủ đề khác nhau liên quan đến trao đổi và sản xuất năng lượng toàn cầu. Project đặt ra một số câu hỏi về mở rộng năng lượng gió, so sánh nền kinh tế giữa các quốc gia dựa trên mức tiêu thụ năng lượng, v.v.
Để bắt đầu project, bạn có thể sử dụng dataset về thống kê mức sản xuất và trao đổi năng lượng của các quốc gia trên Kaggle. Một số gợi ý để giải quyết bài toán dữ liệu này:
- Đối với trang tổng quan, bạn có thể sử dụng các loại biểu đồ thanh (Bar Chart), Flow Maps, Cards;
- Đối với trang số liệu thống kê mức sản xuất, trao đổi và sử dụng năng lượng, bạn có thể sử dụng các dạng biểu đồ ruy-băng (Ribbon Chart), sơ đồ cây (Treemap), Biểu đồ thanh (Bar Chart).
15. Life Expectancy Data Analysis
Project này sẽ phân tích dữ liệu tuổi thọ của người dân dựa trên các yếu tố như tỷ lệ tiêm chủng, tỷ lệ tử vong, khả năng tài chính, các yếu tố xã hội và các vấn đề liên quan đến sức khỏe khác. Project này sẽ giúp chính phủ các quốc gia xác định đâu là yếu tố góp phần làm giảm giá trị tuổi thọ, từ đó đưa ra các biện pháp xã hội nhằm nâng cao tuổi thọ trung bình của người dân.
Để bắt đầu project, bạn có thể sử dụng dataset về tuổi thọ của WHO trên Kaggle. Một số gợi ý để giải quyết bài toán dữ liệu này:
- Đối với trang tổng quan, bạn có thể sử dụng các dạng biểu đồ đo lường (Gauge Chart), biểu đồ tròn (Pie Chart), biểu đồ đường (Line Chart) và bản đồ (Point Maps);
- Đối với trang mô tả dữ liệu theo quốc gia, bạn có thể sử dụng các dạng biểu đồ tháp (Tornado Charts), biểu đồ tròn dạng bánh (Doughnut Charts), sơ đồ cây (Treemap).
Power BI Projects Github
Một số project khác từ Github có thể là nguồn tham khảo hữu ích để bạn khám phá thêm các tính năng của Power BI.
16. Twitter Analysis Dashboard
Project này yêu cầu bạn phải triển khai một quy trình phân tích dữ liệu Twitter/ETL từ A tới Z.
Bạn có thể truy cập dataset của Twitter được sử dụng trong project này trên Kaggle. Sau khi trích xuất dữ liệu, bạn sẽ chuyển đổi dữ liệu đó từ dạng JSON sang CSV và tạo tất cả các thuộc tính (attributes) cần thiết. Sau đó, bạn cần sử dụng phân tích NLP để phân loại nội dung của các tweet và xác định chỉ số cảm xúc (sentiment score) của các tweet đó.
Sau khi hoàn tất quy trình ETL, bạn có thể chuyển sang trực quan hóa dữ liệu bằng Power Bi. Khi tạo dashboard, bạn nên sử dụng các dạng biểu đồ tròn (Pie Chart), biểu đồ thành (Bar Chart), biểu đồ đường (Line Chart), sơ đồ cây (Treemap), biểu đồ tròn bánh (Doughnut Chart), v.v.
17. OTT Media Dashboard
Project này yêu cầu bạn phải trực quan hóa nhiều thông tin khác nhau liên quan đến nhiều nền tảng OTT như Netflix, Hotstar, Amazon Prime, v.v. Bạn có thể truy cập dataset về nền tảng phương tiện OTT của dự án này từ Github. Sử dụng Query Editor trong Power BI để làm sạch và chuẩn bị dữ liệu. Khi dữ liệu đã sẵn sàng để trực quan hóa, bạn có thể lựa chọn các dạng biểu đồ như plots, graphs hoặc cards, v.v.
18. AdventureWorks Database Analysis
Bạn có thể truy cập project về AdventureWorks tại GitHub, sau đó chỉnh sửa các truy vấn trong Microsoft SQL Server Management Studio và sử dụng Power BI cho phần trực quan hóa. Ngoài ra, hãy sử dụng trình chỉnh sửa truy vấn của MS Excel và Power BI để phân tích dữ liệu.
Tạm kết
Để ứng tuyển vị trí Business Intelligence Analyst của các công ty, bạn cần chuẩn bị cho mình các project và một data portfolio để tạo lợi thế cạnh tranh so với các ứng viên khác. Hy vọng thông qua bài viết này, bạn đã có cơ sở để thực hành và xây dựng các project cho riêng mình. Nếu bạn quan tâm hơn về các kiến thức phân tích dữ liệu và trực quan hóa dữ liệu, hãy tham khảo khóa học Data Analysis của Tomorrow Marketers nhé!
Bài viết được biên dịch bởi Tomorrow Marketers, vui lòng không sao chép dưới mọi hình thức!