Bạn đang bắt đầu xây dựng portfolio để ứng tuyển vào các vị trí data nhưng không biết tìm kiếm dataset ở đâu? Bạn đã thử lướt hàng loạt trang blog chia sẻ dataset nhưng vẫn cảm thấy bối rối vì dữ liệu thì nhiều mà không biết cái nào phù hợp để đưa vào portfolio?
Hiểu được những thách thức này, Tomorrow Marketers đã tổng hợp các nguồn dataset miễn phí có tính ứng dụng cao mà bạn có thể sử dụng để đưa vào Portfolio. Cùng khám phá trong bài viết dưới đây nhé!
1. Tiêu chí chọn dataset để cho vào Data Portfolio
Dưới đây là 3 tiêu chí quan trọng cần cân nhắc:
Liên quan đến vị trí hoặc lĩnh vực công ty bạn làm việc
Hãy chọn dataset phù hợp với lĩnh vực bạn muốn làm việc.
Ví dụ, nếu bạn muốn làm Marketing Analyst, hãy tìm dữ liệu liên quan đến các bài toán trong marketing như phân loại khách hàng hay phân tích hiệu quả chiến dịch quảng cáo, nếu bạn nhắm đến vị trí Data Analyst trong ngành tài chính, có thể chọn dataset liên quan đến các bài toán phân tích dòng tiền, phân tích hiệu quả vốn.
Ngoài ra, bạn cũng có thể chọn dataset theo lĩnh vực công ty mà bạn muốn ứng tuyển, ví dụ ứng tuyển vào công ty thương mại điện tử thì nên tìm dữ liệu về hành vi người tiêu dùng và sản phẩm trên các sàn thương mại điện tử.
Độ phức tạp vừa phải
Dataset không nên quá dễ (vì không thể hiện được tư duy phân tích) hay quá khó (vì mất nhiều thời gian xử lý và có thể không phù hợp để nhà tuyển dụng đánh giá đúng năng lực của bạn).
Có tính ứng dụng thực tiễn
Một dataset tốt nên giúp giải quyết một bài toán cụ thể của doanh nghiệp, như tối ưu ngân sách quảng cáo, dự báo doanh thu hay phân tích xu hướng thị trường thay vì chọn các bài toán xã hội như phân tích Covid hay thời tiết, trừ khi bạn muốn làm việc trong các lĩnh vực đó.
Đọc thêm: 15 datasets để thực hành phân tích dữ liệu với Power BI
2. Tổng hợp các nguồn Dataset để luyện phân tích dữ liệu
2.1. Nguồn dataset có sẵn
Nguồn dataset nước ngoài
Kaggle
Kaggle là nền tảng phổ biến nhất dành cho phân tích dữ liệu, cung cấp hàng nghìn dataset thuộc nhiều lĩnh vực như tài chính, marketing, thương mại điện tử, y tế và khoa học xã hội.
Ưu điểm nổi bật:
- Cộng đồng thảo luận: Kaggle có cộng đồng rất lớn, nơi bạn có thể tham gia thảo luận, chia sẻ ý tưởng và học hỏi từ các chuyên gia. Các thảo luận giúp bạn tiếp cận các cách giải quyết khác nhau và tiết kiệm thời gian.
- Code tham khảo: Mỗi dataset thường đi kèm với mã nguồn mẫu (notebook), phù hợp với người mới bắt đầu và có thể học hỏi thêm từ các giải pháp trước đó.
- Tham gia cuộc thi: Bạn có thể tham gia các cuộc thi trực tiếp để thử sức và cải thiện kỹ năng, đồng thời xây dựng portfolio ấn tượng.

Nguồn dataset phù hợp với:
- Data Analyst muốn nâng cao kỹ năng sử dụng các công cụ phân tích, trực quan hoá dữ liệu để giải quyết các bài toán cụ thể về hành vi khách hàng, hiệu suất kinh doanh, dự báo doanh thu, phân tích xu hướng tiêu dùng.
- Data Scientist, Machine Learning Engineer tìm kiếm dataset về phân loại hình ảnh, xử lý ngôn ngữ tự nhiên, dự đoán nhu cầu thị trường.

Case study về phân tích hành trình khách hàng – Một phần của khóa học Data Analysis Phân tích dữ liệu cho quyết định chiến lược
Google Dataset Search
Google Dataset Search giúp người dùng tra cứu dataset từ nhiều nguồn như chính phủ, viện nghiên cứu, doanh nghiệp và các trang dữ liệu mở. Dữ liệu trên nền tảng này bao phủ các lĩnh vực kinh tế, tài chính, khoa học, y tế, giáo dục và công nghệ.
Ưu điểm nổi bật:
- Tìm kiếm dễ dàng và linh hoạt: Google Dataset Search hoạt động như Google Search, giúp bạn dễ dàng tìm kiếm dữ liệu từ hàng nghìn nguồn. Công cụ này cho phép lọc dữ liệu theo chủ đề, định dạng, nhà cung cấp và ngữ cảnh sử dụng, giúp bạn nhanh chóng tìm bộ dữ liệu phù hợp với mục tiêu nghiên cứu.
- Nguồn dữ liệu đa dạng: Công cụ này tổng hợp dữ liệu từ nhiều nguồn khác nhau, bao gồm chính phủ, viện nghiên cứu, doanh nghiệp và nền tảng dữ liệu mở, cung cấp bộ dữ liệu phong phú từ nhiều lĩnh vực.

Nguồn dataset phù hợp với:
- Data Analysts tìm kiếm dữ liệu từ các cơ sở nghiên cứu để thực hiện các phân tích hành vi khách hàng, đánh giá hiệu suất chiến lược marketing, hoặc phân tích xu hướng tiêu dùng từ các nguồn uy tín.
- Data Engineer tìm các bộ dữ liệu mở, tải về và tích hợp vào hệ thống dữ liệu của mình, hoặc sử dụng cho các bài toán liên quan đến quản lý và xử lý dữ liệu lớn từ nhiều nguồn khác nhau.
- Data Scientist tìm các bộ dữ liệu nghiên cứu chất lượng cao từ các cơ sở học thuật và nghiên cứu khoa học, phục vụ cho các bài toán mô hình hóa học máy, phân tích dự báo, phân loại và các nghiên cứu khoa học khác.
UCI Machine Learning Repository
Không giống Kaggle hay Google Dataset Search với dữ liệu doanh nghiệp, các dataset trên UCI được thu thập từ nghiên cứu học thuật, có quy mô nhỏ đến trung bình và được chuẩn hóa để phục vụ huấn luyện mô hình. Lĩnh vực chính bao gồm trí tuệ nhân tạo, nhận diện hình ảnh, xử lý ngôn ngữ tự nhiên, sinh học, y tế và khoa học xã hội.
Ưu điểm nổi bật:
- Dữ liệu chuẩn hóa: các dataset thường được chuẩn hóa và có cấu trúc rõ ràng, rất phù hợp để áp dụng các thuật toán học máy.
- Tính học thuật: dữ liệu chủ yếu đến từ các nghiên cứu học thuật, do đó rất phù hợp cho những ai muốn phát triển và thử nghiệm các mô hình AI.
- Đa dạng các bài toán: từ phân loại, hồi quy, đến các bài toán về xử lý ngôn ngữ tự nhiên và nhận diện hình ảnh.
Nguồn dataset phù hợp với:
- Người mới bắt đầu trong lĩnh vực AI và Machine Learning cần làm quen với quá trình huấn luyện và thử nghiệm mô hình mà không bị quá tải bởi dữ liệu lớn.
- Người cần luyện tập với các bài toán về phân loại, dự đoán (Regression), xử lý ngôn ngữ tự nhiên (NLP) và nhận diện hình ảnh (Image Classification).

Data.gov (US)
Data.gov tổng hợp dữ liệu từ nhiều cơ quan chính phủ Mỹ, tập trung vào các lĩnh vực dân số, kinh tế, giáo dục, y tế, môi trường, năng lượng và giao thông. Đây là nguồn dữ liệu lớn, có giá trị trong nghiên cứu xu hướng vĩ mô và đánh giá chính sách.
Ưu điểm nổi bật:
- Dữ liệu chính thức và tin cậy: dữ liệu trên Data.gov đến từ các cơ quan chính phủ Mỹ đảm bảo tính chính xác và uy tín cao.
- Chủ đề đa dạng: dataset gồm nhiều lĩnh vực như kinh tế, sức khỏe, môi trường và giao thông, giúp người dùng tiếp cận dữ liệu phục vụ cho các nghiên cứu khác nhau.
- Dễ dàng truy cập và sử dụng: Data.gov cung cấp dữ liệu dưới nhiều dạng, từ bảng tính đến API, giúp người dùng dễ dàng tải về và sử dụng cho các phân tích tiếp theo.

Nguồn dataset phù hợp với:
- Các dự án liên quan đến phân tích xu hướng tiêu dùng, đánh giá hiệu suất kinh doanh và dự báo nhu cầu thị trường để tối ưu hóa chiến lược kinh doanh.

Case study phân tích dữ liệu kinh doanh – Một phần của khóa học Data Analysis Phân tích dữ liệu cho quyết định chiến lược
Nguồn Dataset Việt Nam
Tổng cục Thống Kê
Tổng cục Thống Kê Việt Nam cung cấp dữ liệu chính thức về kinh tế, dân số, thị trường lao động, xuất nhập khẩu, lạm phát và nhiều chỉ số vĩ mô khác. Đây là nguồn thông tin quan trọng để nghiên cứu xu hướng phát triển của nền kinh tế Việt Nam.
Ưu điểm nổi bật:
- Dữ liệu chính thức và tin cậy: Dữ liệu được cung cấp trực tiếp từ cơ quan chính phủ Việt Nam.
- Đa dạng các lĩnh vực: Tổng cục Thống kê cung cấp dữ liệu về nhiều lĩnh vực như kinh tế, dân số, thị trường lao động, xuất nhập khẩu, giúp người dùng nghiên cứu các vấn đề xã hội và phát triển kinh tế.
Nguồn dataset phù hợp với:
- Data Analysts muốn thực hiện các phân tích thống kê về kinh tế, dân số, thị trường lao động, hay các vấn đề xã hội như mức sống, thu nhập, và tiêu dùng của người dân Việt Nam từ đó hỗ trợ doanh nghiệp đánh giá tác động của các yếu tố vĩ mô lên hoạt động kinh doanh và đưa ra các quyết định chiến lược phù hợp.

Cổng thông tin điện tử Bộ Tài Chính (VietNam Financial Database)
Cổng thông tin điện tử Bộ Tài Chính cung cấp các bộ dữ liệu tài chính chính thức về nền kinh tế Việt Nam, bao gồm thông tin về ngân sách nhà nước, tài chính công, thị trường chứng khoán và các báo cáo tài chính khác. Đây là nguồn tài nguyên quan trọng giúp theo dõi các chỉ số tài chính vĩ mô và chính sách tài khóa.
Ưu điểm nổi bật:
- Dữ liệu chính thức và đáng tin cậy: Cung cấp thông tin tài chính chính thức từ Bộ Tài Chính, giúp đảm bảo tính chính xác và độ tin cậy cao.
- Cập nhật thường xuyên: Dữ liệu được cập nhật thường xuyên theo báo cáo tài chính hàng năm và các chính sách tài chính vĩ mô, giúp người dùng có cái nhìn rõ ràng về sự thay đổi trong nền kinh tế.
Nguồn dataset phù hợp với:
- Data Analysts cần phân tích các chỉ số tài chính, ngân sách nhà nước, và tình hình thị trường chứng khoán để phục vụ cho các bài toán phân tích tài chính doanh nghiệp, dự báo hiệu quả đầu tư, hoặc phân tích xu hướng tài chính.
- Chuyên gia nghiên cứu tài chính muốn nghiên cứu tác động của chính sách tài chính, ngân sách nhà nước và các yếu tố vĩ mô khác đến nền kinh tế Việt Nam.
Vietstock.vn

Vietstock.vn cung cấp dữ liệu thị trường chứng khoán Việt Nam, bao gồm các chỉ số chứng khoán, giá cổ phiếu, dữ liệu tài chính của các công ty niêm yết, và thông tin về các giao dịch chứng khoán. Đây là nguồn tài nguyên phổ biến cho các nhà đầu tư, các chuyên gia phân tích tài chính và những người nghiên cứu thị trường chứng khoán.
Ưu điểm nổi bật:
- Dữ liệu chi tiết và đầy đủ: Cung cấp thông tin chi tiết về các cổ phiếu, chỉ số chứng khoán, và các báo cáo tài chính của các công ty niêm yết tại Việt Nam.
- Cập nhật theo thời gian thực: Dữ liệu được cập nhật thường xuyên, cho phép người dùng theo dõi và phân tích biến động thị trường ngay lập tức.
Nguồn dataset phù hợp với:
- Data Analysts muốn phân tích dữ liệu chứng khoán, đánh giá xu hướng thị trường, dự báo biến động giá cổ phiếu hoặc phân tích hiệu suất tài chính của các công ty niêm yết.
- Nhà đầu tư và chuyên gia tài chính muốn theo dõi biến động thị trường chứng khoán và đưa ra các chiến lược đầu tư phù hợp.
2.2. Tự lấy dữ liệu từ các nền tảng
Ngoài sử dụng các nguồn dữ liệu có sẵn, bạn hoàn toàn có thể tự thu thập dữ liệu từ các nền tảng trực tuyến để xử lý và phân tích. Việc tự crawl dữ liệu từ các website không chỉ giúp bạn có những bộ dữ liệu độc đáo, mà còn giúp bạn ghi điểm trong portfolio của mình vì thể hiện được rằng bạn có khả năng tự thu thập và xử lý dữ liệu từ các nguồn phi cấu trúc để phục vụ cho việc phân tích. Tuy nhiên, để làm điều này, bạn cần có kiến thức cơ bản về Python và Web Scraping.
Dưới đây là một số nguồn dữ liệu có thể crawl và các dự án phù hợp:
Crawl dữ liệu từ các website tin tức

Ví dụ nguồn dữ liệu: VnExpress, Zing News, Thanh Niên, TikTok trending.
Bài toán phù hợp:
- Phân tích xu hướng tin tức: Phân tích từ các bài viết và tiêu đề để phát hiện chủ đề nóng, các vấn đề xã hội, chính trị, hay các sự kiện nổi bật trong thời gian thực.
- Đo lường mức độ phổ biến của bài viết: Một bài toán quan trọng khác là phân tích xem bài viết nào có phạm vi ảnh hưởng rộng và được nhiều người đọc nhất. Điều này giúp bạn hiểu rõ hơn về các nội dung nào thu hút được sự chú ý của độc giả và tối ưu hóa chiến lược phát hành bài viết.
- Phân loại bài viết theo chủ đề: Bạn có thể phân loại bài viết theo các chủ đề liên quan, giúp độc giả dễ dàng tìm thông tin theo lĩnh vực quan tâm. Việc này giúp tổ chức nội dung hiệu quả và hỗ trợ người đọc nhanh chóng nắm bắt các vấn đề quan trọng. Các thuật toán như K-means hoặc DBSCAN có thể giúp phân nhóm bài viết chính xác.
Crawl dữ liệu từ các website bán hàng

Ví dụ nguồn dữ liệu: cellphones.com.vn, thegioididong.com,…
Bài toán phù hợp:
- Phân tích giá cả và chiến lược định giá: Bạn có thể so sánh giá các sản phẩm giữa các đối thủ cạnh tranh để giúp đưa ra chiến lược giá hợp lý, tìm ra những cơ hội điều chỉnh giá để tăng tính cạnh tranh.
- Phân tích cảm nhận của khách hàng: Các bình luận và đánh giá của khách hàng về sản phẩm có thể giúp bạn nhận diện điểm mạnh và điểm yếu của sản phẩm, từ đó cải thiện chất lượng sản phẩm hoặc dịch vụ.
- Dự đoán xu hướng sản phẩm: Dựa vào dữ liệu về số lượng bán, đánh giá sản phẩm, và chương trình khuyến mãi, bạn có thể dự đoán những sản phẩm có tiềm năng trở thành “best-seller”, giúp tối ưu hóa chiến lược marketing và kho hàng.
Crawl dữ liệu từ các diễn đàn (Reddit, Quora)

Ví dụ nguồn dữ liệu: Reddit, Quora
Bài toán phù hợp:
- Phân tích xu hướng thảo luận: Bạn có thể theo dõi sự thay đổi của các chủ đề thảo luận theo thời gian, giúp phát hiện những vấn đề đang thu hút sự chú ý trong cộng đồng.
- Phân tích cảm xúc của người dùng: Thông qua các câu hỏi và bình luận, bạn có thể phân tích cảm xúc của người dùng về các vấn đề nóng, từ đó hiểu rõ hơn về quan điểm của họ đối với những chủ đề này.
- Phân tích hành vi và mức độ tương tác của người dùng: Bạn có thể đánh giá mức độ tham gia của người dùng trong các chủ đề, câu hỏi, giúp tối ưu hóa nội dung để thu hút nhiều sự tham gia hơn.

Tạm kết
Việc chọn nguồn dataset phù hợp rất quan trọng, nhưng nếu không biết cách xử lý và phân tích bạn vẫn sẽ không thể tạo ra được một project ấn tượng, thể hiện được kiến thức, kỹ năng của mình với nhà tuyển dụng. Bạn cần phải có một mindset đúng đắn để hiểu các bước phân tích, biết cách sử dụng công cụ để xử lý và trực quan hóa dữ liệu, và quan trọng là khả năng rút ra những insight có giá trị để đưa ra quyết định chiến lược. Nếu bạn muốn phát triển những kỹ năng này và áp dụng vào các case study thực tế hãy tham khảo ngay khóa học Data Analysis – Phân tích dữ liệu cho quyết định chiến lược của Tomorrow Marketers.
