Tomorrow Marketers – Để xử lý dữ liệu, tạo các báo cáo trong Power BI, bạn sẽ cần phải kết nối với các nguồn dữ liệu để đưa dữ liệu vào phần mềm. Tuy nhiên, các nguồn dữ liệu khác nhau sẽ có sự khác nhau về cơ chế, vị trí lưu trữ, hay khả năng truy cập, điều này có thể có thể ảnh hưởng đến cách bạn kết nối với chúng trong Power BI Desktop.
Trong bài viết này, hãy cùng Tomorrow Marketers tìm hiểu chi tiết về các nguồn dữ liệu được hỗ trợ, các chế độ kết nối dữ liệu, cũng như cách kết nối nhiều nguồn dữ liệu khác nhau trong Power BI nhé!
Nội dung bài viết:
- Các nguồn dữ liệu (Data Source) phổ biến được hỗ trợ trong Power BI
- Các chế độ kết nối dữ liệu (Data Connectivity Mode) trong Power BI
2.1. Import
2.2. DirectQuery
2.3. Live Connection
2.4. Composite (Import x DirectQuery) - Hướng dẫn cách kết nối các nguồn dữ liệu khác nhau trong Power BI
3.1. Cách kết nối dữ liệu từ Excel vào Power BI
3.2. Cách kết nối dữ liệu từ Google Sheet với Power BI
3.3. Cách kết nối dữ liệu từ một thư mục (Folder) vào Power BI
3.4. Cách kết nối dữ liệu từ SQL Server database với Power BI
3.5. Lỗi thường gặp khi kết nối dữ liệu với Power BI
3.6. Cách thay đổi nguồn kết nối dữ liệu trên Power BI
1. Các nguồn dữ liệu (Data Source) phổ biến được hỗ trợ trong Power BI
Có 6 loại nguồn dữ liệu được hỗ trợ trong Power BI, bao gồm:
Nguồn dữ liệu | Mô tả | |
File | Nguồn dữ liệu được lưu trữ ngay trong bộ nhớ máy tính, thường chứa khoảng vài trăm hoặc vài nghìn dòng dữ liệu. Ví dụ một số data sources được hỗ trợ: Excel, Text/CSV, PDF, Folder,… | |
Database | Các tệp dữ liệu lớn có thể lên đến hàng triệu dòng dữ liệu được lưu trữ trong cơ sở dữ liệu. Ví dụ: SQL Server database, Oracle Database,… | |
Power Platform | Các nguồn dữ liệu được lưu trữ trong “môi trường” Power BI như Power BI datasets, Power BI dataflow,… | |
Azure | Dữ liệu được lưu trữ trong nền tảng dịch vụ web Azure của Microsoft: Azure SQL database, Azure Table Storage,… | |
Online Service | Dữ liệu trực tuyến như Google Analytics, Salesforce Report,… | |
Other | Dữ liệu từ các nguồn khác như: Google Sheet, Web, R script, Python script,… |
Đọc thêm: 15 datasets để thực hành phân tích dữ liệu với Power BI
Bạn có thể truy cập vào tài liệu Data sources for the Power BI để xem danh sách toàn bộ các nguồn dữ liệu được hỗ trợ, hoặc kiểm tra trong phần mềm Power BI theo các bước sau: Home > Get Data > More.
2. Các chế độ kết nối dữ liệu (Data Connectivity Mode) trong Power BI
PowerBI hiện hỗ trợ 4 loại kết nối:
- Import.
- DirectQuery
- LiveConnection
- Composite
Tuy nhiên không phải loại dữ liệu nào cũng có thể sử dụng cả 4 loại kết nối trên.
Trong phần tiếp theo TM sẽ lần lượt cùng bạn tìm hiểu về các chế độ này, để chọn được chế độ phù hợp cho nguồn dữ liệu của bạn nhé.
2.1. Import
Khi sử dụng chế độ Import, dữ liệu sẽ được copy từ dữ liệu gốc và được lưu trữ trực tiếp trong file PowerBI trên máy tính của bạn.
Ưu điểm:
- Do dữ liệu được lưu trữ trong bộ nhớ đệm nên tốc độ tính toán, xử lý của Power BI sẽ nhanh hơn khi sử dụng các chế độ kết nối khác.
- Có thể kết hợp dữ liệu từ các nguồn khác nhau và xử lý trong Power Query cùng một lúc.
Image Source: Microsoft
- Sử dụng hết các tính năng trong Power BI mà không có bất kỳ hạn chế nào, bao gồm các tính năng Transform trong Power Query & DAX.
Nhược điểm:
- Toàn bộ dữ liệu phải được tải vào bộ nhớ đệm của Power BI trước khi có thể thực hiện các thao tác xử lý tiếp theo. Nếu số lượng dữ liệu quá lớn vượt quá giới hạn bộ nhớ, dữ liệu sẽ không thể load vào trong Power BI, vì thế đòi hỏi bộ nhớ của máy tính phải lớn để đáp ứng nhu cầu.
- Do dữ liệu được tải về và lưu trữ và xử lý trong PowerBI, khi số liệu trong datasource gốc được update, bạn sẽ cần phải refresh hoặc set lịch refresh lại báo cáo định kỳ để cập nhật dữ liệu mới nhất.
Đọc thêm: Cách làm mới dữ liệu trên Power BI
2.2. DirectQuery
Khi sử dụng chế độ DirectQuery, dữ liệu sẽ không được tải vào bộ nhớ đệm của Power BI như khi sử dụng chế độ Import mà vẫn sẽ được lưu trữ trên datasource gốc. Lúc này Power BI sẽ chỉ lưu trữ “metadata” – thông tin của dữ liệu, ví dụ như tên các bảng, cột, loại dữ liệu, và mối quan hệ của các dữ liệu trong bảng chứ không lưu trữ data thật sự.
Khi người dùng thao tác, Power BI mới gửi request về datasource gốc để kéo data về phần mềm và thực hiện các thao tác tiếp theo.
Image Source: Microsoft
Ưu điểm:
- Khắc phục được nhược điểm lớn nhất của chế độ Import: Số lượng dữ liệu có thể “kéo” vào trong Power BI sẽ không còn bị giới hạn bởi dung lượng bộ nhớ.
- Dữ liệu trong báo cáo PowerBI sẽ được cập nhật thường xuyên mỗi khi dữ liệu gốc có sự thay đổi chứ không cần người dùng phải refresh lại dữ liệu.
Nhược điểm:
- Khi người dùng thực hiện các thao tác trên Power BI (ví dụ: tạo biểu đồ), các truy vấn sẽ được gửi từ Power BI về datasource gốc, do đó tốc độ load dữ liệu sẽ bị ảnh hưởng bởi các yếu tố như Internet cũng như hiệu suất của dữ liệu gốc khi có nhiều người cùng tương tác với báo cáo cùng một lúc.
- Chế độ DirectQuery chỉ cho phép làm việc với một nguồn data source tại một thời điểm
- Chỉ hỗ trợ các Transform & DAX mà Power BI có thể tạo Truy vấn SQL tương ứng để nguồn dữ liệu gốc có thể hiểu được.
2.3. Live Connection
Chế độ Live Connection khá tương tự với DirectQuery vì cả hai chế độ này đều không lưu trữ dữ liệu trong PowerBI. Tuy nhiên, 2 chế độ này vẫn có một số điểm khác biệt:
Live Connection sẽ kết nối trực tiếp tới một model có sẵn, điều này có nghĩa là mọi công việc liên quan đến xử lý dữ liệu, data modeling đều sẽ cần được thực hiện trước và lưu trữ trong data source, PowerBI chỉ đóng vai trò Visualize.
Vì vậy các tính năng liên quan đến transform data và modeling sẽ không thể sử dụng với chế độ Live Connection. Còn với Direct Query, dù bị hạn chế, bạn vẫn có thể kết nối với một tệp dữ liệu, sau đó tính toán, xử lý dữ liệu, xây dựng các model đơn giản trong Power BI.
Đọc thêm: Cách xây dựng Data Relationship trong Power BI
Đổi lại, tốc độ xử lý dữ liệu của Live Connection sẽ cao hơn so với Direct Query, và dữ liệu cũng sẽ được update real time
Ngoài ra, tùy chọn chế độ Live Connection chỉ hỗ trợ cho SQL Server Analysis service, Azure Analytics và Power BI service.
2.4. Composite (Import x DirectQuery)
Composite là sự kết hợp giữa chế độ Import và DirectQuery, Power BI sẽ dựa trên cơ sở của từng truy vấn để xác định đâu là chế độ kết nối dữ liệu phù hợp nhất. Nhờ vậy vừa có thể tối ưu được tốc độ tính toán, xử lý của Power BI mà vẫn giữ được những ưu điểm của DirectQuery như xử lý được một lượng dữ liệu lớn hơn và dữ liệu cập nhật thường xuyên mà không cần refresh.
Image Source: Microsoft
Vậy là bạn đã hiểu sơ qua về 4 chế độ kết nối dữ liệu trong PowerBI, nhìn chung Import vẫn là chế độ được sử dụng nhiều nhất, bởi chế độ này cho phép sử dụng đầy đủ các tính năng trong Power BI để xử lý dữ liệu, xây dựng các các data model từ đơn giản đến phức tạp. Trong trường hợp bạn có một lượng dữ liệu lớn, cần update real time thì có thể cân nhắc thêm DirectQuery.
Trong phần tiếp theo, TM sẽ hướng dẫn bạn cách kết nối một số nguồn dữ liệu phổ biến vào Power BI, và một số tips để bạn có thể quản lý các nguồn dữ liệu trong Power BI hiệu quả hơn.
3. Hướng dẫn cách kết nối các nguồn dữ liệu khác nhau trong Power BI
3.1. Cách kết nối dữ liệu từ Excel vào Power BI
Bước 1: Truy cập tab Home. Ở đây bạn sẽ có 3 cách để kết nối dữ liệu của Excel vào Power BI
- (1) Chọn Import Data from Excel ngay trên màn hình Report view
- (2) Chọn Excel workbook
- (3) Chọn Get data > Excel workbook
Bước 2: Chọn các bảng dữ liệu mà bạn muốn Import vào PowerBI.
Lựa chọn Transform Data để tiến hành xử lý, làm sạch dữ liệu.
Trong bài viết này TM sẽ tạm thời chưa đề cập đến các cách xử lý, làm sạch dữ liệu, bạn có thể đọc thêm bài viết Data Cleaning là gì? Hướng dẫn các bước làm sạch dữ liệu và tham khảo nội dung về Cleaning Data với Power BI trong khóa học Data Analysis của Tomorrow Marketers.
Slide demo một số vấn đề thường gặp của dữ liệu và cách xử lý trong khóa học Data Analysis – Phân tích dữ liệu cho quyết định chiến lược
Trong trường hợp dữ liệu của bạn đã được xử lý tốt từ trước, bạn có thể lựa chọn Load để tải dữ liệu vào Power BI và thực hiện các bước lập model và visualization.
3.2. Cách kết nối dữ liệu từ Google Sheet với Power BI
Bước 1: Truy cập vào tab Home > Get data > More
Bước 2: Tìm kiếm loại data source bạn muốn kết nối, ở đây là Google Sheets > Connect
Bước 3: Nhập URL của Google Sheets > OK
Bước 4: Bạn sẽ cần đăng nhập vào tài khoản Google và cấp quyền để tiếp tục Import dữ liệu vào Power BI.
Bước 5: Sau khi Sign in cấp quyền thành công, bạn sẽ được chuyển qua màn hình dưới đây
Bạn có thể trở lại Power BI, chọn Connect để tiếp tục import dữ liệu.
Bước 6: Tương tự như Excel bạn cũng lựa chọn các sheet muốn import sau đó Transform data với Power Query hoặc Load dữ liệu thẳng vào Power BI
3.3. Cách kết nối dữ liệu từ một thư mục (Folder) vào Power BI
Bước 1: Truy cập vào tab Home > Get data > More > Folder > Connect
Bước 2: Nhập đường dẫn của Folder muốn import vào sao sau đó nhấn OK
Bước 3:
Bạn sẽ thấy một cửa sổ hiện ra, trong đó có chứa tất cả Files trong Folders đã chọn.
- Transform Data: Mở cửa sổ Power Query để thực hiện các thao tác làm sạch và sửa đổi dữ liệu nếu cần thiết
- Load: Tải dữ liệu vào Power BI dưới dạng các đường dẫn đến folder
- Combine: Gộp tất cả dữ liệu trong các files vào thành một bảng, trong trường hợp tất cả các bảng đều có các trường dữ liệu giống nhau.
Khi combine bạn sẽ cần chọn file mẫu cho dữ liệu của mình. Các cột của bảng dữ liệu kết hợp cuối cùng sẽ được tạo ra dựa trên file mẫu này.
Lưu ý: Nên chuyển File Origin sang Unicode (UTF-8) để nếu dữ liệu có chứa dấu hoặc các ký tự đặc biệt thì không bị lỗi.
3.4. Cách kết nối dữ liệu từ SQL Server database với Power BI
Bước 1: Truy cập vào tab Home > Get data > More > SQL Server database > Connect
Bước 2: Nhập thông tin Server, chọn loại chế độ kết nối dữ liệu (Data Connectivity mode) mong muốn, sau đó nhấn OK
Bước 3: Nếu kết nối lần đầu, bạn sẽ cần vào mục Database, nhập Username & Password.
Bước 4: Chọn các bảng dữ liệu mà bạn muốn và Import vào PowerBI.
3.5. Lỗi thường gặp khi kết nối dữ liệu với Power BI
Timeout expired
Image Source: Microsoft
Nguyên nhân: Lỗi này thường xảy ra khi kích thước tệp dữ liệu import vào Power BI quá lớn khiến cho hệ thống mất quá nhiều thời gian để xử lý.
Cách khắc phục: Bạn có thể giảm kích thước tệp dữ liệu import vào Power BI bằng cách: Giảm bớt số hàng/cột không quá quan trọng trước khi import dữ liệu hoặc chia nhỏ dữ liệu thành các phần nhỏ để import vào Power BI.
Could not find file
Image Source: Microsoft
Nguyên nhân: Lỗi này xảy ra khi tệp dữ liệu import ban đầu bị thay đổi vị trí lưu trữ hoặc quyền truy cập của tệp bị thay đổi. Thường diễn ra khi bạn tải một file Power BI mà người khác đã làm trước đó về để tiếp tục xử lý.
Cách khắc phục: Bạn sẽ cần thay đổi nguồn kết nối dữ liệu gốc ban đầu về vị trí file dữ liệu được lưu trong máy của bạn. TM sẽ hướng dẫn cách thay đổi nguồn kết nối dữ liệu ở phần tiếp theo.
Ngoài 2 lỗi kể trên, bạn sẽ có thể gặp một vài lỗi khác. Nếu bạn chưa xác định được nguyên nhân gây ra lỗi là gì và cách khắc phục, đây là những thứ mà bạn có thể kiểm tra:
- Kiểm tra định dạng dữ liệu (Data format): Bạn cần đảm bảo dữ liệu có định dạng đúng và phù hợp với các định dạng mà các file dữ liệu yêu cầu. Ví dụ: Với file Excel, dữ liệu phải được sắp xếp thành bảng có hàng và cột.
- Kiểm tra nguồn dữ liệu (Data source): Đảm bảo bạn có quyền truy cập vào các nguồn dữ liệu. Ví dụ: Nếu nguồn dữ liệu là một file Excel, bạn cần chắc chắn file dữ liệu đó đã được lưu trong máy của bạn, và bạn đã chuyển nguồn dữ liệu về đúng vị trí lưu trữ file đó.
- Kiểm tra dấu phân cách (Delimiter): Nếu bạn đang nhập dữ liệu từ một tệp (ví dụ file csv), bạn cần kiểm tra xem dấu phân cách đã được chọn đúng chưa. Dấu phân cách là các ký tự dùng để phân tách các giá trị trong tệp và dấu phân cách sai có thể khiến dữ liệu được nhập không chính xác.
- Kiểm tra kiểu dữ liệu (Data type): Bạn cần đảm bảo kiểu dữ liệu của từng cột là chính xác. Ví dụ: Kiểu dữ liệu của cột ngày tháng phải là Date hoặc Date/time, hay số lượng sản phẩm bán ra phải là dạng Number.
- Truy cập vào Microsoft Power BI Community: Nếu không tìm thấy lỗi, bạn có thể thử truy cập vào Community của Microsoft để đặt câu hỏi, hoặc tìm câu hỏi tương tự từ những người dùng khác.
3.6. Cách thay đổi nguồn kết nối dữ liệu trên Power BI
Bước 1: Truy cập vào cài đặt Data source setting
Có 2 cách bạn có thể truy cập vào phần cài đặt nguồn dữ liệu trong Power BI
- Cách 1: Truy cập vào File > Options and settings > Data source settings
- Cách 2: Truy cập vào Transform Data > Home > Data source settings
Bước 2: Chọn file dữ liệu muốn thay đổi, sau đó chọn Change Source
Bước 3: Bạn có thể thay đổi vị trí lưu file dữ liệu về vị trí đúng trên máy của bạn. Với dữ liệu được import từ hệ thống cơ sở dữ liệu (database), bạn có thể thay đổi thông tin Server.
4. Tạm kết
Hy vọng những nội dung trên đã cung cấp cho bạn đầy đủ kiến thức liên quan đến các nguồn dữ liệu được hỗ trợ trên Power BI, các chế độ kết nối dữ liệu và cách kết nối nhiều nguồn dữ liệu khác nhau vào Power BI.
Power BI là một công cụ hỗ tuyệt vời hỗ trợ cho quá trình xử lý & trực quan hóa dữ liệu để tìm ra những insight “đắt giá” phục vụ quá trình ra quyết định. Tuy nhiên, nếu chỉ biết dùng công cụ mà thiếu tư duy làm việc dữ liệu, không biết cách xác định bài toán ban đầu, cách đọc số, liên kết các insights một cách liền mạch và không có câu chuyện dữ liệu (data story) nào, các insights này rất khó mang lại các định hướng, chiến lược đúng đắn.
Khóa học Data Analysis – Trang bị tư duy phân tích dữ liệu để ra quyết định chiến lược
Nếu bạn muốn trang bị tư duy phân tích dữ liệu để tìm kiếm insights, xây dựng báo cáo, đưa ra các next steps, chiến lược đúng đắn, tham khảo ngay khóa học Data Analysis của Tomorrow Marketers. Khóa học sẽ giúp bạn:
- Nắm được các bước trong quy trình làm việc với dữ liệu: Nắm được 6 bước trong quy trình làm việc với dữ liệu bao gồm Define problem, Data Collection, Data Preparation, Data Exploration, Building Report, Insight & Recommendation để tiếp cận dữ liệu một cách hiệu quả.
- Rèn luyện tư duy đặt vấn đề, xác định bài toán phân tích dữ liệu: Nắm vững tư duy ‘đặt câu hỏi đúng’, xác định đúng bài toán để đảm bảo dữ liệu sau khi phân tích giải quyết được đúng vấn đề của doanh nghiệp thông qua công cụ “Issue Tree”.
- Trang bị kỹ năng xử lý và trực quan dữ liệu với công cụ: Cách sử dụng công cụ như Power BI, Excel để hỗ trợ quá trình xử lý và trực quan hóa dữ liệu giúp khai phá dữ liệu tốt hơn.
- Cải thiện khả năng đọc số rút ra insight: Luyện tập đọc số rút ra insight (các điểm bất thường, xu hướng, nguyên nhân…) và trình bày đề xuất (data storytelling) qua các case study ở nhiều lĩnh vực khác nhau (Sales, User, Digital,…) dưới sự hướng dẫn của các trainers nhiều năm kinh nghiệm.
Tìm hiểu và đăng ký tư vấn khóa học Data Analysis ngay tại đây