Tomorrow Marketers – Để xây dựng một báo cáo, thông thường bạn sẽ cần tổng hợp dữ liệu từ nhiều nguồn khác nhau. Data modeling chính là giải pháp giúp bạn khai thác tối đa giá trị của các nguồn dữ liệu và giúp doanh nghiệp phát triển. Vậy bạn đã hiểu đúng về data modeling, lợi ích của data modeling trong phân tích dữ liệu? Và cách xây dựng Data Model trong PowerBI? Hãy cùng Tomorrow Marketers tìm hiểu trong bài viết sau đây.
Nội dung bài viết:
2. Một số hình thức Data Modeling phổ biến
3. Data Model mang lại lợi ích gì cho doanh nghiệp?
4. Cách xây dựng Data Model trong Power BI
4.1. Tables & Columns
4.2. Relationships
4.3. Schema
4.4. Hierarchies
Data Modeling là gì?
Data modeling (mô hình hóa dữ liệu) là quá trình mô tả doanh nghiệp của bạn một cách trực quan nhờ nắm rõ các yêu cầu về dữ liệu và cách mà những dữ liệu này có thể củng cố các quy trình kinh doanh. Mục đích của việc này là chỉ ra những loại dữ liệu nào đang được lưu trữ trong hệ thống thông tin, mối liên hệ giữa chúng, cách thức phân nhóm và tổ chức dữ liệu, cũng như chỉ ra định dạng và thuộc tính của chúng.
Các data model (mô hình dữ liệu) thường mang tính kỹ thuật nhưng (hầu hết) cũng được thiết kế đơn giản và trực quan, giúp những người dùng am hiểu kỹ thuật và cả những người không am hiểu về kỹ thuật dễ dàng nắm bắt các thuật ngữ cơ bản nhất. Nhờ các data model, mọi người trong doanh nghiệp của bạn đều có thể hiểu và làm việc với dữ liệu của bạn một cách hiệu quả hơn.
Các mô hình dữ liệu được xây dựng dựa trên nhu cầu của doanh nghiệp. Không có một mô hình dữ liệu cuối cùng, bởi chúng sẽ thay đổi tuỳ theo những biến động trong nhu cầu kinh doanh và quản lý vận hành. Các quy tắc và yêu cầu khi xây dựng mô hình sẽ được thống nhất thông qua phản hồi từ các bên liên quan, sau đó chuẩn hoá thành thước đo để thiết kế mô hình mới hoặc điều chỉnh mô hình sẵn có.
Đọc thêm: Data không phải đặc quyền của các công ty công nghệ
Một số hình thức data modeling
Hierarchical model
Hierarchical model biểu diễn mối quan hệ giữa các dữ liệu theo dạng cây. Trong cơ sở dữ liệu phân cấp, việc truy xuất và truy cập khá khó khăn nên thường hiếm khi được áp dụng trong doanh nghiệp.
Relational data model
Năm 1970, mô hình quan hệ được đề xuất lần đầu tiên bởi chuyên viên nghiên cứu tại IBM. Và ngày nay, nó vẫn được áp dụng trong các cơ sở dữ liệu quan hệ (relational databases) khác nhau, phổ biến nhất trong lĩnh vực điện toán doanh nghiệp. Ở mô hình này, dữ liệu được biểu diễn dưới dạng bảng, làm giảm sự phức tạp và cung cấp một bức tranh dữ liệu tổng quan, rõ ràng cho doanh nghiệp.
Object-oriented data model
Mô hình này bao gồm một tập hợp đối tượng, mối đối tượng là một thực thể (hiện hữu trong doanh nghiệp và được số hoá thành dữ liệu). Các đối tượng này được phân cấp và đều có đặc tính riêng. Cơ sở dữ liệu hướng đối tượng (object-oriented database) có thể kết hợp các bảng, nhưng cũng có thể hỗ trợ các mối quan hệ dữ liệu phức tạp hơn.
Entity-relationship Model
Đây là một mô hình được sử dụng rộng rãi trong các bản thiết kế cơ sở dữ liệu ở mức khái niệm, được xây dựng dựa trên việc nhận thức thế giới thực thông qua tập các đối tượng được gọi là các thực thể và các mối quan hệ giữa các đối tượng này. Ví dụ, một nhân viên kinh doanh và một trưởng phòng kinh doanh, thì mối quan hệ giữa 2 người này lần lượt là người dưới quyền quản lý và người quản lý. Mục tiêu của mô hình Entity-relationship trong quá trình thiết kế cơ sở dữ liệu đó là phân tích dữ liệu, xác định các đơn vị thông tin cơ bản cần thiết của tổ chức, mô tả cấu trúc và mối liên hệ giữa chúng.
Dimensional data models
Dimensional data modeling là một kỹ thuật thiết kế logic nhằm tìm cách trình bày dữ liệu trong một khuôn khổ tiêu chuẩn, trực quan cho phép truy cập hiệu suất cao, khác với mô hình entity – relationship khi cố gắng loại bỏ phần dư thừa trong kho lưu trữ dữ liệu.
Data modeling mang lại lợi ích gì cho doanh nghiệp?
Để hiểu rõ ý nghĩa của data modeling, bạn cần nhìn kỹ vào những lợi ích cụ thể mà nó mang lại. Thông thường, bạn chỉ có thể đạt được những lợi ích này khi triển khai các data model một cách hiệu quả, ngoài ra đội ngũ kinh doanh và đội ngũ IT phải phối hợp ăn ý với nhau. Một số lợi ích của data modeling có thể kể đến như sau.
1. Cắt giảm chi phí và thời gian đánh giá, phân tích dữ liệu
Khi thực hiện data modeling, bạn có thể trực tiếp xác định các nguyên tắc kinh doanh cốt lõi trong doanh nghiệp của mình, tránh mất thêm thời gian sửa đổi về sau. Tích hợp các yêu cầu công việc và tiến độ công việc trong quá trình data modeling cũng giúp cải thiện kết quả làm việc theo thời gian. Điều này sẽ giúp bạn có khả năng tung ra các dự án và sản phẩm mới cho thị trường nhanh chóng hơn. CloverDX – một đơn vị cung cấp giải pháp xây dựng, quản lý data pipelines đã từng ứng dụng thành công phương pháp data modeling, giúp 1 khách hàng giảm thời gian sản xuất của họ từ 9 tháng xuống còn 3 tháng.
Bên cạnh đó, với data modeling, bạn cũng sẽ tiết kiệm được chi phí lập trình lên đến 75% do quy trình này có khả năng phát hiện lỗi nhanh chóng. Điều này có nghĩa là bạn sẽ hạn chế được rủi ro gửi đi các dự án công việc có lỗi cho cấp trên hoặc khách hàng của mình.
Tuy data modeling có thể là một quy trình phức tạp và đòi hỏi nhiều thủ tục, giấy tờ (đối với bộ phận IT và cả doanh nghiệp), nhưng nó vẫn một trong những cách tốt nhất để kiểm soát dữ liệu cho doanh nghiệp của bạn, giúp doanh nghiệp cắt giảm chi phí và phát triển nhanh chóng hơn.
2. Hiểu rõ và cải tiến các quy trình trong doanh nghiệp
Bạn buộc bạn phải hiểu rõ về doanh nghiệp và các quy trình hoạt động của doanh nghiệp mình khi thực hiện data modeling, đồng thời thực hiện data modeling một cách phù hợp để những người khác có thể tương tác được với dữ liệu. Nếu không hiểu cách doanh nghiệp vận hành, bạn sẽ không xác định được đâu là dữ liệu mình cần và dữ liệu đó có ý nghĩa gì.
Ví dụ, để xây dựng cơ sở dữ liệu về khách hàng, bạn cần hiểu dữ liệu về khách hàng hiện có trong doanh nghiệp của mình và cách sử dụng dữ liệu đó. Tóm lại, quá trình data modeling sẽ giúp bạn phát hiện ra các dữ liệu cần thiết trong từng trường hợp cụ thể và mối quan hệ giữa các dữ liệu đó, đồng thời cung cấp một nền tảng vững chắc giúp bạn hiểu hơn về quy trình kinh doanh trong công ty và cách cải thiện chúng.
3. Giảm thiểu sự phức tạp và rủi ro
Để xử lý một lượng dữ liệu khổng lồ của doanh nghiệp, bạn cần đảm bảo dữ liệu được đơn giản hóa và có ít rủi ro. Càng có nhiều dữ liệu, bạn càng cần “thuần hóa” nó sớm. Và để tuân thủ đúng các quy định nghiêm ngặt về dữ liệu, bạn cần thực hiện việc này đúng cách. Hãy ghi chép và kết nối mọi thứ với những dữ liệu luôn thay đổi (ever-changing data).
Data modeling cũng cung cấp sơ đồ trực quan về các quy trình dữ liệu của bạn, do đó, bạn có thể thấy được đầy đủ cấu trúc dữ liệu của mình. Điều này giúp giảm thiểu rủi ro khi làm việc với dữ liệu bởi bạn đã hiểu rõ về tất cả dữ liệu của mình – tránh rơi vào khủng hoảng với các biến đổi (transformation), siêu dữ liệu (metadata) hoặc tình trạng các bộ lọc bị ẩn đi và phân tán. Doanh nghiệp của bạn dễ dàng tìm được insight sát với sự thật hơn bao giờ hết.
Ngoài ra, data modeling còn có thể biến các yếu tố phức tạp, mang tính kỹ thuật cao của doanh nghiệp trở nên đơn giản và dễ tiếp cận hơn đối với tất cả mọi người, từ Ban lãnh đạo công ty cho đến những nhân viên bình thường không rành về kỹ thuật.
Đọc thêm: Giải mã “silo dữ liệu” – vấn đề của không ít doanh nghiệp khi làm việc với dữ liệu
4. Nâng cao tinh thần hợp tác trong công việc
Data modeling sẽ giúp đội ngũ IT của công ty bạn cộng tác dễ dàng hơn với các nhân viên phi kỹ thuật (non-technical staff) khác. Nhờ sử dụng các data model khác nhau, họ có thể giao tiếp theo cách trung lập về công nghệ, nhưng vẫn chứa đủ thông tin chi tiết để tạo các cấu trúc dữ liệu vật lý (physical data structures) khi cần thiết.
Data modeling cũng khiến việc tích hợp các quy trình kinh doanh cấp cao (high-level business processes) với các quy tắc về dữ liệu, cấu trúc dữ liệu và các điều chỉnh về kỹ thuật cho dữ liệu vật lý của bạn một cách dễ dàng. Các data model sẽ cung cấp nguồn sức mạnh tổng hợp giúp doanh nghiệp của bạn hoạt động hiệu quả, đồng thời giúp mọi người hiểu, tiếp cận và sử dụng dữ liệu của doanh nghiệp một cách tối ưu.
Đọc thêm: Doanh nghiệp SME xây dựng hệ thống dữ liệu nội bộ như thế nào?
4. Cách xây dựng Data Model trong Power BI
Data Model (Cấu trúc dữ liệu) trong Power BI cho phép bạn kết nối và quản lý các loại dữ liệu từ nhiều nguồn khác nhau, tổ chức chúng thành các mô hình để xây dựng báo cáo phục vụ cho việc việc phân tích.
Ví dụ về Data Model trong Power BI (Image Source: DataCamp)
Đọc thêm: Ứng dụng Power BI trong phân tích dữ liệu
Có 6 “đối tượng” cấu thành nên Data Model trong Power BI, giúp xác định cách các dữ liệu được tổ chức và liên kết với nhau. Việc hiểu rõ các thành phần này sẽ giúp bạn xây dựng được một Data Model tốt phục vụ được mục tiêu phân tích.
Trong phần tiếp theo, hãy lần lượt đi tìm hiểu các thành phần này nhé!
4.1. Tables & Columns
Thành phần đầu tiên và quan trọng nhất cấu thành lên một Data Model chính là bảng và cột, trong nội dung dưới đây hãy cùng tìm hiểu về các khái niệm bảng dim, bảng fact, cột khóa chính, khóa ngoại trong Power BI nhé!
4.1.1. Fact table & Dimension table
Fact table (Bảng dữ kiện) là bảng chứa các quan sát hoặc sự kiện có thể định lượng liên quan đến hoạt động hằng ngày của một doanh nghiệp. Ví dụ như: Số lượng giao dịch, số đơn hàng, hàng tồn kho,…
Một số đặc điểm của bảng Fact:
- Bao gồm các cột dimension key column (Foreign keys) để liên kết với bảng thứ nguyên (dimension tables) và các cột dữ liệu định lượng (numeric measure columns).
- Mỗi một hàng trong bảng fact tương ứng với một sự kiện đo lường.
- Có thể chứa nhiều giá trị lặp đi lặp lại.
- Có thể thực hiện các công thức tính toán giá trị ở các cột.
- Thường là numerical data.
Ví dụ bảng Fact ghi chép lại số sản phẩm bán được của công ty
Dimension table (Bảng thứ nguyên) là bảng lưu trữ các thông tin chi tiết về dữ liệu có trong bảng fact. Thông tin này có thể bao gồm: Thông tin về sản phẩm, người bán, vị trí địa lý,… giúp cung cấp ngữ cảnh “ai, cái gì, ở đâu, khi nào, tại sao và như thế nào” xung quanh một sự kiện đo lường được ghi nhận trong bảng fact.
Một số đặc điểm của bảng Dimension:
- Bao gồm một cột khóa chính (Primary key) và các cột mô tả (Descriptive Columns).
- Được nối đến các bảng fact thông qua cột khóa chính (Primary key).
- Mỗi dòng trong bảng thể hiện một giá trị duy nhất không lặp lại.
- Được sử dụng để lọc và nhóm dữ liệu trong bảng fact.
- Thường là categorical data.
Ví dụ bảng Dimension chưa thông tin về các sản phẩm của công ty
Dưới đây là bảng so sánh Fact table và Dimension table:
Fact table | Dimension table | |
Định nghĩa | Lưu trữ các quan sát hoặc sự kiện có thể định lượng liên quan đến hoạt động kinh doanh của doanh nghiệp. | Lưu trữ các thuộc tính hoặc đặc điểm mô tả liên quan đến dữ liệu trong bảng. |
Cấu trúc bảng | Bao gồm các cột dimension key column (Foreign keys) để liên kết với bảng dimension và các cột dữ liệu định lượng (numeric measure columns). | Bao gồm một cột khóa chính (Primary key) và các cột mô tả (Descriptive Columns). |
Khối lượng dữ liệu | Khối lượng dữ liệu lớn bao gồm nhiều hàng, và số hàng sẽ tăng thêm liên tục theo thời gian. | Khối lượng dữ liệu nhỏ hơn nhiều so với bảng fact. |
Mục đích sử dụng | Được sử dụng cho mục đích tính toán, phân tích và ra quyết định. | Chủ yếu để lưu trữ thông tin, lọc và nhóm dữ liệu. |
4.1.2. Columns
Primary key (Khóa chính) được sử dụng để định danh, phân biệt các giá trị trong bảng, giúp đảm bảo từng hàng (records) trong bảng dữ liệu là duy nhất, không bị trùng lặp.
Mỗi bảng chỉ có thể có một khóa chính (có thể bao gồm một hoặc nhiều cột), và các giá trị trong khóa chính phải không được lặp lại và không chứa giá trị null.
Foreign key (Khóa ngoại) được sử dụng để liên kết dữ liệu trong hai bảng với nhau, giúp cung cấp thêm thông tin về mỗi hàng (records) trong bảng.
Một bảng có thể chứa nhiều khóa ngoại, và khóa ngoại của bảng này thường sẽ là khóa chính ở bảng khác. Các giá trị trong khóa chính có thể lặp đi lặp lại, tuy nhiên phải tương ứng với giá trị của khóa chính ở bảng khác.
Ví dụ về Primary key và Foreign key trong một bộ dữ liệu – Khóa học Data Analysis
Seller_id là Primary key (khóa chính) trong bảng Sellers, được sử dụng để phân biệt các nhân viên bán hàng với nhau.
Seller_id đồng thời cũng đóng vai trò là Foreign key (khóa ngoại) trong bảng Order Item, giúp liên kết hai bảng với nhau và bổ sung thêm thông tin về người bán cho từng đơn hàng trong bảng Order Item.
Dưới đây là bảng tóm tắt các điểm khác biệt giữa Primary Key và Foreign Key:
Primary key (PK) | Foreign key (FK) | |
Định nghĩa | Dùng để định danh các giá trị trong bảng dữ liệu, đảm bảo các giá trị mỗi hàng là duy nhất, không trùng lặp. | Dùng để liên kết dữ liệu trong hai bảng với nhau, giúp cung cấp thêm thông tin về mỗi hàng (records) trong bảng. |
Số lượng | Trong một bảng chỉ có 1 khóa chính duy nhất. | Trong một bảng có nhiều khóa ngoại, tùy thuộc vào mối quan hệ với các bảng khác. |
Giá trị | Các giá trị không được lặp lại và không cho phép chứa giá trị null. | Các giá trị có thể lặp lại và chứa giá trị null. |
Xóa dữ liệu | Không được phép xóa dữ liệu. | Có thể xóa một vài giá trị, tuy nhiên việc xóa có thể ảnh hưởng đến tính toàn vẹn khi tham chiếu thông tin trong các bảng liên quan. |
4.2. Relationships
Relationships hay mối quan hệ giữa các bảng được xác định thông qua Primary key (khóa chính) và Foreign key (khóa ngoại).
Ví dụ: Mối quan hệ giữa bảng SalesFact và bảng Product được tạo ra thông qua một cột chung là ProductID – vừa là Primary key của bảng Product, vừa là Foreign key của bảng SalesFact.
Một Data model sẽ không thể hình thành, mà sẽ chỉ được coi là tập hợp của các bảng, nếu không xây dựng được mối quan hệ (Relationships) giữa các bảng.
Việc tạo mối quan hệ giữa các bảng sẽ giúp filter dữ liệu giữa các bảng với nhau theo 1 chiều hoặc nhiều chiều phân tích, đảm bảo tính chính xác của dữ liệu.
Khi chưa thiết lập relationship, Power BI sẽ ngầm hiểu là 2 bảng không liên quan gì đến nhau, Revenue của từng danh mục sản phẩm sẽ đều thể hiện cùng một giá trị đó là total revenue trong bảng SalesFact.
Sau khi thiết lập mối liên hệ, PowerBI hiểu được rằng 2 bảng có mối liên hệ với nhau, các dữ liệu sẽ được lọc từ bảng Product sang bảng SalesFact theo từng Category để tính toán và thể hiện được đúng doanh thu theo từng danh mục sản phẩm.
Có 2 thuộc tính bạn sẽ cần quan tâm khi xây dựng relationships trong Data Model:
4.3.1. Cardinality
Cardinality là thuộc tính đặc trưng cho mối quan hệ giữa hai bảng trong Data Model. Thuộc tính này mô tả số lượng các giá trị của một cột dữ liệu trong một bảng liên kết với số lượng các giá trị trong cùng cột đó tại bảng khác.
Mối quan hệ giữa hai bảng có thể được chia thành các loại sau:
- One-to-one (1:1): Mô tả mối quan hệ mà ở đó một giá trị duy nhất trong cột của một bảng tương ứng với một giá trị duy nhất trong cột của bảng còn lại.
- One-to-many (1:*)/Many-to-one (*:1): Mô tả mối quan hệ mà ở đó một giá trị trong cột của một bảng tương ứng với nhiều giá trị trong cột của bảng còn lại.
- Many-to-many (*:*): Mô tả mối quan hệ mà ở đó nhiều giá trị trong cột của một bảng tương ứng với nhiều giá trị trong cột của bảng còn lại.
Bạn có thể đọc thêm ví dụ về từng mối quan hệ trên và cách xây dựng các mối quan hệ trong Power BI qua bài viết Cách xây dựng data relationship trong Power BI.
4.3.2. Cross filter direction
Sau khi kết nối hai bảng với nhau, bạn sẽ cần phải xác định rõ chiều lọc dữ liệu (cross filter direction) từ bảng này qua bảng khác.
Image source: Microsoft
Dữ liệu có thể được lọc theo một hoặc 2 chiều:
- Single cross-filter direction (Single): Lọc từ một bảng tới một bảng khác (thường từ bảng dimension tới bảng fact). Ở ví dụ (1), chiều lọc dữ liệu sẽ là từ bảng Customer sang bảng Sales.
- Cross-filter directions (Both): Tùy chọn này cho phép 2 bảng có thể linh hoạt lọc cho nhau. Trong ví dụ (2), bảng Product có thể lọc thông tin trong bảng Sales và ngược lại bảng Sales cũng có thể lọc thông tin từ bảng Product.
Trong Power BI, chiều lọc dữ liệu sẽ có thể được xác định dựa trên loại mối quan hệ giữa hai bảng. Với mối quan hệ one-to-one chiều lọc sẽ mặc định là hai chiều (Both), còn với 2 mối quan hệ còn lại, bạn có thể linh hoạt lựa chọn giữa lọc hai chiều (Single) và một chiều (Both).
4.3. Schema
Schema cũng là một khía cạnh quan trọng trong việc xây dựng Data Model trong PowerBI giúp tổ chức dữ liệu một cách hiệu quả. Trong phần tiếp theo, chúng ta sẽ tìm hiểu về một số mô hình dữ liệu được sử dụng phổ biến nhé:
4.3.1. Star Schema:
Là dạng kiến trúc mô hình nhà kho dữ liệu đơn giản và được sử dụng nhiều nhất. Kiến trúc này được sắp xếp dưới hình dáng khá giống với một ngôi sao mà đó bảng Fact ở vị trí trung tâm và được bao quanh bởi các bảng Dimension.
Ví dụ thiết kế nhà kho dữ liệu theo mô hình Star Schema – Khóa học Data System
Trong ví dụ trên, bảng Fact Sales ở trung tâm chứa thông tin liên quan đến đơn hàng, và các bảng Dimension ở xung quanh sẽ bổ sung các thông tin, thuộc tính chi tiết cho dữ liệu ở bảng Fact như: Thông tin sản phẩm (Product dimension), thông tin khách hàng (Customer dimension), thông tin cửa hàng (Store dimension),…
Đọc thêm: Star schema (giản đồ hình sao) là gì?
4.3.2. Snowflake Schema:
Là một biến thể của Star Schema giúp chuẩn hóa các bảng Dimension để giảm dư thừa dữ liệu, từ đó cải thiện chất lượng dữ liệu. Mô hình này chia nhỏ các bảng Dimension thành các bảng nhỏ hơn, dựa trên mức độ chi tiết hoặc phân cấp của bảng.
Ví dụ thiết kế nhà kho dữ liệu theo mô hình Snowflake Schema – Khóa học Data System
Ở ví dụ trên, các bảng Dimension bao quanh bảng Sales Fact được chia nhỏ thành các bảng con:
- Date Dimension → Quarter Dimension, Month Dimension, Week Dimension
- Customer Dimension → City Dimension
- Product Dimension → Brand Dimension
- Store Dimension → State Dimension
4.3.3. Galaxy Schema:
Là một mô hình bao gồm nhiều bảng Fact, các bảng Fact này có thể chia sẻ chung một một vài hoặc tất cả các bảng Dimension. Mô hình này cũng cấp nhiều góc nhìn khác nhau, phản ánh đầy đủ sự phức tạp của mô hình kinh doanh trong thực tế.
Ví dụ thiết kế nhà kho dữ liệu theo mô hình Galaxy Schema – Khóa học Data System
Ví dụ trên có 2 bảng Fact là Sales Fact (chứa dữ liệu bán hàng) và Purchase Fact (chứa dữ liệu mua hàng), 2 bảng này liên kết với nhiều bảng Dimension khác nhau, trong đó có 2 bảng chung là Date Dimension (chưa thông tin về ngày giao dịch) và Product Dimension (chưa thông tin về sản phẩm).
Nếu bạn muốn tìm hiểu sâu hơn về các mô hình này, ưu điểm, nhược điểm, cũng như quy trình để xây dựng nhà kho dữ liệu, hãy tham khảo khóa học Data System của Tomorrow Marketers nhé! Khóa học sẽ cung cấp cho bạn những mindset cần thiết để xây dựng hệ thống dữ liệu nội bộ cho doanh nghiệp để phục vụ cho việc tối ưu các hoạt động kinh doanh.
4.4. Hierarchies
Hierarchies (cấu trúc phân cấp) trong Power BI cho phép tổ chức dữ liệu thành các cấp độ khác nhau, giúp “bổ nhỏ” các số liệu trong biểu đồ, cung cấp thông tin chi tiết hơn khi phân tích.
Ví dụ tạo hierarchy theo thời gian (Year > Quarter > Month > Day) để theo dõi sự thay đổi của số lượng sản phẩm bán ra theo thời gian (Image source: Spreadsheeto)
Hierarchies không chỉ sử dụng giới hạn cho ngày tháng, mà còn có thể sử dụng cho:
- Thông tin về sản phẩm (Product) : Product Category > Color > Product
- Thông tin về vị trí (Geography): Country > Region > State > City
…
Cách tạo Hierarchies trong Power BI
Trong phần tiếp theo TM sẽ hướng dẫn bạn tạo hierarchy cho bảng Product bao gồm lần lượt các cột:
- Category
- Subcategory
- Product
Bước 1: Truy cập vào phần Model View trong Power BI. Ở mục Data bên tay phải, chọn bảng Product.
Bước 2: Trong bảng Product, chọn cột có level lớn nhất trong hierarchy “Category”. Nhấn vào dấu … (More options) ở góc phải, chọn Create hierarchy.
Bước 3: Một hierarchy mới đã được tạo ra, ở dưới hierarchy này mới chỉ có một cột Category (1).
Ở mục Properties, bạn sẽ có thể customize lại các thuộc tính của hierarchy này:
(1) Thay đổi tên
(2) Thêm các cột phân cấp vào hierarchy
Bước 4: Sau khi đã hoàn thành việc customize các thuộc tính của hierarchy, nhấn vào Apply Level Changes để lưu lại thay đổi.
Và đây là kết quả có được sau khi tạo hierarchy
Từ đây, bạn sẽ có thể tạo ra những biểu đồ có thể bổ nhỏ theo sản phẩm. Ví dụ: Biểu đồ sản lượng bán ra theo Category, Subcategory & Product.
Tạm kết
Xây dựng Data model trong Power BI chính là bước quan trọng giúp bạn tổ chức, sắp xếp và làm việc với dữ liệu một cách hiệu quả và nhanh chóng hơn. Nếu như data modeling là cách thức để bạn xử lý các nhóm dữ liệu, thì tư duy sẽ là kim chỉ nam định hướng bạn chọn mô hình, phương pháp khai thác và công cụ phù hợp.
Sau khi có các dữ liệu ở dạng biểu đồ, dashboard, việc bạn cần làm là tìm ra các Insights, vấn đề mà dữ liệu muốn nói, để đưa ra các quyết định kinh doanh đúng đắn. Để làm được những điều này, bạn cần có một tư duy phân tích dữ liệu vững chắc, luôn biết từng bước mình cần làm gì khi đối mặt với lượng dữ liệu khổng lồ. Nếu chưa biết cách trang bị tư duy phân tích dữ liệu như thế nào, tham khảo ngay khóa học Data Analysis của Tomorrow Marketers nhé!
Nếu bạn muốn trang bị một tư duy khai thác dữ liệu bài bản, từ bước xác định bài toán doanh nghiệp, hiểu logic nội tại của từng công cụ trong xây dựng hệ thống dữ liệu, đến khai thác dữ liệu ra sao để không bỏ lỡ những insight đắt giá, hãy tham khảo khoá học Data System của Tomorrow Marketers!