Tomorrow Marketers – Trong bài viết trước, TM đã trả lời các câu hỏi một ngày của các Fresher Data Analyst làm gì và lộ trình chuẩn bị kiến thức, kĩ năng nào để “chắc chân” vào ngành. Tới phần 2 trong lộ trình chuẩn bị vào ngành Dữ liệu, cùng TM điểm qua các bước chuẩn bị portfolio và “một tâm hồn đẹp” cho buổi phỏng vấn để tiến gần hơn với một vị trí trong ngành Dữ liệu nhé!
3.4. Chuẩn bị data portfolio
Portfolio là tổng hợp những dự án và những phân tích bạn đã làm trước đó. Portfolio là một cách để thể hiện những kiến thức và kĩ năng bạn có thông qua việc áp dụng vào các dự án thực tế. Portfolio có thể được đóng gói theo nhiều cách: một trang web cá nhân, sử dụng chính GitHub và bổ sung các dự án thành các repository công khai hoặc đơn giản hơn nữa là đưa thành một mục trong sơ yếu lý lịch/LinkedIn và dẫn link tới những dự án bạn từng thực hiện/tham gia.
Lựa chọn platform để trình bày portfolio?
Github
GitHub là nền tảng mở, giúp tạo các repository và chia sẻ code. Bạn có thể sử dụng các kỹ năng edit trên GitHub để format lại các reportsitory, ví dụ tạo headings, paragraphs và embedded links. Bạn có thể tham khảo hướng dẫn format trên GitHub. và cách để format portfolio với trang Readme như dưới đây:
Trang web cá nhân
- Bạn có thể lựa chọn các công cụ hỗ trợ (site builder) như Wix, Weebly hoặc Canva. Điểm cộng của cách này chính là tính dễ sử dụng trong thiết kế một trang web. Tuy nhiên, nếu sử dụng với lựa chọn giá miễn phí, domain của portfolio của bạn bắt buộc phải có tên của công cụ đó (ví dụ portfolio.wix.com). Bạn có thể sử dụng dịch vụ của web hosting và mua một domain để đem lại ấn tượng chuyên nghiệp hơn. Tham khảo bài viết Làm thế nào để thiết lập một trang blog? để thực hành tạo ngay một trang web cá nhân nhé.
- Tự code trang web cá nhân và host trên Cloudflare (miễn phí). Bạn sẽ chỉ cần bỏ ra khoảng $10 một năm để mua tên domain, nhưng bạn cũng có thể sử dụng dev link để miễn phí. Ưu điểm là chi phí rẻ hơn nhưng bù lại thì bạn sẽ không có hỗ trợ khi có phát sinh bug trên trang web.
Portfolio cần có các mục gì?
Trang chính – “Homepage”
Đây là điểm chạm đầu tiên của người xem với portfolio, vì vậy hãy cố gắng tạo được ấn tượng đầu tiên và kích thích được sự tò mò để người xem kéo xuống. Giữ mọi thứ ngắn gọn và đầy đủ thông tin, đủ để biết portfolio này của ai và tóm tắt tự sự về cá nhân.
Mục giới thiệu về cá nhân – “About Me”
Đây là nơi bạn có thể tìm hiểu chi tiết hơn về bạn là ai, bạn làm gì, kinh nghiệm nghề nghiệp (nếu có) và điều gì đưa bạn tới lĩnh vực Dữ liệu và đâu là điều khiến bạn hứng thú/theo đuổi ngành này.
Bạn có thể tham khảo portfolio của Naledi Hollbruegge.
Naledi giới thiệu mình là một consulting data analyst và social researcher. Sau đó, cô tiếp tục giải thích, chỉ bằng một vài câu, niềm đam mê phân tích dữ liệu của cô đã phát triển như thế nào và cô có thể cung cấp những gì cho những nhà tuyển dụng. Cuối cùng, cô ấy tóm tắt lại lịch sử nghề nghiệp và để lại cho người đọc những gì cô ấy sẵn sàng tiếp nhận.
Bên dưới mục giới thiệu, đừng quên thông tin liên hệ như email, các trang mạng xã hội như LinkedIn và GitHub.
Một trang blog – “Blogs”
Một kỹ năng quan trọng mà nhiều bạn theo đuổi sự nghiệp phân tích không nghĩ tới chính là khả năng giải thích những hiểu biết phức tạp một cách rõ ràng, ngắn gọn và dễ hiểu dưới dạng văn bản— và blog hoàn toàn có thể thể hiện năng lực này.
Khi bạn mới bắt đầu, hãy cân nhắc viết một hoặc hai bài viết ngắn giải thích một khái niệm – cho thấy bạn thực sự hiểu và có thể truyền tải, giải thích công việc của mình cho người khác, cũng thể hiện rằng bạn biết và theo đuổi những gì mình đang làm.
Các dự án cá nhân – “Projects”
Mục này sẽ giới thiệu các dự án khác nhau mà bạn đã thực hiện. Có nhiều cách khác nhau để trình bày các dự án: đăng tải ngay trên website cá nhân hoặc hoặc tóm tắt và dẫn liên kết tới các platform chia sẻ code như GitHub – phụ thuộc vào tính chất, tính kỹ thuật cũng như sở thích cá nhân.
Bạn có thể tham khảo portfolio của Harrison Jansma – một coder và data analyst.
Với Apple Sentiment Analysis project, Harrison thực hiện kỹ thuật sentiment analysis (kỹ thuật phân loại và đánh giá thái độ thành các nhóm tích cực, tiêu cực hoặc trung lập) trên một dataset các tweet về Apple Inc. Anh trình bày từng bước theo từng phần rõ ràng, được đánh số, minh họa bằng bảng và đồ thị nếu cần thiết.
Bạn cũng có thể tham khảo các dự án cá nhân của David Venturi. David thực hiện đa dạng các kĩ thuật phân tích trên nhiều domain khác nhau, thậm chí là anh còn sẵn sàng thể hiện màu sắc cá nhân bằng cách phân tích dữ liệu trong lĩnh vực sở thích – khúc côn cầu Toronto Maple Leafs. David thường sử dụng GitHub để giới thiệu các dự án, chẳng hạn như dự án này được tạo từ dữ liệu OpenStreetMap để tìm hiểu thêm về quê hương của anh ấy bằng SQL.
Mục tiêu chính của portfolio là thể hiện khả năng và kỹ năng – vì vậy hãy cố gắng đa dạng hóa nhiều loại dự án khác nhau để làm nổi bật các khía cạnh khác nhau trong bộ kỹ năng. Tuy nhiên, số lượng không quan trọng bằng chất lượng, vì vậy hãy chọn lọc từ một số kĩ năng quan trọng nhất:
- Khả năng tổng hợp/scraping dữ liệu từ nhiều nguồn (trình bày đoạn code thực comment từng bước logic trong đoạn code của bạn)
- Khả năng làm sạch dataset (trình bày các bước bạn phát hiện dữ liệu sai dạng dữ liệu/thiếu/duplicate và các bước làm sạch một dataset)
- Khả năng thực hiện nhiều loại phân tích khác nhau (ví dụ phân tích mô tả hoặc phân tích dự đoán), và khả năng thực hiện nhiều kĩ thuật phân tích khác nhau (ví dụ time series analysis, A/B testing, regression analysis,…).
- Khả năng trình bày và trực quan hóa (lựa chọn loại biểu đồ, chart,… và trình bày một report/dashboard bạn từng thực hiện)
- Khả năng diễn giải quá trình phân tích một cách dễ hiểu và liền mạch (trình bày một phân tích theo một câu chuyện)
- Khả năng teamwork (bổ sung một dự án lớn có sự đóng góp của nhiều cá nhân)
Bạn có thể thể hiện các kĩ năng này trong một dự án xuyên suốt. Gợi ý cho bạn một số ý tưởng:
- Product launch
- Đo lường hiệu quả launching sản phẩm mới và đề xuất recommendations để tối ưu cho các chiến dịch sau.
- Các loại dữ liệu cần: dữ liệu trước khi launching (marketing campaigns, social media sentiments, sign ups), dữ liệu sau khi launching (sales, installations, social media sentiments, product reviews). Tập trung vào các kênh media của thương hiệu đó.
- Social network/Social media growth
- Tự phân tích từ connection network trên LinkedIn để phân tích mức độ tăng trưởng connection và dự đoán số lượng job phù hợp với bản thân.
- Các dữ liệu cần: thông tin về các connections, job listing, thời gian đăng tuyển, lĩnh vực, thời gian gắn bó của nhân sự của các công ty,…
- Tương tự, bạn có thể phân tích dựa trên một kênh nội dung mà bạn ưa thích.
- Các dữ liệu cần: thời gian đăng bài, chủ đề, lượng engagement (comments, reactions,…), loại nội dung (long form, short form, video, text, etc.), các keywords sử dụng,…
Web scraping/Call API
Web scraping là kỹ thuật thu thập dữ liệu trực tiếp từ các trang web. Khi bạn sử dụng web scraping, bạn đang truy cập vào trang web qua giao thức HTTP/HTTPS, tải về nội dung HTML của trang và sau đó phân tích nó để trích xuất thông tin mong muốn. Việc này thường liên quan đến việc xử lý mã HTML và có thể sử dụng thư viện như BeautifulSoup, Scrapy, hoặc Selenium trong Python. Web scraping thường được sử dụng khi không có API hoặc khi API không cung cấp dữ liệu cần thiết.
Là một người mới tiếp cận Dữ liệu, nếu background của bạn là dân kinh tế, có thể bạn sẽ chưa có nhiều kiến thức chuyên môn trong công việc này. Tuy nhiên, một Data Analyst hàng ngày cần tổng hợp rất nhiều dữ liệu, với đa dạng thể loại, từ hình ảnh, văn bản, số liệu từ đa dạng các nguồn khác nhau. Nếu chỉ dựa vào Data Engineer, công việc có thể sẽ thiếu đi tính chủ động và kéo dài thời gian hoàn thành. Thêm nữa, khi mà người người nhà nhà đều có thể tìm kiếm các dataset miễn phí và thực hiện các kỹ thuật phân tích cơ bản, thì đâu mới là điểm làm cho portfolio nổi bật? Hãy tự tổng hợp nguồn dữ liệu riêng cho mình, một dataset chưa được sạch sẽ nhưng có tính thực tế cao hơn.
Web scraping sẽ tự động hóa các tác vụ tổng hợp dữ liệu lặp lại, ví dụ như download đánh giá và copy mô tả sản phẩm từ các trang web e-commerce. Để web scraping, cần tạo ra một thuật toán có vòng lặp: tìm các phần tử được chọn trong mã HTML của website, sau đó loại bỏ những dữ liệu này và xuất chúng thành tệp .txt.
API (Application Programming Interface) là một giao diện mà dịch vụ hoặc ứng dụng cung cấp để bạn có thể truy cập dữ liệu của nó theo cách có cấu trúc hơn. Khi bạn gọi API, bạn gửi yêu cầu HTTP (như GET hoặc POST) đến một điểm cuối (endpoint) của API, và nhận về dữ liệu thường ở định dạng JSON hoặc XML. API là cách chính thức và hợp pháp hơn để lấy dữ liệu từ các dịch vụ trực tuyến, vì chúng thường được thiết kế để cung cấp dữ liệu một cách có tổ chức và ổn định.
Ví dụ: LinkedIn APIs cho phép bạn call data profile của bạn và những người khác cũng như các bài đăng mô tả job.
Serp API cũng là một lựa chọn tốt, cho phép bạn lấy dữ liệu từ các kết quả tìm kiếm trên Google hoặc các công cụ tìm kiếm khác. Hãy xem xét trường hợp này: nếu bạn thường xuyên bị chặn khi cố gắng thu thập dữ liệu sản phẩm từ Amazon, API kết quả tìm kiếm có thể giúp bạn dễ dàng hơn bằng cách chỉ cần thu thập dữ liệu từ Google.
Bạn có thể lựa chọn scraping các trang web như:
- Các mạng xã hội như Reddit, X, LinkedIn hoặc Facebook
- Các trang review, ví dụ Tripadvisor
- Các trang có dữ liệu tài chính như Yahoo!, hoặc dữ liệu chứng khoán như SSI, DNSE,…
Một số gợi ý khi bạn thực hiện web scraping:
- Các thư viện Python phổ biến: BeautifulSoup, Selenium, Scrapy
- Các công cụ web scraping: Parsehub, Octoparse
- GitHub: Trustpilot review scraper, Bloomberg stock data scraper
Tự thu thập dữ liệu thay vì sử dụng các bộ dữ liệu được làm sẵn cũng giúp bạn được làm việc với dữ liệu thực, thay vì bỏ qua công đoạn làm sạch, chuẩn bị và chuyển đổi dữ liệu với các dataset miễn phí từ các trang web cung cấp dataset khác.
Data wrangling/data cleaning
Data wrangling đảm bảo dữ liệu có cấu trúc, đã được làm sạch và loại bỏ những giá trị gây sai lệch trong quá trình phân tích/xây dựng mô hình. Để nâng cao độ khó, bạn có thể thiết kế một quy trình tự động phát hiện và làm sạch dữ liệu với Python, hoặc kết hợp Power BI và Power Automation.
Quy trình này có thể bao gồm tổng hợp nhiều dataset, phân nhóm và kiểm tra dữ liệu trùng lặp, kết hợp các trường dữ liệu (concatenate), sử dụng fuzzy match,…
Bạn có thể tham khảo các bước làm sạch dữ liệu tại bài viết:
Để thể hiện kỹ năng này, bạn có thể lựa chọn làm sạch từ dữ liệu đã scraping ở bước trên, hoặc lựa chọn từ các nguồn dữ liệu mở:
Next up, check out some sample data-wrangling guides for beginners. The data science community, Kaggle, runs regular competitions and provides free access to the outcome code, an excellent tool for helping you get started. You can also find some great YouTube tutorials for data wrangling in Python, as well as some written guides.
Một số gợi ý để bạn có thể bắt đầu:
- Các thư viện Python phổ biến: pandas, NumPy, datacleaner
- Các công cụ làm sạch dữ liệu: OpenRefine, MS Power Query
- GitHub: Code repository for data wrangling with Python
Exploratory data analysis (EDA)
EDA là quá trình tóm tắt các đặc điểm chính của một dataset: phân bố dữ liệu như nào, xu hướng ra sao, có pattern nào không,… Luyện tập EDA sẽ trau dồi các kỹ năng data modeling và phát hiện dữ liệu bất thường và tư duy phản biện. Đây cũng là bước đầu để bạn hình thành các giả thuyết (hypothesis) và giả định (assumption).
Có thể phân thành hai loại:
- Phân tích đơn biến (univariate analysis): phân tích từng biến một
- Phân tích đa biến (bivariate/multivariate analysis): kết hợp hai hoặc nhiều biến để tìm ra mối quan hệ. Một số kỹ thuật có thể kể đến như (1) trực quan với loại biểu đồ scatter plots, hoặc box và whisker diagrams, (2) đánh giá thống kê từ bảng biểu.
Bạn hoàn toàn có thể gộp quá trình này với công việc làm sạch dữ liệu.
Một số gợi ý để bạn có thể bắt đầu:
- Các thư viện Python phổ biến: Sweetviz, dataprep.eda
- Các công cụ hỗ trợ EDA: MS Excel, Trifacta
- GitHub: pandas profiling, autoviz
Data visualization
Trực quan hóa dữ liệu cần phải cân bằng giữa nghệ thuật và khoa học – tức là cân bằng được tính đẹp mắt và thu hút nhưng vẫn đảm bảo tuân thủ các quy tắc trong trình bày báo cáo, tránh gây hiểu nhầm và chỉ ra điểm cần chú ý trong biểu đồ.
Có rất nhiều loại chart trong trực quan hóa, từ cơ bản như biểu đồ đường, biểu đồ cột dọc/cột ngang, biểu đồ tròn, cho tới nâng cao hơn chút là biểu đồ miền, histogram, scatter plots, heat map, tree map,… Mỗi loại biểu đồ đều có các use case và truyền tải thông tin khác nhau.
Bạn có thể sử dụng chính dataset đã thực hành các bước bên trên để trực quan hóa với nhiều công cụ, hoặc lựa chọn nhiều dataset và thực hiện đa dạng các kỹ năng trực quan hóa với một công cụ mà bạn tự tin nhất.
Một số gợi ý để bạn có thể bắt đầu:
- Các thư viện Python phổ biến: Seaborn, matplotlib, plotly
- Các công cụ hỗ trợ trực quan hóa dữ liệu: Tableau Public, Power BI Desktop, Excel, Looker Studio
- GitHub: Data viz tools for the web
Machine learning
Vượt hơn kỹ năng phân tích mô tả, bạn có thể đưa vào portfolio một vài dự án phân tích dự báo với quy trình thiết kế thuật toán và xây dựng mô hình machine learning mà bạn tâm đắc.
Năng lực của một Fresher Data Analyst sẽ phù hợp với các bài toán Hồi quy tuyến tính (linear regression) hoặc bài toán Hồi quy Logistic (logistic regression).
Dự án này sẽ đòi hỏi sự chuẩn bị kiến thức toán học và lập trình cao hơn các dự án trước, với nền tảng về đại số, thống kê và giải tích.
Hãy thử thực hành với dataset số người sống sót từ vụ tai nạn Titanic. Mục tiêu của dự án này là xây dựng một mô hình cơ bản để dự đoán hành khách nào để sống sót sau thảm họa và ngược lại, dựa trên các yếu tố như độ tuổi, giới tính và tầng lớp xã hội. Lý do đây là dự án phù hợp với beginner bởi Kaggle đã từng thực hiện một cuộc thi với dataset này và có cung cấp tutorial cho các thí sinh tham gia, cũng như xây dựng một forum để hỗ trợ và đưa ra các tips để hoàn thành bài thi.
Chúng ta cũng biết được chính xác số người đã tử vong trong thảm họa này, nhờ vậy có thể đánh giá tính chính xác của thuật toán dự đoán đối với kết quả thực tế.
Bạn có thể tìm hiểu thêm 12 dự án machine learning khác.
Một số gợi ý để bạn có thể bắt đầu:
- Các thư viện Python phổ biến: Scikit-learn, Tensorflow, Pytorch
- GitHub: machine learning for beginners
Một số tips cuối cùng
Sau khi đã hoàn thành các dự án, đừng quên tham khảo một số lời khuyên dưới đây để hoàn thiện trình bày và “tút tát” lại portfolio:
- Vẫn là câu nói “chất lượng hơn số lượng”, hãy lựa chọn 3-5 dự án bạn tâm đắc nhất để đưa vào portfolio, tránh việc quá dài và khiến nhà tuyển dụng không nhìn nhận được đâu mới là dự án “ăn điểm”.
- Bắt tay thực hiện dự án và xây dựng portfolio ngay từ thời điểm đầu lộ trình. Học tới đâu, thực hành tới đó. Quá trình này vừa khiến bạn thấm được kiến thức lý thuyết, giúp bạn biến các kiến thức đó thành kỹ năng thực sự của mình, vừa giúp bạn dần dần liên kết được quá trình làm việc từng bước với một dataset như nào, cũng tránh việc phải tập trung một khoảng thời gian để hoàn thành khối lượng dự án lớn.
- “Use SQL to extract insight for customer service business” – Bạn dùng SQL như thế nào? Vì sao không dùng Excel? Đừng liệt kê bạn dùng công cụ nào, hãy giải thích tại sao bạn lựa chọn công cụ đó mà không phải công cụ khác và bạn đã sử dụng công cụ đó như thế nào, thực hiện các kỹ thuật nào.
- Thể hiện rằng bạn biết cách dùng GitHub. Git là hệ thống quản lý các phiên bản thay đổi và chia sẻ code. Trong thực tế, khi làm việc trong một team, việc biết cách quản lý phiên bản cập nhật trên môi trường local và chia sẻ code trong một dự án rất quan trọng. Nắm được các command cơ bản, hiểu cách tạo branch,… sẽ giúp bạn có thêm điểm cộng.
- Bổ sung trang readme để tóm tắt ngắn gọn nhưng đầy đủ ngữ cảnh của dự án đã thực hiện và chia sẻ từng bước bạn tư duy sẽ giúp người đọc có đầy đủ thông tin để hiểu được kết luận của bạn.
- Thử tạo một chút khác biệt bằng cách đưa sở thích, đam mê cá nhân vào portfolio (phân tích dataset về các bộ phim trên Netflix, phân tích dataset về lượt chơi của một ứng dụng game nhập vai,…). Dù vậy, hãy đảm bảo có sự liên kết giữa sở thích này với domain của công ty mà bạn đang ứng tuyển.
- Làm nổi bật bất cứ một kỹ năng nào mà bạn tự đánh giá mình ở mức thuần thục và master nó (tạo một dynamic dashboard bằng Excel, tự động hóa một quy trình bằng cách sử dụng Apps Script trên Google Sheets,…)
- Học hỏi portfolio của các anh chị senior đi trước và tham khảo thêm portfolio của các bạn cùng level. Bạn có thể sẽ có những ý tưởng bất ngờ khi đang tự phản biện và đặt câu hỏi với những dự án khác. Tham khảo một số portoflio dưới đây nhé:
- Portfolio của Harrison Jansma, một coder và analyst.
- Portfolio của Naledi Hollbruegge, một analytics consultant và social researcher.
- Portfolio của Alina Bolat, một data analyst.
- Dự án trực quan hóa dữ liệu của Senior data analyst Kim Tricker trên Tableau Public.
- Dự án trực quan hóa dữ liệu của Philip Okoampah Kwaning trên Tableau Public.
- Phân tích của OkCupid về thay đổi hành vi dating trực tuyến trong thời kỳ đại dịch COVID-19.
- Phân tích của David Robinson về hoạt động của Donald Trump trên X.
3.5. Chuẩn bị cho test đánh giá năng lực và interview ứng tuyển vị trí Data Analyst Fresher?
Một số câu hỏi interview thường gặp
Khi bạn bắt đầu nộp đơn xin việc hoặc thực tập phân tích dữ liệu, bạn nên chuẩn bị cho quá trình phỏng vấn. Mặc dù mỗi công ty sẽ có kỹ thuật phỏng vấn riêng nhưng có một số câu hỏi phổ biến mà bạn có thể gặp khi phỏng vấn vị trí nhà phân tích dữ liệu. Để giúp bạn chuẩn bị, chúng tôi đã tổng hợp một số câu hỏi phỏng vấn phân tích dữ liệu phổ biến nhất (và cách trả lời chúng) trong hướng dẫn này.
Câu hỏi giới thiệu cá nhân
Khi bắt đầu một buổi phỏng vấn, nhà tuyển dụng sẽ luôn bắt đầu với câu hỏi Giới thiệu bản thân. Đây là cơ hội để bạn có thể chia sẻ thêm về bản thân ngoài những thông tin trong CV và là cơ hội tạo được ấn tượng tốt đầu tiên.
Với câu hỏi này, bạn nên giới thiệu những thông tin trọng tâm nhất, bao gồm: giới thiệu ngắn gọn các thông tin cá nhân, kinh nghiệm làm việc, kĩ năng có liên quan tới phân tích dữ liệu. Ngoài ra, bạn có thể tóm tắt thêm về:
- Điều gì khiến bạn cảm thấy hứng thú và muốn theo đuổi ngành dữ liệu
- Vision của bạn
- Quá trình tự học để theo đuổi ngành của bạn như nào (nếu trái ngành), quá trình theo học và bổ sung kỹ năng/kinh nghiệm của bạn ra sao (nếu đúng ngành,…
- Điểm mạnh của bạn là gì và điểm mạnh đó có thể hỗ trợ quá trình phân tích dữ liệu
Câu hỏi về kinh nghiệm và kỹ năng trong phân tích dữ liệu
Nền tảng chuyên môn và ngành học của bạn khi lựa chọn ngành Dữ liệu, nếu trái ngành thì những kiến thức đã được học có hỗ trợ trong quá trình bạn chuyển sang ngành Dữ liệu hay không?
Chia sẻ về dự án phân tích dữ liệu mà bạn tâm đắc nhất và dự án mà bạn làm gần đây nhất. Giới thiệu theo từng mục STAR:
- Situation: Bối cảnh và mục đích của bài phân tích là gì
- Task: Từ bối cảnh và mục đích, bạn vạch ra các nhiệm vụ và công việc nào
- Action: Bạn đã thực hiện các đầu việc đó ra sao
- Result: Kết quả của bài phân tích, có đạt được mục đích hay không, có được ứng dụng trong thực tế không, tính chính xác của kết quả phân tích,…
Chia sẻ một số tình huống xảy ra trong quá trình thực hiện dự án đó, ví dụ mô tả các tình huống gặp khó khăn/vướng mắc, và bạn đã làm gì để vượt qua và bài học bạn rút ra là gì để quá trình phân tích sau đó không gặp phải những khó khăn đó.
- Bạn gần kết thúc quá trình phân tích thì phát hiện có sai sót trong bước chuẩn bị dữ liệu: sai dataset, xác định relationship giữa các bảng sai,…
- Bạn gặp khó khăn trong việc đưa ra recommendation do thiếu kiến thức về domain
- …
Câu hỏi chuyên môn về phân tích dữ liệu
Các câu hỏi này biến thiên và không thể xác định trước được. Tuy nhiên bạn có thể dựa đoán bằng cách đọc kĩ JD để nắm rõ vị trí sẽ yêu cầu tập trung nhiều vào bước nào trong quá trình phân tích và nắm rõ quá trình bạn thực hiện các dự án bạn đã chia sẻ phía trên.
Bạn có thể được hỏi về các kỹ thuật làm sạch dữ liệu (ví dụ với dữ liệu bị thiếu thì bạn sẽ bổ sung dữ liệu bằng cách nào), kỹ thuật khám phá dữ liệu (ví dụ bạn sẽ khám phá các khía cạnh nào của một tập dữ liệu), cách triển khai một kỹ thuật phân tích (ví dụ bạn đã thiết kế A/B Testing như nào), cách đánh giá hiệu quả của kết quả phân tích (ví dụ bạn lựa chọn các chỉ số nào để đo lường tính chính xác của một mô hình dự đoán hồi quy tuyến tính),…
Ngoài ra, bạn có thể sẽ gặp các câu hỏi về quá trình cập nhật về ngành:
- Làm thế nào để bạn đảm bảo mình có thể cập nhật các công nghệ và kiến thức mới nhất? Ví dụ bạn có thể chia sẻ rằng học hỏi từ cộng đồng người trong ngành bằng cách tham gia các forum trên Reddit, các cuộc thi thi trên Kaggle, tham gia các khóa học trực tuyến ngắn hạn, tạo networking qua LinkedIn,…
Câu hỏi tổng kết
Đây là các câu hỏi nhà tuyển dụng đặt ra để kết thúc buổi phỏng vấn và đảm bảo có cái nhìn toàn diện ngoài khía cạnh chuyên môn của bạn.
- Bạn có thể được hỏi về mục tiêu nghề nghiệp của bạn, cách bạn đang lập kế hoạch và thực hiện nó để tiến tới mục tiêu đó.
- Mục tiêu ngắn hạn trong 6 tháng – 1 năm và mục tiêu dài hạn từ 3-5 năm của bạn là gì?
- Lựa chọn mô tả cá nhân bằng ba tính từ
- Điều gì bạn nghĩ bạn sẽ phù hợp với công ty và ngược lại?
- Bạn tìm kiếm điều gì ở một môi trường làm việc và vị trí công việc tiếp theo?
- …
Trong phần này, đừng quên đặt ra những câu hỏi để nhà tuyển dụng thấy những mối quan tâm và kỳ vọng của bạn về lộ trình phát triển bên cạnh các chế độ đãi ngộ nhé!
Kết luận
Chúc mừng, vậy bạn đã có đủ hành trang để ứng tuyển cho vị trí Data Analyst với level beginner! Bạn đã có đủ tự tin để bấm nút Apply chưa?
Khi mà yêu cầu về nhân sự ngày càng cao và số lượng ứng viên cho một vị trí Fresher/Junior không ngừng tăng, việc có một nền tảng kiến thức vững chắc, cùng sự “dẫn dắt” từ các anh chị Senior với nhiều năm kinh nghiệm sẽ là những bước đệm vững chắc để bạn “vững bước” vào ngành Data. Tham khảo ngay lộ trình vào ngành Data được gợi ý bởi TM Data School nhé!
Lộ trình được thiết kế đáp ứng đầy đủ nhu cầu kĩ năng của một Data Analyst: từ “tạo số” đến “đọc số + dự đoán” để tìm ra insight, phục vụ cho quá trình ra quyết định chiến lược, giúp bạn tự tin đảm nhiệm các vai trò khác nhau trong quy trình ứng dụng dữ liệu trong doanh nghiệp.
Bên cạnh đó, các khóa học đều được thiết kế xen kẽ case study để bạn có thể vừa “học” vừa “hành”, song song với các Master Class hỗ trợ cựu học viên áp dụng kiến thức vào các domain và bài toán cụ thể của doanh nghiệp, chắc chắn sẽ giúp việc học bớt tính khô khan, khó nhớ, làm sáng portfolio và tăng cơ hội cho các bạn beginner.
Tham khảo lộ trình học Data Analyst cho người mới bắt đầu tại đây.
Bài viết được tổng hợp và biên dịch bởi Tomorrow Marketers, xin vui lòng không sao chép dưới mọi hình thức!