Trực Quan Hóa Dữ Liệu Với ChatGPT: Học Nhanh 6 Loại Biểu Đồ Phổ Biến (Phần 2: BĐ Thống Kê)

Bạn nghĩ là mình đã “nắm trọn” thế giới biểu đồ sau khi tìm hiểu biểu đồ cột, biểu đồ đường và biểu đồ tròn trong bài viết trước? Nhầm rồi nha, đó mới chỉ là bề nổi. Phần dữ liệu hay ho nhất thường nằm ẩn sâu bên trong, và chỉ xuất hiện khi bạn biết cách dùng những biểu đồ thống kê nâng cao.

Linh đã từng bỏ qua những biểu đồ này vì nghĩ chúng phức tạp và ít dùng. Nhưng rồi Linh nhận ra: chính chúng mới là “chiếc kính hiển vi” giúp bạn phát hiện xu hướng tinh vi, mối quan hệ ẩn, và những điểm bất thường mà các biểu đồ cơ bản không thể hiện hết.

Trong bài viết hôm nay, chúng ta sẽ khám phá 3 loại biểu đồ mà dân phân tích dữ liệu chuyên nghiệp cực kỳ yêu thích: biểu đồ phân tán scatter plot, biểu đồ phân bố histogram, và biểu đồ hộp box plot. Chúng không chỉ đẹp mắt khi vẽ bằng ChatGPT, mà còn mở ra vô số insight có thể thay đổi hoàn toàn cách bạn nhìn dữ liệu và ra quyết định.

Nếu bạn muốn biến dữ liệu thành những câu chuyện có chiều sâu khiến người xem phải gật gù, thì đừng bỏ lỡ giây nào của tập này.

Skills Bridge

09/10/2025

1. Biểu Đồ Phân Tán (Scatter Plot)

Để bạn theo dõi hiệu quả hơn, Linh đã chuẩn bị sẵn một file dữ liệu mẫu, mang tên AI Job Dataset. Các bạn thấy hơi quen đúng không? Đúng rồi, đây là file mà chúng ta đã thực hành trong các bài trước. 

Cho bạn nào chưa biết, đây là bảng thống kê việc làm trong ngành AI trên khắp thế giới, bao gồm mức lương, vị trí công việc, kỹ năng yêu cầu, và nhiều yếu tố liên quan. File này mô tả rất sát những loại dữ liệu bạn sẽ gặp khi phân tích nhân sự, tuyển dụng hoặc nghiên cứu thị trường lao động thực tế. Bây giờ chúng ta sẽ bắt đầu nha.

Biểu đồ phân tán, hay Scatter plot, là một loại biểu đồ mà Linh ít dùng hơn trong công việc hằng ngày, nhưng khi dùng thì cực kỳ đáng giá. Nó không giống những biểu đồ ở bài trước là chỉ tập trung vào một biến hay một chiều dữ liệu, mà ở đây Linh đang nói tới mối quan hệ giữa hai biến số, và thường là HAI BIẾN SỐ DẠNG SỐ. Nghĩa là, bạn muốn biết: KHI BIẾN A TĂNG, THÌ BIẾN B CÓ TĂNG THEO KHÔNG? CÓ GÌ ĐÓ LIÊN QUAN GIỮA CHÚNG KHÔNG?

Biểu đồ phân tán (Scatter Plot)

Ví dụ cụ thể luôn nha. Trong bộ dữ liệu mà Linh đang dùng, có một cột là số năm kinh nghiệm, một cột khác là mức lương. Nghe quen đúng không? Hai cột này là ứng viên sáng giá để đưa vào biểu đồ phân tán, vì mình muốn xem có mối quan hệ nào giữa số năm kinh nghiệm và mức lương không. Mình có thể đoán trước là càng có nhiều kinh nghiệm thì lương sẽ cao hơn. Nhưng đoán thôi thì chưa đủ, bạn cần dữ liệu chứng minh, và biểu đồ phân tán là cách nhanh nhất để kiểm chứng điều đó.

Khi biểu đồ được tạo, mỗi chấm là một điểm dữ liệu, tức là một bài đăng tuyển dụng hoặc một cá nhân với một mức lương cụ thể và một số năm kinh nghiệm nhất định. Nếu các điểm dữ liệu bắt đầu xếp thành một đường đi lên, mình có thể nói rằng có mối tương quan dương. Nếu các chấm tỏa ra lung tung không theo quy luật gì, có thể là không có mối quan hệ rõ ràng nào cả.

Linh thường kết hợp biểu đồ phân tán với việc vẽ thêm đường hồi quy hoặc một đường xu hướng để hỗ trợ việc nhìn xu hướng chung. ChatGPT làm chuyện này khá tốt. Bạn chỉ cần thêm một dòng là có ngay đường thẳng giúp mình hình dung dễ hơn. ChatGPT cũng hỗ trợ phần này nếu bạn đưa yêu cầu rõ ràng trong prompt, ví dụ như “Vẽ biểu đồ phân tán giữa salary_usd và years_experience, thêm đường hồi quy.”

Biểu đồ phân tán kết hợp đường hồi quy

Điều Linh muốn lưu ý là biểu đồ phân tán chỉ thực sự hữu ích khi cả hai biến số có ý nghĩa và dữ liệu đủ nhiều để tạo ra hình thù rõ ràng. Nếu bạn chỉ có vài điểm dữ liệu thì biểu đồ nhìn sẽ khá trống, còn nếu dữ liệu bị trùng hoặc rối thì cũng khó thấy gì rõ ràng. Thêm nữa là biểu đồ này sẽ không có ích nếu một trong hai biến là danh mục, ví dụ như tên chức danh. Trường hợp này thì bạn nên dùng biểu đồ hộp, là loại biểu đồ mà chúng ta sẽ học trong những phần sắp tới.

Tóm lại, biểu đồ phân tán là lựa chọn tuyệt vời khi bạn đang tìm mối liên hệ giữa hai yếu tố dạng số. Ví dụ kinh nghiệm và lương, số lượt truy cập và doanh thu, hoặc số giờ học và điểm thi. Chỉ cần chọn đúng biến và để dữ liệu lên tiếng, bạn sẽ có thêm rất nhiều góc nhìn mà các loại biểu đồ khác không thể hiện được. Và nhớ nha, nếu bạn chưa biết nên bắt đầu từ đâu, hay chọn cặp số nào để so sánh, thì cứ copy toàn bộ tên cột rồi dán vào ChatGPT, và nhờ nó gợi ý.

Tiếp theo, Linh sẽ giới thiệu một loại biểu đồ rất hay dùng để phân tích phân bố dữ liệu. Đó là histogram, hay còn gọi là biểu đồ phân bố. Cái tên nghe hơi kỹ thuật một chút, nhưng Linh đảm bảo khi bạn thấy nó hoạt động thì sẽ thấy thích ngay.

2. Biểu Đồ Phân Bố (Histogram)

Histogram hay còn gọi là biểu đồ phân bố là một trong những công cụ mạnh mẽ nhất để hiểu rõ dữ liệu số. Nếu bạn muốn biết dữ liệu của mình có đang tập trung ở đâu, có trải đều hay không, hay có những giá trị nào xuất hiện thường xuyên nhất, thì đây là loại biểu đồ bạn nên dùng. Linh thường dùng histogram khi cần xem nhanh phân bố của các biến số như lương, độ tuổi, thời gian làm việc, hay bất cứ thứ gì mang tính liên tục.

Biểu đồ phân bố (Histogram)

Giải thích đơn giản thì histogram chia toàn bộ dải giá trị thành từng khoảng nhỏ, ví dụ như từ 0 đến 50, 51 đến 100, 101 đến 150, rồi đếm xem trong mỗi khoảng đó có bao nhiêu giá trị. Kết quả là mình có những cột nằm cạnh nhau, mỗi cột đại diện cho một khoảng giá trị và chiều cao của cột thể hiện tần suất. Cột nào cao thì có nhiều dữ liệu nằm trong khoảng đó.

Linh lấy ví dụ luôn nha. Trong dữ liệu tuyển dụng việc làm AI, phần lớn các vị trí có mức lương năm rơi vào một khoảng nhất định. Vậy nên Linh sẽ lấy cột salary_usd và tạo một histogram để xem mức lương phổ biến nằm ở đâu. Khi biểu đồ hiện ra, mình thấy rõ ràng một đỉnh cao quanh khoảng 70.000 đến 150.000 USD, nghĩa là đa số mức lương năm tập trung ở khoảng này.

Biểu đồ phân bố mức lương phổ 

Điều thú vị là khi nhìn kỹ, đôi khi histogram còn cho thấy nhiều hơn một đỉnh. Ví dụ một cụm ở mức thấp hơn, một cụm ở mức cao hơn, khiến mình đặt câu hỏi ngay: tại sao lại có hai nhóm như vậy? Có phải một nhóm là vị trí Junior, còn nhóm kia là Senior hoặc chuyên gia không?

Từ histogram này, Linh cũng bắt đầu phân tích sâu hơn. Chẳng hạn tách theo chức danh công việc hoặc ngành nghề để xem phân bố khác nhau ra sao giữa các nhóm. Điểm hay là histogram không chỉ cho bạn bức tranh tổng thể, mà còn kích thích tư duy phản biện. Khi thấy có điều gì bất thường, bạn sẽ muốn tìm hiểu thêm. Và đây là cách phân tích dữ liệu nên diễn ra.

Linh thường thêm đường trung bình và độ lệch chuẩn vào histogram để dễ hình dung hơn. Đường trung bình là đường đỏ nằm ở vị trí giá trị trung tâm, còn hai đường cam hai bên thể hiện một độ lệch chuẩn so với trung bình. Nếu dữ liệu phân bố chuẩn, hình dáng biểu đồ sẽ giống cái chuông; còn nếu bị lệch, chẳng hạn do có mức lương quá cao, đường cong sẽ kéo dài về phía đó.

Biểu đồ phân bố kết hợp đường trung bình và độ lệch chuẩn

Khi Linh tính toán, khoảng 74% dữ liệu lương nằm trong phạm vi ±1 độ lệch chuẩn. Điều này cho thấy phần lớn mức lương tập trung quanh giá trị trung bình, nhưng vẫn tồn tại một số ngoại lệ rất cao, có thể lên đến gần 400,000 đô la Mỹ USD/năm. Những điểm ngoại lệ này không bị bỏ qua, mà sẽ được kiểm tra kỹ hơn bằng biểu đồ hộp để hiểu rõ nguyên nhân.

Như các bạn có thể thấy, histogram không chỉ để nhìn đẹp, mà còn là cánh cửa đầu tiên dẫn bạn đến những câu hỏi quan trọng hơn. Cuối cùng, hãy tìm hiểu biểu đồ hộp.

3. Biểu Đồ Hộp (Box Plot / Box-And-Whisker Plot)

Biểu đồ hộp là một trong những công cụ Linh yêu thích nhất khi muốn hiểu sâu hơn về dữ liệu, đặc biệt là khi so sánh giữa nhiều nhóm khác nhau. Lúc mới học, Linh thấy biểu đồ này hơi khó hiểu một chút vì nó không trực quan như biểu đồ cột hay đường, nhưng khi hiểu rồi thì thấy nó cực kỳ mạnh mẽ. Biểu đồ hộp giống như cái kính lúp phóng to chi tiết bên trong dữ liệu, cho mình thấy không chỉ trung bình  vị mà còn là độ phân tán, sự lệch, và cả các giá trị bất thường của dữ liệu.

Biểu đồ hộp (Box plot)

Biểu đồ hộp thường được gọi là box plot, đôi khi còn có thêm cái tên vui vui là “box-and-whiskers plot” vì hình dạng của nó giống như một cái hộp có hai cái râu thú hai bên. Ở giữa hộp là đường median – tức là trung vị, chia dữ liệu thành hai nửa. Hai cạnh của hộp thể hiện phân vị thứ 25 và 75, nghĩa là phần lớn dữ liệu sẽ nằm trong cái hộp này. Còn hai cái râu là khoảng mà dữ liệu vẫn còn nằm trong phạm vi chấp nhận được, và nếu có những điểm nằm ngoài râu thì đó là những giá trị ngoại lệ.

Các thành phần chính trong biểu đồ hộp

Linh lấy ví dụ nha. Vẫn là dữ liệu lương, nhưng lần này Linh tạo một biểu đồ hộp để so sánh giữa ba nhóm quy mô công ty: Small (S), Medium (M) và Large (L). Khi biểu đồ hiện ra, mình dễ dàng thấy sự khác biệt: nhóm Large có mức trung vị (median) cao nhất và hộp cũng rộng nhất, nghĩa là mức lương biến động nhiều hơn, với khá nhiều giá trị ngoại lệ ở mức rất cao. Nhóm Small có mức trung vị thấp nhất và hộp hẹp hơn so với nhóm Lớn, cho thấy mức độ phân tán ít hơn, nhưng vẫn tồn tại một vài giá trị ngoại lệ.

Biểu đồ hộp so sánh mức lương giữa ba nhóm quy mô công ty

Điều Linh thích ở biểu đồ hộp là nó cho mình biết ngay khoảng 50% dữ liệu (phần trong hộp) nằm ở đâu, mức trung vị là bao nhiêu, và có giá trị ngoại lệ nào không. Những điểm nằm ngoài râu là dấu hiệu có giá trị ngoại lệ, có thể chỉ ra là có một vài tin tuyển dụng đặc biệt với mức lương vượt trội, hoặc dữ liệu bị nhập sai. Trong thực tế, đây là những tín hiệu quan trọng để phát hiện vấn đề hay cơ hội xuất hiện.

Biểu đồ hộp đặc biệt hữu ích khi so sánh nhiều nhóm cùng lúc. Nếu dùng biểu đồ cột hoặc biểu đồ tần suất cho từng nhóm sẽ dễ bị rối, nhưng chỉ cần vẽ vài biểu đồ hộp cạnh nhau là bạn có thể thấy ngay nhóm nào trả cao hơn, nhóm nào ổn định, nhóm nào biến động nhiều. Chỉ cần đưa yêu cầu rõ ràng cho ChatGPT như “Dựa vào bảng số liệu ban đầu, vẽ box plot lương theo quy mô công ty” là vài giây sau bạn đã nhận được ngay kết quả trực quan.

Linh cũng thường đặt biểu đồ hộp phía trên một histogram để có cái nhìn tổng thể và chi tiết cùng lúc. Histogram giúp bạn hiểu phân bố, còn biểu đồ hộp giúp bạn hiểu cấu trúc bên trong và so sánh giữa các nhóm. Khi hai biểu đồ kết hợp, câu chuyện dữ liệu trở nên rõ ràng hơn rất nhiều.

4. Bạn Đã Có Trong Tay “Bộ Công Cụ Kép”

Vậy là chúng ta vừa khám phá xong 3 loại biểu đồ thống kê nâng cao: biểu đồ phân tán, histogram và biểu đồ hộp. Có thể ban đầu bạn thấy chúng phức tạp hơn nhiều so với biểu đồ cột, biểu đồ đường hay biểu đồ tròn. Nhưng chính những biểu đồ này lại mở ra cho bạn nhiều insight đắt giá. Từ việc phát hiện xu hướng ẩn, nhận diện ngoại lệ, cho đến hiểu rõ hơn cách dữ liệu phân bố.

Điều quan trọng là giờ đây bạn đã có trong tay “bộ công cụ kép”: 3 biểu đồ cơ bản để kể câu chuyện nhanh, rõ ràng, và 3 biểu đồ nâng cao để nhìn sâu và tìm ra những chi tiết mà người khác dễ bỏ lỡ. Khi kết hợp cả hai, bạn không chỉ trình bày dữ liệu đẹp mắt, mà còn tạo ra những phân tích sắc bén, thuyết phục và đáng tin cậy.

Việc dùng AI để ghi chép cuộc họp không còn là điều quá xa lạ. Nhưng làm sao chọn đúng công cụ và khai thác để tối ưu hiệu suất mới là bí quyết tạo khác biệt. Đó cũng chính là điều bạn sẽ khám phá trong AI Productivity - khóa học giúp bạn X10 hiệu suất làm việc với AI.

ìm hiểu và đăng ký khoá học nàTẠI ĐÂY nhé!

Khóa học AI Productivity giúp bạn tối ưu hiệu suất công việc gấp 10 lần

5. Lời Kết

Linh biết bạn có thể chưa thấy mình giỏi dữ liệu hay chưa đủ tự tin với việc trực quan hóa dữ liệu. Nhưng Linh tin, chỉ cần bạn bắt đầu từ việc đơn giản như làm theo các bước thực hành mà Linh đã hướng dẫn ở trên, với file dữ liệu AI Job Dataset, thì bạn đang học ngôn ngữ của tương lai. Một ngôn ngữ không ai dạy ở trường, nhưng lại rất cần trong công việc và sự nghiệp của bạn. Các bạn hãy tải về và thực hành nha.

👉 Tìm hiểu khóa học ngay tại đây!

#SkillsBridge

#CongcuAI

#UngdungAI

Mục lục

Đọc tiếp

Nâng cao hiệu suất
Sep 25, 2025
Nâng cao hiệu suất
Sep 16, 2025

Đừng bỏ lỡ

Nâng cao hiệu suất
Oct 09, 2025
Nâng cao hiệu suất
Oct 06, 2025
Nâng cao hiệu suất
Oct 03, 2025
Nâng cao hiệu suất
Oct 02, 2025

Xem thêm

Skills Bridge cung cấp chương trình đào tạo giúp cá nhân và doanh nghiệp nâng cao kỹ năng chuyên môn, lãnh đạo và xây dựng thành công. Đội ngũ chuyên gia giàu kinh nghiệm tại đây mang đến các kỹ năng và công cụ thực tế, áp dụng ngay vào công việc hàng ngày.

Theo dõi Skills Bridge tại

Thanh toán an toàn với

Liên hệ

Email: info@skillsbridge.vn

Chăm sóc khách hàng: 090.233.5354

Tư vấn khách hàng cá nhân: 090.977.0085

© 2025 - Bản quyền của Công ty TNHH Skills Bridge

Mã số doanh nghiệp: 0317402205

Ngày cấp: 26/07/2022

Nơi cấp: Sở Kế Hoạch và Đầu Tư thành phố Hồ Chí Minh