screenshot_20220824_231524.990
Đăng ký | Đăng nhập

Email / Điện thoại

Mật khẩu

Nhớ mật khẩu | Quên mật khẩu

Big Data - giới thiệu về dữ liệu lớn

 

Như đã được đề cập, Big Data (dữ liệu lớn) là tập hợp dữ liệu có dung lượng vượt mức đảm đương của những ứng dụng và công cụ truyền thống. Kích cỡ của Big Data đang từng ngày tăng lên, và tính đến nay thì nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu.

Theo công ty nghiên cứu Gartner, một tập Dữ liệu lớn (Big data) cần được mô tả bằng ba chiều: tăng về lượng (Volume), tăng về vận tốc (Velocity) và tăng về chủng loại (Variety). Theo thời gian, đã có thêm 2 chữ “V” nữa được chấp nhận rộng rãi là Veracity (độ tin cậy) và Value (giá trị). 

Đến năm 2012, Gartner bổ sung một số nội dung và đi đến định nghĩa như sau: Big Data là những tài sản thông tin đa dạng, có dung lượng lớn và tốc độ cao. Và, các tài sản thông tin này đòi hỏi những nền tảng công nghệ mới, ít tốn kém trong việc xử lý, giúp con người cải thiện việc ra quyết định, nâng caquá trình phân tích và tối ưu hóa việc xử lý dữ liệu. 

Dữ liệu lớn có 5 đặc trưng cơ bản như sau: 

  1. Khối lượng dữ liệu (volume)

Đây là đặc điểm tiêu biểu nhất của dữ liệu lớn, chính là khối lượng dữ liệu lớn. Kích cỡ của Big Data đang từng ngày tăng lên, và tính đến năm 2012 thì nó nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu. Dữ liệu truyền thống có thể lưu trữ trên các thiết bị đĩa mềm, đĩa cứng. Nhưng với dữ liệu lớn chúng ta sẽ sử dụng công nghệ "đám mây" mới đáp ứng khả năng lưu trữ được dữ liệu lớn. 

  1. Tốc độ (velocity)

Tốc độ có thể hiểu theo 2 khía cạnh: một là, Khối lượng dữ liệu gia tăng rất nhanh (mỗi giây có tới 72.9 triệu các yêu cầu truy cập tìm kiếm trên web bán hàng của Amazon); hai là Xử lý dữ liệu nhanh ở mốc thời gian thực (real-time), có nghĩa dữ liệu được xử lý ngay tức thời ngay sau khi chúng phát sinh (tính đến bằng mili giây). Các ứng dụng phổ biến trên lĩnh vực internet, tài chính, ngân hàng, hàng không, quân sự, y tế - sức khỏe như hiện nay phần lớn dữ liệu được xử lý real-time. Công nghệ xử lý dữ liệu lớn ngày nay đã cho phép chúng ta xử lý tức thời trước khi chúng được lưu trữ vào cơ sở dữ liệu. 

  1. Đa dạng (variety)

Đối với dữ liệu truyền thống chúng ta hay nói đến dữ liệu có cấu trúc, thì ngày nay hơn 80% dữ liệu được sinh ra là phi cấu trúc (tài liệu, blog, hình ảnh, video, bài hát, dữ liệu từ thiết bị cảm biến vật lý, thiết bị chăm sóc sức khoẻ…). Big data cho phép liên kết và phân tích nhiều dạng dữ liệu khác nhau. Ví dụ, với các bình luận của một nhóm người dùng nào đó trên Facebook với thông tin video được chia sẻ từ Youtube và Twitter. 

  1. Độ tin cậy/chính xác (veracity)

Một trong những tính chất phức tạp nhất của dữ liệu lớn là độ tin cậy/chính xác của dữ liệu. Với xu hướng phương tiện truyền thông xã hội và mạng xã hội ngày nay và sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người dùng mobile làm cho bức tranh xác định về độ tin cậy và chính xác của dữ liệu ngày một khó khăn hơn. Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất quan trọng của Big data. 

  1. Giá trị (value)

Giá trị là đặc điểm quan trọng nhất của dữ liệu lớn, vì khi bắt đầu triển khai xây dựng dữ liệu lớn thì việc đầu tiên chúng ta làm đó là xác định được giá trị của thông tin mang lại như thế nào, khi đó chúng ta mới có quyết định có nên triển khai dữ liệu lớn hay không. Nếu chúng ta có dữ liệu lớn mà chỉ nhận được 1% lợi ích từ nó, thì không nên đầu tư phát triển dữ liệu lớn. Kết quả dự báo chính xác thể hiện rõ nét nhất về giá trị của dữ liệu lớn mang lại. Ví dụ, từ khối dữ liệu phát sinh trong quá trình khám, chữa bệnh sẽ giúp dự báo về sức khỏe được chính xác hơn, sẽ giảm được chi phí điều trị và các chi phí liên quan đến y tế" 

Thuật ngữ Big Data được đề cập nhiều trong 5 năm trở lại đây, tuy nhiên một định nghĩa chính xác về thế nào là Big data vẫn còn chưa rõ ràng & cụ thể. Khái niệm này vẫn còn đang phát triển, và nó được coi là nhân tố chủ đạo, trung tâm của các làn sóng chuyển đổi số, trí tuệ nhân tạo, khoa học dữ liệu và Internet kết nối vạn vật (IoTs). 

Box: 

“Big Data – Giới thiệu về dữ liệu lớn” là một trong 20 chuyên đề thuộc chương trình đào tạo trực tuyến của Trung tâm Hỗ trợ DNNVV phía Bắc (thuộc Cục Phát triển doanh nghiệp, Bộ Kế hoạch và Đầu tư). Chương trình được ngân sách nhà nước hỗ trợ 100% kinh phí. Tìm hiểu thêm về các chuyên đề và đăng ký tham dự miễn phí tại đây: https://vietnamsme.gov.vn/elearning/ 

Phương Anh

In bài viết
banner_hcm_02min
Trang Thông Tin:taichinhthoidaiso

Chưa cập nhật

Liên hệ quảng cáo & viết bài:0908630543- Email:[email protected]

Chưa cập nhật

G