Professional Documents
Culture Documents
I. INTRODUCTION
Sự phát triển nhanh chóng của dữ liệu lớn và IoT ảnh hưởng đến tất cả các lĩnh vực
công nghệ và doanh nghiệp bằng cách tăng lợi ích cho các tổ chức và cá nhân. Sự
tăng trưởng của dữ liệu thông qua IoT có đóng một vai trò quan trọng trong bối
cảnh dữ liệu lớn. Dữ liệu lớn có thể được phân loại theo ba khía cạnh:
khối lượng.
đa dạng.
vận tốc. [1]
Những loại này được giới thiệu bởi Gartner để mô tả các yếu tố của dữ liệu
lớn [2]. Cơ hội to lớn được trình bày bởi khả năng phân tích và sử dụng lượng dữ
liệu khổng lồ, bao gồm các ứng dụng trong thành phố thông minh, giao thông
thông minh, hệ thống lưới điện, đồng hồ năng lượng thông minh và chăm sóc sức
khỏe bệnh nhân qua thiết bị giám sát từ xa. Sự phổ biến rộng rãi của IoT đã khiến
cho việc phân tích dữ liệu lớn trở nên khó khăn vì quá trình xử lý và thu thập dữ
liệu thông qua các cảm biến khác nhau trong môi trường IoT. Báo cáo của
International Data Corporation (IDC) chỉ ra thị trường dữ liệu lớn sẽ đạt hơn 125 tỷ
USD vào năm 2019 [3] . Phân tích dữ liệu lớn và IoT có thể được định nghĩa là các
bước trong đó một loạt dữ liệu IoT được kiểm tra [4] để tiết lộ xu hướng, mô hình,
và thông tin mới [5] . Các công ty và cá nhân có thể hưởng lợi từ phân tích lượng
lớn dữ liệu và quản lý số lượng lớn thông tin có thể ảnh hưởng đến doanh nghiệp
[6].
Do đó, phân tích dữ liệu lớn và IoT nhằm mục đích hỗ trợ các hiệp hội kinh
doanh và các tổ chức khác để đạt được sự hiểu biết, được cải thiện vềdữ liệu, do đó
sẽ đưa ra quyết định hiệu quả và đầy đủ thông tin. Phân tích dữ liệu lớn cho phép
các nhà khai thác dữ liệu và nhà khoa học phân tích lượng lớn dữ liệu phi cấu trúc
có thể được khai thác, sử dụng các công cụ truyền thống [5]. Hơn nữa, phân tích
dữ liệu lớn nhằm mục đích để ngay lập tức trích xuất thông tin có ý nghĩa bằng
cách sử dụng kỹ thuật khai thác dữ liệu giúp đưa ra dự đoán, xác định xu hướng
gần đây, tìm thông tin ẩn và thực hiện quyết định [7]. Kỹ thuật khai thác dữ liệu
được triển khai rộng rãi cho cả hai phương pháp cụ thể vấn đề và phân tích dữ liệu
tổng quát.
Theo đó, phương pháp thống kê và học máy là được tận dụng. Dữ liệu IoT
khác với dữ liệu lớn thông thường về đặc điểm vì sự khác nhau về cảm biến và các
đối tượng liên quan trong quá trình thu thập dữ liệu, trong đó bao gồm sự không
đồng nhất, tiếng ồn, sự đa dạng và tăng trưởng nhanh chóng. Thống kê [8] cho
thấy số lượng cảm biến sẽ được tăng lên 1 nghìn tỷ vào năm 2030. Mức tăng này
sẽ ảnh hưởng đến tăng trưởng dữ liệu lớn. Giới thiệu phân tích dữ liệu và IoT vào
dữ liệu lớn đòi hỏi nguồn lực lớn và IoT có khả năng cung cấp một giải pháp tuyệt
vời. Nguồn lực phù hợp và các ứng dụng chuyên sâu được cung cấp bởi các dịch
vụ IoT cho giao tiếp hiệu quả giữa các ứng dụng được triển khai.
Quá trình này phù hợp để thực hiện các yêu cầu về các ứng dụng IoT và có thể
giảm một số thách thức trong tương lai của phân tích dữ liệu lớn. Sự hợp nhất công
nghệ này tăng khả năng triển khai IoT theo hướng tốt hơn. Hơn nữa, việc triển khai
IoT và các giải pháp tích hợp dữ liệu lớn có thể giúp giải quyết các vấn đề về lưu
trữ, xử lý, phân tích dữ liệu và các công cụ trực quan. Nó cũng có thể hỗ trợ cải
thiện sự hợp tác và giao tiếp giữa nhiều người, các đối tượng trong một thành phố
thông minh [9] . Các lĩnh vực ứng dụng, chẳng hạn như môi trường sinh thái thông
minh, giao thông thông minh, lưới điện thông minh, các tòa nhà thông minh, và
quản lý thông minh, có thể có lợi từ sự sắp xếp nói trên. Nhiều nghiên cứu về dữ
liệu lớn đã tập trung vào quản lý dữ liệu lớn; đặc biệt, phân tích dữ liệu lớn đã
được khảo sát [10] [11] . Tuy nhiên, khảo sát này tập trung vào dữ liệu lớn của IoT
trong bối cảnh phân tích một lượng lớn dữ liệu. Những đóng góp của khảo sát này
là như sau:
Những nỗ lực nghiên cứu tiên tiến được thực hiện trên phương diện
phân tích dữ liệu lớn được xem xét.
Một kiến trúc cho các phân tích dữ liệu lớn và IoT được đề xuất.
Một số cơ hội chưa từng có do dữ liệu mang lại
phân tích trong miền IoT được giới thiệu.
Các trường hợp sử dụng đáng tin cậy được trình bày.
Những thách thức nghiên cứu vẫn còn phải giải quyết là
xác định và thảo luận.
II. OVERVIEW OF IOT AND BIG DATA
A/ IOT
IoT cung cấp một nền tảng cho các cảm biến, thiết bị giao tiếp trong một môi
trường thông minh và cho phép chia sẻ thông tin trên các nền tảng một cách thuận
tiện. Các thích ứng gần đây của các công nghệ IoT không dây khác nhau là công
nghệ mang tính cách mạng bằng cách hưởng lợi từ các cơ hội được cung cấp bởi
công nghệ Internet. IoT gần đây đã chứng kiến sự áp dụng của nó trong các thành
phố thông minh với sự quan tâm phát triển hệ thống thông minh, như văn phòng
thông minh, bán lẻ thông minh, nông nghiệp thông minh, giao thông thông minh,
chăm sóc sức khỏe thông minh và năng lượng thông minh [12] [13] . IoT đã nổi
lên như một xu hướng mới trong vài năm qua, nơi thiết bị di động, phương tiện vận
chuyển, các cơ sở công cộng, và các thiết bị gia dụng đều có thể được sử dụng như
thiết bị thu thập dữ liệu trong IoT.
Tất cả xung quanh thiết bị điện tử để tạo điều kiện cho các hoạt động cuộc sống
hàng ngày, như đồng hồ đeo tay, máy bán hàng tự động, báo động khẩn cấp, nhà
để xe, cửa ra vào, cũng như các thiết bị gia dụng như tủ lạnh, lò vi sóng, điều hòa
không khí, và máy nước nóng đều kết nối với mạng IoT và có thể được điều khiển
từ xa. Ciufo [14] nói rằng các thiết bị này nói chuyện với nhau và với các thiết bị
điều khiển trung tâm. Các thiết bị như vậy được triển khai trong các lĩnh vực khác
nhau có thể thu thập các loại dữ liệu, chẳng hạn như địa lý, thiên văn, môi trường.
Một số lượng lớn các thiết bị truyền thông trong mô hình IoT được nhúng vào các
thiết bị cảm biến trong thế giới thực. Thiết bị thu thập dữ liệu cảm nhận dữ liệu và
truyền các dữ liệu này bằng cách sử dụng các thiết bị truyền thông nhúng. Tính
liên tục của các thiết bị và đối tượng được kết nối với nhau thông qua nhiều giải
pháp truyền thông, chẳng hạn như Bluetooth, WiFi, ZigBee, và GSM. Các thiết bị
truyền thông này truyền dữ liệu và nhận lệnh từ các thiết bị điều khiển từ xa, trong
đó cho phép tích hợp trực tiếp với thế giới vật lý thông qua hệ thống dựa trên máy
tính.
Hơn 50 tỷ thiết bị từ điện thoại thông minh, máy tính xách tay, cảm biến và
bảng điều khiển trò chơi được dự đoán sẽ được kết nối với Internet thông qua một
số mạng truy cập không đồng nhất được kích hoạt bởi các công nghệ. Chẳng hạn
như nhận dạng tần số radio (RFID) và mạng cảm biến không dây[15] đã đề cập
rằng IoT có thể được công nhận trong ba mô hình: Định hướng Internet, cảm biến
và kiến thức [16] . Gần đây thích ứng với các công nghệ không dây khác nhau đặt
IoT là công nghệ cách mạng tiếp theo bằng cách hưởng lợi từ toàn bộ cơ hội được
cung cấp bởi công nghệ Internet.
B/ BIG DATA
Khối lượng dữ liệu được tạo ra bởi các cảm biến, thiết bị, xã hội phương tiện
truyền thông, ứng dụng chăm sóc sức khỏe, cảm biến nhiệt độ, và nhiều ứng dụng
phần mềm và thiết bị kỹ thuật số khác liên tục tạo ra một lượng lớn cấu trúc, phi
cấu trúc, hoặc dữ liệu bán cấu trúc đang tăng mạnh. Quá trình tạo dữ liệu khổng lồ
này dẫn đến ‘dữ liệu lớn’[17] . Hệ thống cơ sở dữ liệu truyền thống không hiệu
quả khi lưu trữ, xử lý và phân tích lượng dữ liệu tăng nhanh [18] . Thuật ngữ “dữ
liệu lớn” đã được sử dụng trong các tài liệu trước đây nhưng tương đối mới trong
kinh doanh và công nghệ thông tin [19] . Một ví dụ về các nghiên cứu liên quan
đến dữ liệu lớn là giới hạn tiếp theo cho đổi mới, cạnh tranh và năng suất, Viện
McKinsey toàn cầu [20] định nghĩa dữ liệu lớn là kích thước của tập dữ liệu một
công cụ hệ thống cơ sở tốt hơn các công cụ thông thường để thu thập, lưu trữ, xử lý
và phân tích dữ liệu đó[18] .
Các Nghiên cứu Vũ trụ Kỹ thuật số [21] ghi nhãn công nghệ dữ liệu lớn như
một thế hệ công nghệ và kiến trúc mới nhắm đến để lấy ra giá trị từ một khối lượng
dữ liệu khổng lồ với các định dạng khác nhau bằng cách cho phép khám phá và
phân tích tốc độ cao. Nghiên cứu trước đây cũng đặc trưng dữ liệu lớn thành ba
khía cạnh:
nguồn dữ liệu
phân tích dữ liệu,
trình bày kết quả phân tích.
Định nghĩa này sử dụng 3V từ (âm lượng, sự đa dạng, vận tốc) mô hình được
đề xuất bởi Beyer [2]. Mô hình nổi bật một xu hướng thương mại điện tử trong
quản lý dữ liệu phải đối mặt với những thách thức để quản lý khối lượng hoặc kích
thước của dữ liệu, nhiều loại hoặc các nguồn khác nhau của dữ liệu, vận tốc hoặc
tốc độ tạo dữ liệu. Một số nghiên cứu khai báo khối lượng là một đặc điểm chính
của dữ liệu lớn mà không có cung cấp một định nghĩa thuần túy [22]. Tuy nhiên,
các nhà nghiên cứu khác giới thiệu các đặc điểm bổ sung cho dữ liệu lớn, chẳng
hạn như tính xác thực, giá trị, tính biến đổi và độ phức tạp [23] [24]. Các mô hình
3V, hay các dẫn xuất của nó mô tả phổ biến nhất thuật ngữ “dữ liệu lớn”.
III. BIG DATA ANALYTICS
Phân tích dữ liệu lớn liên quan đến các quá trình tìm kiếm cơ sở dữ liệu, khai
thác và phân tích dữ liệu để cải thiện hiệu suất công ty [25] . Phân tích dữ liệu lớn
là quá trình kiểm tra bộ dữ liệu lớn [4] có chứa nhiều loại dữ liệu để biết mô hình,
tương quan ẩn, xu hướng thị trường, sở thích khách hàng và thông tin kinh doanh
hữu ích khác. [5]
Các khả năng phân tích dữ liệu lớn giúp tổ chức xử lý thông tin quan trọng có
thể ảnh hưởng đến doanh nghiệp [6] . Do đó, mục tiêu chính của phân tích dữ liệu
lớn là để hỗ trợ các hiệp hội kinh doanh được cải thiện sự hiểu biết về dữ liệu, và
do đó đưa ra quyết định về hiệu quả. Phân tích dữ liệu lớn đòi hỏi các công Phân
tích dữ liệu lớn cho phép các công cụ khai thác dữ liệu và các nhà khoa học phân
tích một khối lượng dữ liệu lớn, một khối lượng dữ liệu có thể không được khai
thác bằng các công cụ truyền thống [5] . Công cụ có thể biến đổi một lượng cấu
trúc lớn, phi cấu trúc và dữ liệu bán cấu trúc thành dữ liệu dễ hiểu hơn và định
dạng siêu dữ liệu cho các quá trình phân tích.
Các thuật toán được sử dụng trong các công cụ phân tích này phải khám phá
các mô hình, xu hướng, và mối tương quan qua nhiều thời gian trong dữ liệu [26].
Sau khi phân tích dữ liệu, các công cụ này trực quan hóa những dữ liệu cho việc
quyết định hiệu quả. Do đó, phân tích dữ liệu lớn là một thách thức đối với nhiều
ứng dụng vì độ phức tạp của dữ liệu và khả năng mở rộng của các thuật toán cơ
bản để hỗ trợ các quá trình [27]. Talia (2013) nhấn mạnh rằng có được thông tin
hữu ích từ phân tích dữ liệu lớn là một vấn đề quan trọng đòi hỏi phải mở rộng các
thuật toán và kỹ thuật phân tích để trả về đúng kết quả thời gian, trong khi các kỹ
thuật và thuật toán hiện tại không hiệu quả để xử lý các phân tích dữ liệu lớn. Do
đó, cơ sở hạ tầng lớn và các ứng dụng bổ sung là cần thiết để hỗ trợ dữ liệu song
song. Hơn nữa, các nguồn dữ liệu, chẳng hạn như dữ liệu tốc độ cao nhận được từ
các nguồn dữ liệu khác nhau, giúp tích hợp nhiều nguồn cho các giải pháp phân
tích quan trọng [28] . Do đó, thách thức tập trung vào hiệu suất của các thuật toán
hiện tại được sử dụng trong phân tích dữ liệu lớn [19]. Các quy trình phân tích dữ
liệu lớn tiêu tốn thời gian đáng kể để cung cấp phản hồi và hướng dẫn cho người
dùng, trong khi chỉ một vài công cụ [29] có thể xử lý các tập dữ liệu khổng lồ trong
thời gian xử lý hợp lý.
Ngược lại, hầu hết các công cụ còn lại sử dụng phương pháp thử nghiệm và
báo lỗi phức tạp để đối phó với số lượng lớn các tập dữ liệu và tính không đồng
nhất dữ liệu [30]. Hệ thống phân tích dữ liệu lớn tồn tại. Ví dụ phân tích thăm dò
[31] dữ liệu môi trường là một hệ thống phân tích trực quan dữ liệu lớn được sử
dụng để mô phỏng phân tích hệ thống trái đất với số lượng lớn các bộ dữ liệu.
A. EXISTING ANALYTICS SYSTEMS
Các loại phân tích khác nhau được sử dụng theo yêu cầu của các ứng dụng
IoT [32]. Những loại phân tích này là phân tích theo thời gian thực, ngoại tuyến,
cấp bộ nhớ, mức độ thông minh trong kinh doanh (BI) và phân loại cấp độ lớn.
Real-time analytics: Thường được thực hiện trên dữ liệu được thu thập từ các cảm
biến. Trong trường hợp này, dữ liệu thay đổi liên tục, các kỹ thuật phân tích dữ liệu
nhanh chóng được yêu cầu để có được một kết quả phân tích trong thời gian ngắn.
Do đó, hai kiến trúc hiện có đã được đề xuất để phân tích thời gian thực là:
các cụm xử lý song song sử dụng cơ sở dữ liệu, quan hệ truyền thống và nền tảng
điện toán dựa trên bộ nhớ [33]. Greenplum [34] và Hana [35] là những ví dụ về
kiến trúc phân tích thời gian thực.
Off-line analytics: Được sử dụng khi không có phản hồi nhanh [32]. Ví dụ, nhiều
doanh nghiệp Internet sử dụng kiến trúc phân tích ngoại tuyến dựa trên Hadoop để
giảm chi phí chuyển đổi định dạng dữ liệu [36]. Phân tích như vậy cải thiện hiệu
quả thu thập dữ liệu. Scribe [37], Kafka [38] , TimeTunnel [39] và Chukwa [40] là
những ví dụ về kiến trúc thực hiện phân tích ngoại tuyến và có thể đáp ứng nhu cầu
của thu thập dữ liệu.
Memory-level analytics: Được áp dụng khi kích thước của dữ liệu nhỏ hơn bộ
nhớ của cụm [32]. Đến nay, bộ nhớ của các cụm đã đạt đến mức terabyte (TB)
[41]. Do đó, một số công nghệ nội bộ đã được yêu cầu để cải thiện hiệu quả phân
tích. Phân tích cấp bộ nhớ cũng thích hợp để tiến hành phân tích thời gian thực.
MongoDB [42] là một ví dụ về kiến trúc này.
BI analytics: Được thông qua khi kích thước của dữ liệu lớn hơn mức bộ nhớ,
nhưng trong trường hợp này, dữ liệu có thể được nhập đến môi trường phân tích BI
[43]. Phân tích BI hiện tại hỗ trợ dữ liệu cấp độ TB (tera byte). [32]
Hơn nữa, BI có thể giúp khám phá cơ hội kinh doanh chiến lược từ dữ liệu.
Ngoài ra, phân tích BI cho phép dễ dàng giải thích khối lượng dữ liệu. Xác định
các cơ hội mới và thực hiện một chiến lược hiệu quả mang lại lợi thế cạnh tranh
trên thị trường và sự ổn định lâu dài.
Massive analytics: Được áp dụng khi kích thước của dữ liệu lớn hơn hơn toàn bộ
công suất của sản phẩm phân tích BI và cơ sở dữ liệu truyền thống [44]. Phân tích
cấp độ lớn sử dụng hệ thống tệp phân tán Hadoop để lưu trữ dữ liệu và ánh xạ / thu
nhỏ cho dữ liệu phân tích. Phân tích cấp độ lớn giúp tạo nền tảng kinh doanh và
tăng khả năng cạnh tranh trên thị trường bằng cách trích xuất ý nghĩa giá trị từ dữ
liệu.
Hơn nữa, các phân tích cấp độ lớn thu được dữ liệu chính xác thúc đẩy việc
đưa ra bất kỳ quyết định kinh doanh nào. Ngoài ra, phân tích cấp độ lớn cũng cung
cấp dịch vụ hiệu quả.
B. RELATIONSHIP BETWEEN IOT AND BIG DATA ANALYTICS
Phân tích dữ liệu lớn đang nhanh chóng nổi lên như một sáng kiến quan trọng
của IoT để cải thiện việc ra quyết định. Một trong những tính năng nổi bật nhất của
IoT là phân tích thông tin được kết nối về mọi thứ. Thông tin Phân tích dữ liệu lớn
trong IoT yêu cầu xử lý lượng dữ liệu lớn nhanh chóng và lưu trữ dữ liệu trong
nhiều công nghệ lưu trữ khác nhau. Do phần lớn dữ liệu phi cấu trúc được thu thập
trực tiếp từ các tương tác trên web, nên việc triển khai dữ liệu lớn sẽ đòi hỏi phải
thực hiện phân tích nhanh với các truy vấn lớn để cho phép các tổ chức hiểu nhanh,
đưa ra quyết định nhanh chóng và tương tác với mọi người, các thiết bị khác.
Sự kết nối của cảm biến và thiết bị kích hoạt cung cấp khả năng chia sẻ thông
tin trên các nền tảng thông qua kiến trúc hợp nhất và phát triển một bức tranh hoạt
động chung để cho phép đổi mới các ứng dụng. Hai công nghệ này đã được được
công nhận trong lĩnh vực công nghệ thông tin và kinh doanh. Mặc dù, phát triển dữ
liệu lớn đã bị chậm trễ, các công nghệ này phụ thuộc lẫn nhau nên được phát triển
chung. Nói chung, việc triển khai IoT làm tăng số lượng dữ liệu và chủng loại; do
đó, cung cấp cơ hội cho các ứng dụng và phát triển các phân tích dữ liệu lớn. Hơn
nữa, việc áp dụng các công nghệ dữ liệu lớn trong IoT đẩy nhanh tiến bộ nghiên
cứu và mô hình kinh doanh của IoT. Mối quan hệ giữa IoT và dữ liệu lớn được
hiển thị trong Hình 1, có thể được chia thành ba bước để kích hoạt quản lý dữ liệu
IoT. Bước đầu tiên bao gồm quản lý nguồn dữ liệu IoT, nơi các thiết bị cảm biến
được kết nối sử dụng các ứng dụng để tương tác với nhau. Ví dụ: tương tác của các
thiết bị như camera quan sát, giao thông thông minh, đèn chiếu sáng, và các thiết bị
nhà thông minh, tạo ra một lượng lớn nguồn dữ liệu với các định dạng khác nhau.
Dữ liệu này được lưu trữ trên đám mây. Trong bước thứ hai, dữ liệu được tạo ra
gọi là “dữ liệu lớn”, dựa trên khối lượng, vận tốc và sự đa dạng của chúng. Những
lượng dữ liệu khổng lồ này được lưu trữ ở các tệp dữ liệu lớn.
Bước cuối cùng áp dụng các công cụ phân tích như MapReduce, Spark,
Splunk và Skytree có thể phân tích bộ dữ liệu lớn IoT được lưu trữ. Bốn cấp độ
phân tích bắt đầu từ dữ liệu huấn luyện, sau đó chuyển sang các công cụ phân tích,
truy vấn, và báo cáo.