You are on page 1of 12

Big IoT Data Analytics: Architecture,

Opportunities, and Open


Research Challenges
MOHSEN MARJANI1, FARIZA NASARUDDIN2, ABDULLAH GANI1, (Senior Member, IEEE),
AHMAD KARIM3, IBRAHIM ABAKER TARGIO HASHEM1, AISHA SIDDIQA1,
AND IBRAR YAQOOB1
1Department of Computer System and Technology, Faculty of Computer Science and Information Technology, University of Malaya, Kuala Lumpur, Malaysia
2Department of Information System, Faculty of Computer Science and Information Technology, University of Malaya, Kuala Lumpur 50603, Malaysia
3Department of Information Technology, Bahauddin Zakariya University, Multan, Punjab, Pakistan
Corresponding authors: Fariza Nasaruddin (fariza@um.edu.my); Abdullah Gani (abdullah@um.edu.my)
This work was supported by the Malaysian Ministry of Higher Education under University Malaya Research Grant (UMRG)
Project/Program UM.0000168/HRU.RP.IT and RP029D-14AET.

ABSTRACT: Số lượng dữ liệu khổng lồ đã được tạo ra kể từ thập kỷ trước. Tuy


nhiên, dữ liệu đó không hữu ích nếu không có sức mạnh phân tích. Nhiều giải pháp
dữ liệu lớn, IoT và phân tích đã cho phép mọi người có được cái nhìn sâu sắc có
giá trị vào dữ liệu lớn được tạo bởi các thiết bị IoT.
Tuy nhiên, các giải pháp này vẫn còn trong giai đoạn đầu và thiếu một cuộc
khảo sát toàn diện. Bài viết này nghiên cứu các nỗ lực nghiên cứu tiên tiến hướng
tới phân tích dữ liệu lớn và IoT. Mối quan hệ giữa phân tích dữ liệu lớn và IoT
được giải thích. Hơn nữa, bài viết này cho biết thêm giá trị bằng cách đề xuất một
kiến trúc mới cho các phân tích dữ liệu lớn và IoT . Các loại phân tích , phương
pháp và công nghệ khai thác dữ liệu lớn được thảo luận. Nhiều trường hợp sử dụng
đáng chú ý cũng được trình bày. Một số cơ hội do phân tích dữ liệu mang lại trong
mô hình IoT sau đó sẽ được thảo luận. Cuối cùng, nghiên cứu mở những thách
thức, như quyền riêng tư, khai thác dữ liệu lớn, trực quan hóa và tích hợp, được
trình bày như một nghiên cứu trong tương lai.
INDEX TERM : Dữ liệu lớn, Internet of Things, phân tích dữ liệu, thành phố
thông minh.

I. INTRODUCTION
Sự phát triển nhanh chóng của dữ liệu lớn và IoT ảnh hưởng đến tất cả các lĩnh vực
công nghệ và doanh nghiệp bằng cách tăng lợi ích cho các tổ chức và cá nhân. Sự
tăng trưởng của dữ liệu thông qua IoT có đóng một vai trò quan trọng trong bối
cảnh dữ liệu lớn. Dữ liệu lớn có thể được phân loại theo ba khía cạnh:
 khối lượng.
 đa dạng.
 vận tốc. [1]
Những loại này được giới thiệu bởi Gartner để mô tả các yếu tố của dữ liệu
lớn [2]. Cơ hội to lớn được trình bày bởi khả năng phân tích và sử dụng lượng dữ
liệu khổng lồ, bao gồm các ứng dụng trong thành phố thông minh, giao thông
thông minh, hệ thống lưới điện, đồng hồ năng lượng thông minh và chăm sóc sức
khỏe bệnh nhân qua thiết bị giám sát từ xa. Sự phổ biến rộng rãi của IoT đã khiến
cho việc phân tích dữ liệu lớn trở nên khó khăn vì quá trình xử lý và thu thập dữ
liệu thông qua các cảm biến khác nhau trong môi trường IoT. Báo cáo của
International Data Corporation (IDC) chỉ ra thị trường dữ liệu lớn sẽ đạt hơn 125 tỷ
USD vào năm 2019 [3] . Phân tích dữ liệu lớn và IoT có thể được định nghĩa là các
bước trong đó một loạt dữ liệu IoT được kiểm tra [4] để tiết lộ xu hướng, mô hình,
và thông tin mới [5] . Các công ty và cá nhân có thể hưởng lợi từ phân tích lượng
lớn dữ liệu và quản lý số lượng lớn thông tin có thể ảnh hưởng đến doanh nghiệp
[6].
Do đó, phân tích dữ liệu lớn và IoT nhằm mục đích hỗ trợ các hiệp hội kinh
doanh và các tổ chức khác để đạt được sự hiểu biết, được cải thiện vềdữ liệu, do đó
sẽ đưa ra quyết định hiệu quả và đầy đủ thông tin. Phân tích dữ liệu lớn cho phép
các nhà khai thác dữ liệu và nhà khoa học phân tích lượng lớn dữ liệu phi cấu trúc
có thể được khai thác, sử dụng các công cụ truyền thống [5]. Hơn nữa, phân tích
dữ liệu lớn nhằm mục đích để ngay lập tức trích xuất thông tin có ý nghĩa bằng
cách sử dụng kỹ thuật khai thác dữ liệu giúp đưa ra dự đoán, xác định xu hướng
gần đây, tìm thông tin ẩn và thực hiện quyết định [7]. Kỹ thuật khai thác dữ liệu
được triển khai rộng rãi cho cả hai phương pháp cụ thể vấn đề và phân tích dữ liệu
tổng quát.
Theo đó, phương pháp thống kê và học máy là được tận dụng. Dữ liệu IoT
khác với dữ liệu lớn thông thường về đặc điểm vì sự khác nhau về cảm biến và các
đối tượng liên quan trong quá trình thu thập dữ liệu, trong đó bao gồm sự không
đồng nhất, tiếng ồn, sự đa dạng và tăng trưởng nhanh chóng. Thống kê [8] cho
thấy số lượng cảm biến sẽ được tăng lên 1 nghìn tỷ vào năm 2030. Mức tăng này
sẽ ảnh hưởng đến tăng trưởng dữ liệu lớn. Giới thiệu phân tích dữ liệu và IoT vào
dữ liệu lớn đòi hỏi nguồn lực lớn và IoT có khả năng cung cấp một giải pháp tuyệt
vời. Nguồn lực phù hợp và các ứng dụng chuyên sâu được cung cấp bởi các dịch
vụ IoT cho giao tiếp hiệu quả giữa các ứng dụng được triển khai.
Quá trình này phù hợp để thực hiện các yêu cầu về các ứng dụng IoT và có thể
giảm một số thách thức trong tương lai của phân tích dữ liệu lớn. Sự hợp nhất công
nghệ này tăng khả năng triển khai IoT theo hướng tốt hơn. Hơn nữa, việc triển khai
IoT và các giải pháp tích hợp dữ liệu lớn có thể giúp giải quyết các vấn đề về lưu
trữ, xử lý, phân tích dữ liệu và các công cụ trực quan. Nó cũng có thể hỗ trợ cải
thiện sự hợp tác và giao tiếp giữa nhiều người, các đối tượng trong một thành phố
thông minh [9] . Các lĩnh vực ứng dụng, chẳng hạn như môi trường sinh thái thông
minh, giao thông thông minh, lưới điện thông minh, các tòa nhà thông minh, và
quản lý thông minh, có thể có lợi từ sự sắp xếp nói trên. Nhiều nghiên cứu về dữ
liệu lớn đã tập trung vào quản lý dữ liệu lớn; đặc biệt, phân tích dữ liệu lớn đã
được khảo sát [10] [11] . Tuy nhiên, khảo sát này tập trung vào dữ liệu lớn của IoT
trong bối cảnh phân tích một lượng lớn dữ liệu. Những đóng góp của khảo sát này
là như sau:
 Những nỗ lực nghiên cứu tiên tiến được thực hiện trên phương diện
 phân tích dữ liệu lớn được xem xét.
 Một kiến trúc cho các phân tích dữ liệu lớn và IoT được đề xuất.
 Một số cơ hội chưa từng có do dữ liệu mang lại
 phân tích trong miền IoT được giới thiệu.
 Các trường hợp sử dụng đáng tin cậy được trình bày.
 Những thách thức nghiên cứu vẫn còn phải giải quyết là
 xác định và thảo luận.
II. OVERVIEW OF IOT AND BIG DATA
A/ IOT
IoT cung cấp một nền tảng cho các cảm biến, thiết bị giao tiếp trong một môi
trường thông minh và cho phép chia sẻ thông tin trên các nền tảng một cách thuận
tiện. Các thích ứng gần đây của các công nghệ IoT không dây khác nhau là công
nghệ mang tính cách mạng bằng cách hưởng lợi từ các cơ hội được cung cấp bởi
công nghệ Internet. IoT gần đây đã chứng kiến sự áp dụng của nó trong các thành
phố thông minh với sự quan tâm phát triển hệ thống thông minh, như văn phòng
thông minh, bán lẻ thông minh, nông nghiệp thông minh, giao thông thông minh,
chăm sóc sức khỏe thông minh và năng lượng thông minh [12] [13] . IoT đã nổi
lên như một xu hướng mới trong vài năm qua, nơi thiết bị di động, phương tiện vận
chuyển, các cơ sở công cộng, và các thiết bị gia dụng đều có thể được sử dụng như
thiết bị thu thập dữ liệu trong IoT.
Tất cả xung quanh thiết bị điện tử để tạo điều kiện cho các hoạt động cuộc sống
hàng ngày, như đồng hồ đeo tay, máy bán hàng tự động, báo động khẩn cấp, nhà
để xe, cửa ra vào, cũng như các thiết bị gia dụng như tủ lạnh, lò vi sóng, điều hòa
không khí, và máy nước nóng đều kết nối với mạng IoT và có thể được điều khiển
từ xa. Ciufo [14] nói rằng các thiết bị này nói chuyện với nhau và với các thiết bị
điều khiển trung tâm. Các thiết bị như vậy được triển khai trong các lĩnh vực khác
nhau có thể thu thập các loại dữ liệu, chẳng hạn như địa lý, thiên văn, môi trường.
Một số lượng lớn các thiết bị truyền thông trong mô hình IoT được nhúng vào các
thiết bị cảm biến trong thế giới thực. Thiết bị thu thập dữ liệu cảm nhận dữ liệu và
truyền các dữ liệu này bằng cách sử dụng các thiết bị truyền thông nhúng. Tính
liên tục của các thiết bị và đối tượng được kết nối với nhau thông qua nhiều giải
pháp truyền thông, chẳng hạn như Bluetooth, WiFi, ZigBee, và GSM. Các thiết bị
truyền thông này truyền dữ liệu và nhận lệnh từ các thiết bị điều khiển từ xa, trong
đó cho phép tích hợp trực tiếp với thế giới vật lý thông qua hệ thống dựa trên máy
tính.
Hơn 50 tỷ thiết bị từ điện thoại thông minh, máy tính xách tay, cảm biến và
bảng điều khiển trò chơi được dự đoán sẽ được kết nối với Internet thông qua một
số mạng truy cập không đồng nhất được kích hoạt bởi các công nghệ. Chẳng hạn
như nhận dạng tần số radio (RFID) và mạng cảm biến không dây[15] đã đề cập
rằng IoT có thể được công nhận trong ba mô hình: Định hướng Internet, cảm biến
và kiến thức [16] . Gần đây thích ứng với các công nghệ không dây khác nhau đặt
IoT là công nghệ cách mạng tiếp theo bằng cách hưởng lợi từ toàn bộ cơ hội được
cung cấp bởi công nghệ Internet.
B/ BIG DATA
Khối lượng dữ liệu được tạo ra bởi các cảm biến, thiết bị, xã hội phương tiện
truyền thông, ứng dụng chăm sóc sức khỏe, cảm biến nhiệt độ, và nhiều ứng dụng
phần mềm và thiết bị kỹ thuật số khác liên tục tạo ra một lượng lớn cấu trúc, phi
cấu trúc, hoặc dữ liệu bán cấu trúc đang tăng mạnh. Quá trình tạo dữ liệu khổng lồ
này dẫn đến ‘dữ liệu lớn’[17] . Hệ thống cơ sở dữ liệu truyền thống không hiệu
quả khi lưu trữ, xử lý và phân tích lượng dữ liệu tăng nhanh [18] . Thuật ngữ “dữ
liệu lớn” đã được sử dụng trong các tài liệu trước đây nhưng tương đối mới trong
kinh doanh và công nghệ thông tin [19] . Một ví dụ về các nghiên cứu liên quan
đến dữ liệu lớn là giới hạn tiếp theo cho đổi mới, cạnh tranh và năng suất, Viện
McKinsey toàn cầu [20] định nghĩa dữ liệu lớn là kích thước của tập dữ liệu một
công cụ hệ thống cơ sở tốt hơn các công cụ thông thường để thu thập, lưu trữ, xử lý
và phân tích dữ liệu đó[18] .
Các Nghiên cứu Vũ trụ Kỹ thuật số [21] ghi nhãn công nghệ dữ liệu lớn như
một thế hệ công nghệ và kiến trúc mới nhắm đến để lấy ra giá trị từ một khối lượng
dữ liệu khổng lồ với các định dạng khác nhau bằng cách cho phép khám phá và
phân tích tốc độ cao. Nghiên cứu trước đây cũng đặc trưng dữ liệu lớn thành ba
khía cạnh:
 nguồn dữ liệu
 phân tích dữ liệu,
 trình bày kết quả phân tích.
Định nghĩa này sử dụng 3V từ (âm lượng, sự đa dạng, vận tốc) mô hình được
đề xuất bởi Beyer [2]. Mô hình nổi bật một xu hướng thương mại điện tử trong
quản lý dữ liệu phải đối mặt với những thách thức để quản lý khối lượng hoặc kích
thước của dữ liệu, nhiều loại hoặc các nguồn khác nhau của dữ liệu, vận tốc hoặc
tốc độ tạo dữ liệu. Một số nghiên cứu khai báo khối lượng là một đặc điểm chính
của dữ liệu lớn mà không có cung cấp một định nghĩa thuần túy [22]. Tuy nhiên,
các nhà nghiên cứu khác giới thiệu các đặc điểm bổ sung cho dữ liệu lớn, chẳng
hạn như tính xác thực, giá trị, tính biến đổi và độ phức tạp [23] [24]. Các mô hình
3V, hay các dẫn xuất của nó mô tả phổ biến nhất thuật ngữ “dữ liệu lớn”.
III. BIG DATA ANALYTICS
Phân tích dữ liệu lớn liên quan đến các quá trình tìm kiếm cơ sở dữ liệu, khai
thác và phân tích dữ liệu để cải thiện hiệu suất công ty [25] . Phân tích dữ liệu lớn
là quá trình kiểm tra bộ dữ liệu lớn [4] có chứa nhiều loại dữ liệu để biết mô hình,
tương quan ẩn, xu hướng thị trường, sở thích khách hàng và thông tin kinh doanh
hữu ích khác. [5]
Các khả năng phân tích dữ liệu lớn giúp tổ chức xử lý thông tin quan trọng có
thể ảnh hưởng đến doanh nghiệp [6] . Do đó, mục tiêu chính của phân tích dữ liệu
lớn là để hỗ trợ các hiệp hội kinh doanh được cải thiện sự hiểu biết về dữ liệu, và
do đó đưa ra quyết định về hiệu quả. Phân tích dữ liệu lớn đòi hỏi các công Phân
tích dữ liệu lớn cho phép các công cụ khai thác dữ liệu và các nhà khoa học phân
tích một khối lượng dữ liệu lớn, một khối lượng dữ liệu có thể không được khai
thác bằng các công cụ truyền thống [5] . Công cụ có thể biến đổi một lượng cấu
trúc lớn, phi cấu trúc và dữ liệu bán cấu trúc thành dữ liệu dễ hiểu hơn và định
dạng siêu dữ liệu cho các quá trình phân tích.
Các thuật toán được sử dụng trong các công cụ phân tích này phải khám phá
các mô hình, xu hướng, và mối tương quan qua nhiều thời gian trong dữ liệu [26].
Sau khi phân tích dữ liệu, các công cụ này trực quan hóa những dữ liệu cho việc
quyết định hiệu quả. Do đó, phân tích dữ liệu lớn là một thách thức đối với nhiều
ứng dụng vì độ phức tạp của dữ liệu và khả năng mở rộng của các thuật toán cơ
bản để hỗ trợ các quá trình [27]. Talia (2013) nhấn mạnh rằng có được thông tin
hữu ích từ phân tích dữ liệu lớn là một vấn đề quan trọng đòi hỏi phải mở rộng các
thuật toán và kỹ thuật phân tích để trả về đúng kết quả thời gian, trong khi các kỹ
thuật và thuật toán hiện tại không hiệu quả để xử lý các phân tích dữ liệu lớn. Do
đó, cơ sở hạ tầng lớn và các ứng dụng bổ sung là cần thiết để hỗ trợ dữ liệu song
song. Hơn nữa, các nguồn dữ liệu, chẳng hạn như dữ liệu tốc độ cao nhận được từ
các nguồn dữ liệu khác nhau, giúp tích hợp nhiều nguồn cho các giải pháp phân
tích quan trọng [28] . Do đó, thách thức tập trung vào hiệu suất của các thuật toán
hiện tại được sử dụng trong phân tích dữ liệu lớn [19]. Các quy trình phân tích dữ
liệu lớn tiêu tốn thời gian đáng kể để cung cấp phản hồi và hướng dẫn cho người
dùng, trong khi chỉ một vài công cụ [29] có thể xử lý các tập dữ liệu khổng lồ trong
thời gian xử lý hợp lý.
Ngược lại, hầu hết các công cụ còn lại sử dụng phương pháp thử nghiệm và
báo lỗi phức tạp để đối phó với số lượng lớn các tập dữ liệu và tính không đồng
nhất dữ liệu [30]. Hệ thống phân tích dữ liệu lớn tồn tại. Ví dụ phân tích thăm dò
[31] dữ liệu môi trường là một hệ thống phân tích trực quan dữ liệu lớn được sử
dụng để mô phỏng phân tích hệ thống trái đất với số lượng lớn các bộ dữ liệu.
A. EXISTING ANALYTICS SYSTEMS
Các loại phân tích khác nhau được sử dụng theo yêu cầu của các ứng dụng
IoT [32]. Những loại phân tích này là phân tích theo thời gian thực, ngoại tuyến,
cấp bộ nhớ, mức độ thông minh trong kinh doanh (BI) và phân loại cấp độ lớn.
Real-time analytics: Thường được thực hiện trên dữ liệu được thu thập từ các cảm
biến. Trong trường hợp này, dữ liệu thay đổi liên tục, các kỹ thuật phân tích dữ liệu
nhanh chóng được yêu cầu để có được một kết quả phân tích trong thời gian ngắn.
Do đó, hai kiến trúc hiện có đã được đề xuất để phân tích thời gian thực là:
các cụm xử lý song song sử dụng cơ sở dữ liệu, quan hệ truyền thống và nền tảng
điện toán dựa trên bộ nhớ [33]. Greenplum [34] và Hana [35] là những ví dụ về
kiến trúc phân tích thời gian thực.
Off-line analytics: Được sử dụng khi không có phản hồi nhanh [32]. Ví dụ, nhiều
doanh nghiệp Internet sử dụng kiến trúc phân tích ngoại tuyến dựa trên Hadoop để
giảm chi phí chuyển đổi định dạng dữ liệu [36]. Phân tích như vậy cải thiện hiệu
quả thu thập dữ liệu. Scribe [37], Kafka [38] , TimeTunnel [39] và Chukwa [40] là
những ví dụ về kiến trúc thực hiện phân tích ngoại tuyến và có thể đáp ứng nhu cầu
của thu thập dữ liệu.
Memory-level analytics: Được áp dụng khi kích thước của dữ liệu nhỏ hơn bộ
nhớ của cụm [32]. Đến nay, bộ nhớ của các cụm đã đạt đến mức terabyte (TB)
[41]. Do đó, một số công nghệ nội bộ đã được yêu cầu để cải thiện hiệu quả phân
tích. Phân tích cấp bộ nhớ cũng thích hợp để tiến hành phân tích thời gian thực.
MongoDB [42] là một ví dụ về kiến trúc này.
BI analytics: Được thông qua khi kích thước của dữ liệu lớn hơn mức bộ nhớ,
nhưng trong trường hợp này, dữ liệu có thể được nhập đến môi trường phân tích BI
[43]. Phân tích BI hiện tại hỗ trợ dữ liệu cấp độ TB (tera byte). [32]
Hơn nữa, BI có thể giúp khám phá cơ hội kinh doanh chiến lược từ dữ liệu.
Ngoài ra, phân tích BI cho phép dễ dàng giải thích khối lượng dữ liệu. Xác định
các cơ hội mới và thực hiện một chiến lược hiệu quả mang lại lợi thế cạnh tranh
trên thị trường và sự ổn định lâu dài.
Massive analytics: Được áp dụng khi kích thước của dữ liệu lớn hơn hơn toàn bộ
công suất của sản phẩm phân tích BI và cơ sở dữ liệu truyền thống [44]. Phân tích
cấp độ lớn sử dụng hệ thống tệp phân tán Hadoop để lưu trữ dữ liệu và ánh xạ / thu
nhỏ cho dữ liệu phân tích. Phân tích cấp độ lớn giúp tạo nền tảng kinh doanh và
tăng khả năng cạnh tranh trên thị trường bằng cách trích xuất ý nghĩa giá trị từ dữ
liệu.
Hơn nữa, các phân tích cấp độ lớn thu được dữ liệu chính xác thúc đẩy việc
đưa ra bất kỳ quyết định kinh doanh nào. Ngoài ra, phân tích cấp độ lớn cũng cung
cấp dịch vụ hiệu quả.
B. RELATIONSHIP BETWEEN IOT AND BIG DATA ANALYTICS
Phân tích dữ liệu lớn đang nhanh chóng nổi lên như một sáng kiến quan trọng
của IoT để cải thiện việc ra quyết định. Một trong những tính năng nổi bật nhất của
IoT là phân tích thông tin được kết nối về mọi thứ. Thông tin Phân tích dữ liệu lớn
trong IoT yêu cầu xử lý lượng dữ liệu lớn nhanh chóng và lưu trữ dữ liệu trong
nhiều công nghệ lưu trữ khác nhau. Do phần lớn dữ liệu phi cấu trúc được thu thập
trực tiếp từ các tương tác trên web, nên việc triển khai dữ liệu lớn sẽ đòi hỏi phải
thực hiện phân tích nhanh với các truy vấn lớn để cho phép các tổ chức hiểu nhanh,
đưa ra quyết định nhanh chóng và tương tác với mọi người, các thiết bị khác.
Sự kết nối của cảm biến và thiết bị kích hoạt cung cấp khả năng chia sẻ thông
tin trên các nền tảng thông qua kiến trúc hợp nhất và phát triển một bức tranh hoạt
động chung để cho phép đổi mới các ứng dụng. Hai công nghệ này đã được được
công nhận trong lĩnh vực công nghệ thông tin và kinh doanh. Mặc dù, phát triển dữ
liệu lớn đã bị chậm trễ, các công nghệ này phụ thuộc lẫn nhau nên được phát triển
chung. Nói chung, việc triển khai IoT làm tăng số lượng dữ liệu và chủng loại; do
đó, cung cấp cơ hội cho các ứng dụng và phát triển các phân tích dữ liệu lớn. Hơn
nữa, việc áp dụng các công nghệ dữ liệu lớn trong IoT đẩy nhanh tiến bộ nghiên
cứu và mô hình kinh doanh của IoT. Mối quan hệ giữa IoT và dữ liệu lớn được
hiển thị trong Hình 1, có thể được chia thành ba bước để kích hoạt quản lý dữ liệu
IoT. Bước đầu tiên bao gồm quản lý nguồn dữ liệu IoT, nơi các thiết bị cảm biến
được kết nối sử dụng các ứng dụng để tương tác với nhau. Ví dụ: tương tác của các
thiết bị như camera quan sát, giao thông thông minh, đèn chiếu sáng, và các thiết bị
nhà thông minh, tạo ra một lượng lớn nguồn dữ liệu với các định dạng khác nhau.
Dữ liệu này được lưu trữ trên đám mây. Trong bước thứ hai, dữ liệu được tạo ra
gọi là “dữ liệu lớn”, dựa trên khối lượng, vận tốc và sự đa dạng của chúng. Những
lượng dữ liệu khổng lồ này được lưu trữ ở các tệp dữ liệu lớn.
Bước cuối cùng áp dụng các công cụ phân tích như MapReduce, Spark,
Splunk và Skytree có thể phân tích bộ dữ liệu lớn IoT được lưu trữ. Bốn cấp độ
phân tích bắt đầu từ dữ liệu huấn luyện, sau đó chuyển sang các công cụ phân tích,
truy vấn, và báo cáo.

HÌNH 1. Mối quan hệ giữa IoT và phân tích dữ liệu lớn.


C. BIG DATA ANALYTICS
METHODS
Phân tích dữ liệu lớn nhằm mục
đích trích xuất thông tin ngay lập
tức giúp đưa ra dự đoán, xác định
xu hướng gần đây, tìm kiếm thông
tin ẩn, và cuối cùng đưa ra quyết
định [7] . Kỹ thuật khai thác dữ
liệu được phổ biến rộng rãi, triển
khai cho cả hai phương pháp phân
tích dữ liệu cụ thể và tổng quát.
Hình 1: Tổng quan về các phương
pháp phân tích dữ liệu Theo đó, phương pháp thống kê
và máy học được sử dụng [30]. Sự
phát triển của dữ liệu lớn cũng thay đổi yêu cầu phân tích. Chẳng hạn như chụp,
lưu trữ, tiền xử lý và phân tích. Để phân tích thì phân tích dữ liệu lớn yêu cầu tốc
độ xử lý tương đương hoặc nhanh hơn phân tích dữ liệu truyền thống với chi phí
tối thiểu cho dữ liệu lớn, tốc độ cao và dữ liệu cao [45] . Các giải pháp khác nhau
có sẵn cho các phân tích dữ liệu lớn, và những tiến bộ trong việc phát triển và cải
thiện các giải pháp này đang liên tục đạt được để làm cho chúng phù hợp với xu
hướng dữ liệu lớn mới. Khai thác dữ liệu đóng một vai trò quan trọng trong phân
tích và hầu hết các kỹ thuật được phát triển bằng cách sử dụng thuật toán khai thác
dữ liệu theo một kịch bản cụ thể.
Kiến thức về các tùy chọn phân tích dữ liệu lớn có sẵn là rất quan trọng khi
đánh giá và lựa chọn một phương pháp phù hợp để quyết định. Trong phần này,
chúng tôi trình bày một số phương pháp có thể được thực hiện cho một số trường
hợp nghiên cứu dữ liệu lớn. Một số phương pháp phân tích này có hiệu quả đối với
phân tích dữ liệu lớn IoT [7]. Chúng tôi trình bày các phương pháp phân tích dữ
liệu lớn theo phân loại, phân cụm, quy tắc kết hợp và dự đoán. Hình 2 mô tả và
tóm tắt từng loại này. Mỗi thể loại là một chức năng khai thác dữ liệu, liên quan
đến nhiều phương pháp và thuật toán để thực hiện khai thác thông tin và yêu cầu
phân tích.
Ví dụ: mạng Bayes, máy vectơ hỗ trợ (SVM) và (KNN) cung cấp các phương
pháp phân loại. Phân loại là một phương pháp học tập có giám sát sử dụng dữ liệu
huấn luyện để phân loại các đối tượng dữ liệu thành các nhóm [46] . Một danh mục
xác định trước sẽ được gán cho một đối tượng, và do đó mục tiêu dự đoán một
nhóm hoặc lớp cho một đối tượng đã đạt được (Hình 2). Tìm ẩn số là thách thức
đối với dữ liệu lớn và IoT. Hơn nữa, trích xuất thông tin có giá trị từ dữ liệu lớn
được thiết lập để cải thiện việc ra quyết định là một nhiệm vụ quan trọng. Mạng
Bayes [47] là một phương pháp phân loại cung cấp khả năng diễn giải mô hình.
Mạng Bayes có hiệu quả để phân tích cấu trúc dữ liệu phức tạp thông qua dữ liệu
lớn hơn các định dạng dữ liệu có cấu trúc truyền thống [48]. Phân tích các mẫu dữ
liệu và tạo các nhóm có hiệu quả được thực hiện bằng cách sử dụng SVM, đây
cũng là cách tiếp cận phân loại cho các phân tích dữ liệu lớn. SVM sử dụng lý
thuyết thống kê để phân tích các mẫu dữ liệu và tạo các nhóm. Một số ứng dụng
phân loại SVM trong phân tích dữ liệu lớn bao gồm phân loại văn bản [49], mô
hình kết hợp [50] chuẩn đoán sức khỏe [51] và thương mại [52] .
Tương tự, KNN thường được thiết kế để cung cấp các cơ chế hiệu quả để tìm
ẩn các mẫu từ các tập dữ liệu lớn, sao cho các đối tượng được truy xuất làtương tự
như thể loại được xác định trước [53]. Phân loại có các phần mở rộng khác khi áp
dụng một số lượng lớn trí tuệ và dữ liệu nhân tạo vào kỹ thuật khai thác [54]. Do
đó, phân loại là một trong những kỹ thuật khai thác dữ liệu rộng rãi cho các phân
tích dữ liệu lớn. Phân cụm là một kỹ thuật khai thác dữ liệu khác được sử dụng như
là một phương pháp phân tích dữ liệu [55]. Trái với phân loại, phân cụm sử dụng
phương pháp học không giám sát và tạo các nhóm cho các đối tượng nhất định dựa
trên các tính năng có ý nghĩa đặc biệt của chúng [56]. Như chúng ta đã trình bày
trong Hình 2, nhóm một số lượng lớn các đối tượng ở dạng cụm thao tác dữ liệu
đơn giản. Phương pháp nổi tiếng được sử dụng để phân cụm là phân cụm phân cấp.
Phương pháp phân cụm phân cấp tiếp tục kết hợp nhỏ cụm các đối tượng dữ liệu
để tạo thành một cây phân cấp và tạo cụm kết tụ. Các cụm phân chia được tạo ra
bằng cách chia một cụm duy nhất chứa tất cả các đối tượng dữ liệu thành các cụm
thích hợp nhỏ hơn [57] . Phương pháp này giúp phân tích thị trường và ra các
quyết định trong kinh doanh. Quá trình khai thác quy tắc kết hợp liên quan đến
việc xác định mối quan hệ giữa các đối tượng, sự kiện để phân tích xu hướng thị
trường, hành vi mua của người tiêu dùng, và dự đoán nhu cầu sản phẩm [58]. Các
quy tắc khai thác tập trung vào việc xác định và tạo quy tắc dựa trên tần suất xuất
hiện của dữ liệu số và phi số. Xử lý dữ liệu được thực hiện trong hai cách theo quy
tắc kết hợp. Đầu tiên, xử lý dữ liệu tuần tự sử dụng các thuật toán như MSPS [59]
và LAPINSPAM [60] , để xác định các nhóm tương tác. Một cách tiếp cận xử lý
dữ liệu quan trọng khác theo quy tắc kết hợp là phân tích trình tự thời gian, trong
đó sử dụng các thuật toán để phân tích mô hình sự kiện trong dữ liệu liên tục.
Phân tích dự đoán sử dụng dữ liệu lịch sử, được biết đến như dữ liệu đào tạo,
để xác định xu hướng hoặc hành vi trong dữ liệu. Các thuật toán logic và SVM
được sử dụng để xác định mối quan hệ giữa các biến độc lập và phụ thuộc để có
được các dự đoán, chẳng hạn như thảm họa thiên nhiên. Hơn nữa, dự đoán mua
của khách hàng và xu hướng truyền thông xã hội được phân tích thông qua phân
tích dự đoán [61]. Trong trường hợp phân tích dữ liệu lớn, yêu cầu xử lý được sửa
đổi theo tính chất và khối lượng dữ liệu. Phương pháp truy cập và khai thác dữ liệu
nhanh cho dữ liệu có cấu trúc và không cấu trúc là những mối quan tâm chính liên
quan đến phân tích dữ liệu lớn. Hơn nữa, biểu diễn dữ liệu là một yêu cầu quan
trọng trong phân tích dữ liệu lớn. Phân tích chuỗi thời gian để cải thiện việc ra
quyết định. Nghiên cứu liên quan đến biểu diễn chuỗi thời gian bao gồm ARMA
[62] , bitmap [63] và các chức năng [64]. Các phương pháp phân tích dữ liệu lớn
được thảo luận trong phần này được áp dụng rộng rãi trong nhiều lĩnh vực của dữ
liệu lớn, như quản lý thảm họa, y tế, kinh doanh, công nghiệp, và quản trị điện tử.
Trong Bảng 2, nội dụng đã trình bày ứng dụng lĩnh vực khai thác dữ liệu lớn
được xây dựng trong phần này. Đặc biệt, Bảng 2 cho thấy các phương pháp phân
loại phù hợp với hình ảnh y tế, công nghiệp, nhận dạng giọng nói, xử lý ngôn ngữ
tự nhiên và quản trị điện tử. Phương pháp phân tích dữ liệu dựa trên quy tắc phân
cụm và liên kết được áp dụng cho công nghiệp , quản trị điện tử và được áp dụng
tốt trong y tế, thương mại điện tử và tin học. Phân tích dự đoán rất hữu ích cho
thảm họa và dự đoán thị trường, trong khi phân tích chuỗi thời gian được sử dụng
trong dự báo thảm họa, y tế hình ảnh, nhận dạng giọng nói, phân tích mạng xã hội
và quản trị điện tử.
Hình 2: Các ứng dụng khai thác dữ liệu lớn cho IoT

You might also like