You are on page 1of 36

Phân tích dữ liệu IoT lớn: Kiến trúc,

Cơ hội và mở
Những thách thức nghiên cứu
MOHSEN MARJani1, FARIZA NASARUDDIN2, ABDULLAH GANI1, (Thành
viên cao cấp, IEEE),
AHMAD KARIM3, IBRAHIM ABAKER TARGIO HASHEM1, AISHA
SIDDIQA1,
VÀ IBRAR YAQOOB1
1 Khoa Hệ thống và Công nghệ Máy tính, Khoa Khoa học Máy tính và Công nghệ
Thông tin, Đại học Malaya, Kuala Lumpur, Malaysia
Phòng 2D của Hệ thống thông tin, Khoa Khoa học máy tính và Công nghệ thông
tin, Đại học Malaya, Kuala Lumpur 50603, Malaysia
Phòng công nghệ thông tin, Đại học Bahauddin Zakariya, Multan, Punjab, Pakistan
Các tác giả tương ứng: Fariza Nasaruddin (fariza@um.edu.my); Abdullah Gani
(abdullah@um.edu.my)
Công trình này được Bộ Giáo dục Đại học Malaysia hỗ trợ theo Tài trợ Nghiên cứu
của Đại học Malaya (UMRG)
Dự án / Chương trình UM.0000168 / HRU.RP.IT và RP029D-14AET.
TÓM TẮT Số lượng dữ liệu khổng lồ đã được tạo ra, kể từ thập kỷ trước khi thu
nhỏ
Internet của vạn vật (IoT) thiết bị tăng. Tuy nhiên, dữ liệu đó không hữu ích nếu
không có sức mạnh phân tích.
Nhiều giải pháp dữ liệu lớn, IoT và phân tích đã cho phép mọi người có được cái
nhìn sâu sắc có giá trị lớn
dữ liệu được tạo bởi các thiết bị IoT. Tuy nhiên, các giải pháp này vẫn còn trong
giai đoạn trứng nước và miền thiếu
Khảo sát toàn diện. Bài viết này nghiên cứu các nỗ lực nghiên cứu tiên tiến hướng
tới IoT lớn
phân tích dữ liệu. Mối quan hệ giữa phân tích dữ liệu lớn và IoT được giải thích.
Hơn nữa, bài viết này cho biết thêm
giá trị bằng cách đề xuất một kiến trúc mới cho các phân tích dữ liệu IoT lớn. Hơn
nữa, các loại phân tích dữ liệu IoT lớn,
phương pháp và công nghệ khai thác dữ liệu lớn được thảo luận. Nhiều trường hợp
sử dụng đáng chú ý cũng được trình bày.
Một số cơ hội do phân tích dữ liệu mang lại trong mô hình IoT sau đó sẽ được thảo
luận. Cuối cùng, nghiên cứu mở
những thách thức, như quyền riêng tư, khai thác dữ liệu lớn, trực quan hóa và tích
hợp, được trình bày như một nghiên cứu trong tương lai
hướng.
INDEX TERMS Dữ liệu lớn, Internet of Things, phân tích dữ liệu, điện toán phân
tán, thành phố thông minh.
I. GIỚI THIỆU
Sự phát triển của dữ liệu lớn và Internet vạn vật (IoT)
đang nhanh chóng tăng tốc và ảnh hưởng đến tất cả các lĩnh vực công nghệ
và doanh nghiệp bằng cách tăng lợi ích cho các tổ chức
và cá nhân. Sự tăng trưởng của dữ liệu được sản xuất thông qua IoT có
đóng một vai trò quan trọng trong bối cảnh dữ liệu lớn. Dữ liệu lớn
có thể được phân loại theo ba khía cạnh: (a) khối lượng,
(b) giống và (c) vận tốc [1]. Những loại này là đầu tiên
được giới thiệu bởiGartner để mô tả các yếu tố của dữ liệu lớn
thử thách [2]. Cơ hội to lớn được trình bày bởi
khả năng phân tích và sử dụng lượng dữ liệu IoT khổng lồ,
bao gồm các ứng dụng trong thành phố thông minh, giao thông thông minh và lưới
điện
hệ thống, đồng hồ thông minh năng lượng và chăm sóc sức khỏe bệnh nhân từ xa
thiết bị giám sát.
Sự phổ biến rộng rãi của IoT đã khiến cho việc phân tích dữ liệu lớn trở nên khó
khăn vì quá trình xử lý và thu thập
dữ liệu thông qua các cảm biến khác nhau trong môi trường IoT.
Báo cáo của International Data Corporation (IDC) chỉ ra
thị trường dữ liệu lớn sẽ đạt hơn 125 tỷ USD
vào năm 2019 [3]. Phân tích dữ liệu lớn IoT có thể được định nghĩa là
các bước trong đó một loạt dữ liệu IoT được kiểm tra [4] để
tiết lộ xu hướng, mô hình vô hình, tương quan ẩn, và mới
thông tin [5]. Các công ty và cá nhân có thể hưởng lợi từ
phân tích lượng lớn dữ liệu và quản lý số lượng lớn
thông tin có thể ảnh hưởng đến doanh nghiệp [6]. Do đó, IoT
phân tích dữ liệu lớn nhằm mục đích hỗ trợ các hiệp hội kinh doanh và
các tổ chức khác để đạt được sự hiểu biết được cải thiện về
dữ liệu, và do đó, đưa ra quyết định hiệu quả và đầy đủ thông tin.
Phân tích dữ liệu lớn cho phép các nhà khai thác dữ liệu và nhà khoa học phân tích
lượng lớn dữ liệu phi cấu trúc có thể được khai thác
sử dụng các công cụ truyền thống [5]. Hơn nữa, phân tích dữ liệu lớn nhằm mục
đích
để ngay lập tức trích xuất thông tin có kiến thức bằng cách sử dụng dữ liệu
kỹ thuật khai thác giúp đưa ra dự đoán, xác định xu hướng gần đây, tìm thông tin
ẩn và thực hiện
quyết định [7].
Kỹ thuật khai thác dữ liệu được triển khai rộng rãi cho cả hai
phương pháp cụ thể vấn đề và phân tích dữ liệu tổng quát.
Theo đó, phương pháp thống kê và học máy là tận dụng. Dữ liệu IoT khác với dữ
liệu lớn thông thường được thu thập
thông qua các hệ thống về đặc điểm vì sự khác nhau
cảm biến và các đối tượng liên quan trong quá trình thu thập dữ liệu, trong đó
bao gồm sự không đồng nhất, tiếng ồn, sự đa dạng và tăng trưởng nhanh chóng.
Thống kê [8] cho thấy số lượng cảm biến sẽ được tăng lên
1 nghìn tỷ vào năm 2030. Mức tăng này sẽ ảnh hưởng đến tăng trưởng
dữ liệu lớn. Giới thiệu phân tích dữ liệu và IoT vào dữ liệu lớn
đòi hỏi nguồn lực lớn và IoT có khả năng cung cấp
một giải pháp tuyệt vời. Nguồn lực phù hợp và chuyên sâu
các ứng dụng của nền tảng được cung cấp bởi các dịch vụ IoT cho
giao tiếp hiệu quả giữa các ứng dụng được triển khai. Quá trình này là phù hợp để
thực hiện các yêu cầu
về các ứng dụng IoT và có thể giảm một số thách thức trong
tương lai của phân tích dữ liệu lớn. Sự hợp nhất công nghệ này
tăng khả năng triển khai IoT theo hướng tốt hơn
phương hướng. Hơn nữa, việc triển khai IoT và các giải pháp tích hợp dữ liệu lớn
có thể giúp giải quyết các vấn đề về lưu trữ, xử lý,
phân tích dữ liệu và các công cụ trực quan. Nó cũng có thể hỗ trợ
cải thiện sự hợp tác và giao tiếp giữa nhiều người
các đối tượng trong một thành phố thông minh [9]. Các lĩnh vực ứng dụng, chẳng
hạn như thông minh
môi trường sinh thái, giao thông thông minh, lưới điện thông minh, thông minh
các tòa nhà, và quản lý thông minh hậu cần, có thể có lợi
từ sự sắp xếp nói trên. Nhiều nghiên cứu về lớn
dữ liệu đã tập trung vào quản lý dữ liệu lớn; đặc biệt, lớn
phân tích dữ liệu đã được khảo sát [10], [11]. Tuy nhiên, cái này
khảo sát tập trung vào dữ liệu lớn của IoT trong bối cảnh phân tích
của một lượng lớn dữ liệu. Những đóng góp của khảo sát này là
như sau.
a) Những nỗ lực nghiên cứu tiên tiến được thực hiện trên phương diện
phân tích dữ liệu lớn được điều tra.
b) Một kiến trúc cho các phân tích dữ liệu IoT lớn được đề xuất.
c) Một số cơ hội chưa từng có do dữ liệu mang lại
phân tích trong miền IoT được giới thiệu.
d) Các trường hợp sử dụng đáng tin cậy được trình bày.
e) Những thách thức nghiên cứu vẫn còn phải giải quyết là
xác định và thảo luận.
Những đóng góp này được trình bày từ Phần 3 đến 6.
kết luận được cung cấp trong Phần 7.
II. TỔNG QUAN VỀ IoT VÀ DỮ LIỆU LỚN
Tổng quan về công nghệ IoT và dữ liệu lớn được cung cấp
trước khi thảo luận.
A. IoT
IoT cung cấp một nền tảng cho các cảm biến và thiết bị giao tiếp
liền mạch trong một môi trường thông minh và cho phép chia sẻ thông tin trên các
nền tảng một cách thuận tiện. Các
thích ứng gần đây của các công nghệ không dây khác nhau
IoT là công nghệ mang tính cách mạng tiếp theo bằng cách hưởng lợi từ
các cơ hội đầy đủ được cung cấp bởi công nghệ Internet. IoT
đã chứng kiến sự áp dụng gần đây của nó trong các thành phố thông minh với sự
quan tâm
phát triển hệ thống thông minh, như văn phòng thông minh, thông minh
bán lẻ, nông nghiệp thông minh, nước thông minh, giao thông thông minh,
chăm sóc sức khỏe thông minh và năng lượng thông minh [12], [13].
IoT đã nổi lên như một xu hướng mới trong vài năm qua
năm, nơi thiết bị di động, phương tiện vận chuyển,
các cơ sở công cộng, và các thiết bị gia dụng đều có thể được sử dụng như
thiết bị thu thập dữ liệu trong IoT. Tất cả xung quanh điện tử
thiết bị để tạo điều kiện cho các hoạt động cuộc sống hàng ngày, như đồng hồ đeo
tay, máy bán hàng tự động, báo động khẩn cấp và nhà để xe
cửa ra vào, cũng như các thiết bị gia dụng, như tủ lạnh,
lò vi sóng, điều hòa không khí, và máy nước nóng là
kết nối với mạng IoT và có thể được điều khiển từ xa.
Ciufo [14] nói rằng các thiết bị này nói chuyện với nhau
và đến các thiết bị điều khiển trung tâm. Các thiết bị như vậy được triển khai
trong các lĩnh vực khác nhau có thể thu thập các loại dữ liệu, chẳng hạn như
như địa lý, thiên văn, môi trường và hậu cần
dữ liệu.
Một số lượng lớn các thiết bị truyền thông trong IoT
mô hình được nhúng vào các thiết bị cảm biến trong thế giới thực.
Thiết bị thu thập dữ liệu cảm nhận dữ liệu và truyền các dữ liệu này
sử dụng các thiết bị truyền thông nhúng. Tính liên tục của
các thiết bị và đối tượng được kết nối với nhau thông qua nhiều
giải pháp truyền thông, chẳng hạn như Bluetooth, WiFi, ZigBee,
và GSM. Các thiết bị truyền thông này truyền dữ liệu và
nhận lệnh từ các thiết bị điều khiển từ xa, trong đó
cho phép tích hợp trực tiếp với thế giới vật lý thông qua
hệ thống dựa trên máy tính để cải thiện mức sống.
Hơn 50 tỷ thiết bị từ điện thoại thông minh, máy tính xách tay,
cảm biến và bảng điều khiển trò chơi được dự đoán sẽ được kết nối với
Internet thông qua một số mạng truy cập không đồng nhất
được kích hoạt bởi các công nghệ, chẳng hạn như nhận dạng tần số radio (RFID)
và mạng cảm biến không dây. Tham khảo [15]
đã đề cập rằng IoT có thể được công nhận trong ba mô hình:
Định hướng Internet, cảm biến và kiến thức [16]. Gần đây
thích ứng với các công nghệ không dây khác nhau đặt IoT là
công nghệ cách mạng tiếp theo bằng cách hưởng lợi từ toàn bộ
cơ hội được cung cấp bởi công nghệ Internet.
B. SỐ LIỆU LỚN
Khối lượng dữ liệu được tạo ra bởi các cảm biến, thiết bị, xã hội
phương tiện truyền thông, ứng dụng chăm sóc sức khỏe, cảm biến nhiệt độ, và
nhiều ứng dụng phần mềm và thiết bị kỹ thuật số khác
liên tục tạo ra một lượng lớn cấu trúc,
không cấu trúc, hoặc dữ liệu bán cấu trúc đang tăng mạnh.
Quá trình tạo dữ liệu khổng lồ này dẫn đến ‘data dữ liệu lớn Hồi tính [17].
Hệ thống cơ sở dữ liệu truyền thống không hiệu quả khi lưu trữ,
xử lý và phân tích lượng dữ liệu tăng nhanh
dữ liệu lớn [18]. Thuật ngữ ‘data dữ liệu lớn Đồ thị đã được sử dụng trong các tài
liệu trước đây nhưng tương đối mới trong kinh doanh và CNTT [19].
Một ví dụ về các nghiên cứu liên quan đến dữ liệu lớn là biên giới tiếp theo cho
đổi mới, cạnh tranh và năng suất; McKinsey toàn cầu
Viện [20] định nghĩa dữ liệu lớn là kích thước của tập dữ liệu
một công cụ hệ thống cơ sở dữ liệu tốt hơn các công cụ thông thường để thu thập,
lưu trữ, xử lý và phân tích dữ liệu đó [18]. ''Các
Nghiên cứu Vũ trụ Kỹ thuật số [21] ghi nhãn công nghệ dữ liệu lớn như
một thế hệ công nghệ và kiến trúc mới nhắm đến
để lấy ra giá trị từ một khối lượng dữ liệu khổng lồ với
các định dạng khác nhau bằng cách cho phép chụp, khám phá và phân tích tốc độ
cao. Nghiên cứu trước đây cũng đặc trưng lớn
dữ liệu thành ba khía cạnh: (a) nguồn dữ liệu, (b) phân tích dữ liệu,
và (c) trình bày kết quả phân tích
Định nghĩa này sử dụng 3V từ (âm lượng, sự đa dạng, vận tốc)
mô hình được đề xuất bởi Beyer [2]. Mô hình nổi bật một
xu hướng thương mại điện tử trong quản lý dữ liệu phải đối mặt với những thách
thức
để quản lý khối lượng hoặc kích thước của dữ liệu, nhiều loại hoặc các nguồn khác
nhau
của dữ liệu, và vận tốc hoặc tốc độ tạo dữ liệu. Một số nghiên cứu
khai báo khối lượng là một đặc điểm chính của dữ liệu lớn mà không có
cung cấp một định nghĩa thuần túy [22]. Tuy nhiên, các nhà nghiên cứu khác
giới thiệu các đặc điểm bổ sung cho dữ liệu lớn, chẳng hạn như
tính xác thực, giá trị, tính biến đổi và độ phức tạp [23], [24]. Các
Mô hình 3V, hay các dẫn xuất của nó, là mô tả phổ biến nhất của thuật ngữ data
‘dữ liệu lớn.
III. PHÂN TÍCH SỐ LIỆU LỚN
Phân tích dữ liệu lớn liên quan đến các quá trình tìm kiếm
cơ sở dữ liệu, khai thác và phân tích dữ liệu dành riêng để cải thiện
hiệu suất công ty [25].
Phân tích dữ liệu lớn là quá trình kiểm tra lớn
bộ dữ liệu có chứa nhiều loại dữ liệu [4] để tiết lộ
mô hình vô hình, tương quan ẩn, xu hướng thị trường, khách hàng
sở thích và thông tin kinh doanh hữu ích khác [5]. Các
khả năng phân tích lượng lớn dữ liệu có thể giúp tổ chức xử lý thông tin quan trọng
có thể ảnh hưởng đến
doanh nghiệp [6]. Do đó, mục tiêu chính của dữ liệu lớn
phân tích là để hỗ trợ các hiệp hội kinh doanh đã được cải thiện
sự hiểu biết về dữ liệu, và do đó, đưa ra quyết định hiệu quả và tốt. Phân tích dữ
liệu lớn cho phép các công cụ khai thác dữ liệu
và các nhà khoa học để phân tích một khối lượng lớn dữ liệu có thể không
được khai thác bằng các công cụ truyền thống [5].
Phân tích dữ liệu lớn đòi hỏi các công nghệ và công cụ có thể
biến đổi một lượng lớn cấu trúc, không cấu trúc và
dữ liệu bán cấu trúc thành dữ liệu dễ hiểu hơn và
định dạng siêu dữ liệu cho các quá trình phân tích. Các thuật toán
được sử dụng trong các công cụ phân tích này phải khám phá các mô hình, xu
hướng,
và mối tương quan qua nhiều chân trời thời gian trong
dữ liệu [26]. Sau khi phân tích dữ liệu, các công cụ này trực quan hóa
phát hiện trong bảng, biểu đồ và biểu đồ không gian cho hiệu quả
quyết định. Do đó, phân tích dữ liệu lớn là một thách thức nghiêm trọng đối với
nhiều ứng dụng vì độ phức tạp của dữ liệu và
khả năng mở rộng của các thuật toán cơ bản hỗ trợ như vậy
các quá trình [27].
Talia (2013) nhấn mạnh rằng có được thông tin hữu ích
từ phân tích dữ liệu lớn là một vấn đề quan trọng đòi hỏi phải mở rộng
các thuật toán và kỹ thuật phân tích để trả về đúng thời gian
kết quả, trong khi các kỹ thuật và thuật toán hiện tại không hiệu quả để xử lý các
phân tích dữ liệu lớn. Do đó, cơ sở hạ tầng lớn và các ứng dụng bổ sung là cần
thiết để hỗ trợ dữ liệu
song song. Hơn nữa, các nguồn dữ liệu, chẳng hạn như dữ liệu tốc độ cao
luồng nhận được từ các nguồn dữ liệu khác nhau, có khác nhau
các định dạng, giúp tích hợp nhiều nguồn cho các giải pháp phân tích quan trọng
[28]. Do đó, thách thức được tập trung
về hiệu suất của các thuật toán hiện tại được sử dụng trong dữ liệu lớn
phân tích, không tăng tuyến tính với sự gia tăng nhanh chóng
trong tài nguyên tính toán [19].
Các quy trình phân tích dữ liệu lớn tiêu tốn thời gian đáng kể
để cung cấp phản hồi và hướng dẫn cho người dùng, trong khi
chỉ một vài công cụ [29] có thể xử lý các tập dữ liệu khổng lồ trong
thời gian xử lý hợp lý. Ngược lại, hầu hết
trong số các công cụ còn lại sử dụng thử và lỗi phức tạp
phương pháp để đối phó với số lượng lớn các tập dữ liệu và dữ liệu
tính không đồng nhất [30]. Hệ thống phân tích dữ liệu lớn tồn tại. Dành cho
ví dụ, Môi trường phân tích dữ liệu thăm dò [31]
là một hệ thống phân tích trực quan dữ liệu lớn được sử dụng để phân tích
mô phỏng hệ thống trái đất phức tạp với số lượng lớn dữ liệu
bộ.
A. HỆ THỐNG PHÂN TÍCH HIỆN TẠI
Các loại phân tích khác nhau được sử dụng theo yêu cầu của các ứng dụng IoT
[32]. Những loại phân tích này là
thảo luận trong tiểu mục này theo thời gian thực, ngoại tuyến,
cấp độ bộ nhớ, mức độ thông minh trong kinh doanh (BI) và lớn
phân loại cấp độ. Hơn nữa, một so sánh dựa trên
các loại phân tích và mức độ của chúng được trình bày trong Bảng 1.
Phân tích thời gian thực thường được thực hiện trên dữ liệu được thu thập từ các
cảm biến. Trong tình huống này, dữ liệu thay đổi liên tục,
và các kỹ thuật phân tích dữ liệu nhanh chóng được yêu cầu để có được
một kết quả phân tích trong một thời gian ngắn. Do đó, hai
kiến trúc hiện có đã được đề xuất để phân tích thời gian thực: các cụm xử lý song
song sử dụng quan hệ truyền thống
cơ sở dữ liệu và nền tảng điện toán dựa trên bộ nhớ [33].
Greenplum [34] và Hana [35] là những ví dụ về thời gian thực
kiến trúc phân tích.
Phân tích ngoại tuyến được sử dụng khi không có phản hồi nhanh
bắt buộc [32]. Ví dụ, nhiều doanh nghiệp Internet sử dụng
Kiến trúc phân tích ngoại tuyến dựa trên Hadoop để giảm
chi phí chuyển đổi định dạng dữ liệu [36]. Phân tích như vậy cải thiện
hiệu quả thu thập dữ liệu. SCRIBE [37], Kafka [38], TimeTunnel [39] và Chukwa
[40] là những ví dụ về kiến trúc
thực hiện phân tích ngoại tuyến và có thể đáp ứng nhu cầu của
thu thập dữ liệu.
Phân tích cấp bộ nhớ được áp dụng khi kích thước của dữ liệu
nhỏ hơn bộ nhớ của cụm [32]. Đến nay,
bộ nhớ của các cụm đã đạt đến mức terabyte (TB) [41].
Do đó, một số trong công nghệ cơ sở dữ liệu ternal là bắt buộc
để nâng cao hiệu quả phân tích. Phân tích cấp bộ nhớ là
thích hợp để tiến hành phân tích thời gian thực. MongoDB [42] là
một ví dụ về kiến trúc này.
Phân tích BI được thông qua khi kích thước của dữ liệu lớn hơn
mức bộ nhớ, nhưng trong trường hợp này, dữ liệu có thể được nhập
đến môi trường phân tích BI [43]. BI phân tích hiện tại
hỗ trợ dữ liệu cấp độ TB [32]. Hơn nữa, BI có thể giúp khám phá
cơ hội kinh doanh chiến lược từ lũ dữ liệu. Trong
Ngoài ra, phân tích BI cho phép dễ dàng giải thích khối lượng dữ liệu. Xác định
các cơ hội mới và thực hiện một
chiến lược hiệu quả mang lại lợi thế cạnh tranh trên thị trường và
sự ổn định lâu dài.
Phân tích lớn được áp dụng khi kích thước của dữ liệu lớn hơn
hơn toàn bộ năng lực của sản phẩm phân tích BI và cơ sở dữ liệu truyền thống
[44]. Phân tích lớn sử dụng hệ thống tệp phân tán Hadoop để lưu trữ dữ liệu và ánh
xạ / thu nhỏ cho dữ liệu
phân tích. Phân tích lớn giúp tạo nền tảng kinh doanh và tăng khả năng cạnh tranh
thị trường bằng cách trích xuất
giá trị ý nghĩa từ dữ liệu. Hơn nữa, phân tích lớn.
B. MỐI QUAN HỆ GIỮA IoT VÀ
PHÂN TÍCH SỐ LIỆU LỚN
Phân tích dữ liệu lớn đang nhanh chóng nổi lên như một sáng kiến quan trọng của
IoT
để cải thiện việc ra quyết định. Một trong những người nổi bật nhất
Các tính năng của IoT là phân tích thông tin về được kết nối
mọi thứ. Thông tin Phân tích dữ liệu lớn trong IoT yêu cầu xử lý lớn
lượng dữ liệu nhanh chóng và lưu trữ dữ liệu khác nhau
công nghệ lưu trữ. Cho rằng phần lớn không có cấu trúc
dữ liệu được thu thập trực tiếp từ ‘thứ được kích hoạt trên web
việc triển khai dữ liệu sẽ bắt buộc phải thực hiện phân tích nhanh như chớp với các
truy vấn lớn để cho phép các tổ chức
đạt được những hiểu biết nhanh chóng, đưa ra quyết định nhanh chóng và tương
tác với
người và các thiết bị khác. Sự kết nối của cảm biến
và thiết bị kích hoạt cung cấp khả năng chia sẻ thông tin trên các nền tảng thông
qua kiến trúc hợp nhất và
phát triển một bức tranh hoạt động chung để cho phép đổi mới
các ứng dụng.
Sự cần thiết phải áp dụng dữ liệu lớn trong các ứng dụng IoT là
thuyết phục. Hai công nghệ này đã được
được công nhận trong lĩnh vực CNTT và kinh doanh. Mặc dù,
phát triển dữ liệu lớn đã bị chậm trễ, các công nghệ này phụ thuộc lẫn nhau và nên
được phát triển chung.
Nói chung, việc triển khai IoT làm tăng số lượng
dữ liệu về số lượng và chủng loại; do đó, cung cấp cơ hội
cho các ứng dụng và phát triển các phân tích dữ liệu lớn.
Hơn nữa, việc áp dụng các công nghệ dữ liệu lớn trong IoT
đẩy nhanh tiến bộ nghiên cứu và mô hình kinh doanh của IoT.
Mối quan hệ giữa IoT và dữ liệu lớn, được hiển thị
trong Hình 1, có thể được chia thành ba bước để kích hoạt
quản lý dữ liệu IoT. Bước đầu tiên bao gồm quản lý nguồn dữ liệu IoT, nơi các
thiết bị cảm biến được kết nối sử dụng
các ứng dụng để tương tác với nhau. Ví dụ:
tương tác của các thiết bị như camera quan sát, giao thông thông minh
đèn chiếu sáng, và các thiết bị nhà thông minh, tạo ra một lượng lớn
nguồn dữ liệu với các định dạng khác nhau. Dữ liệu này có thể được lưu trữ trong
lưu trữ hàng hóa chi phí thấp trên đám mây. Trong bước thứ hai,
dữ liệu được tạo ra được gọi là data ‘dữ liệu lớn, hung dữ dựa trên
khối lượng, vận tốc và sự đa dạng của chúng. Những lượng lớn
dữ liệu được lưu trữ trong các tệp dữ liệu lớn trong cơ sở dữ liệu lỗi phân tán được
chia sẻ. Bước cuối cùng áp dụng các công cụ phân tích như
như MapReduce, Spark, Splunk và Skytree có thể phân tích
bộ dữ liệu IoT lớn được lưu trữ. Bốn cấp độ phân tích bắt đầu
từ dữ liệu đào tạo, sau đó chuyển sang các công cụ phân tích, truy vấn,
và báo cáo.
C. PHƯƠNG PHÁP PHÂN TÍCH SỐ LIỆU LỚN
Phân tích dữ liệu lớn nhằm mục đích trích xuất ngay lập tức thông tin có kiến thức
giúp đưa ra dự đoán, xác định
xu hướng gần đây, tìm kiếm thông tin ẩn, và cuối cùng,
đưa ra quyết định [7]. Kỹ thuật khai thác dữ liệu được phổ biến rộng rãi
triển khai cho cả hai phương pháp cụ thể và tổng quát
phân tích dữ liệu. Theo đó, phương pháp thống kê và máy học được sử dụng. Sự
phát triển của dữ liệu lớn cũng
thay đổi yêu cầu phân tích. Mặc dù các yêu cầu
cho các cơ chế hiệu quả nằm trong tất cả các khía cạnh của quản lý dữ liệu lớn
[30], chẳng hạn như chụp, lưu trữ, tiền xử lý và
phân tích; để thảo luận, phân tích dữ liệu lớn yêu cầu
tốc độ xử lý tương đương hoặc nhanh hơn phân tích dữ liệu truyền thống
với chi phí tối thiểu cho dữ liệu lớn, tốc độ cao và dữ liệu cao [45].
Các giải pháp khác nhau có sẵn cho các phân tích dữ liệu lớn và
những tiến bộ trong việc phát triển và cải thiện các giải pháp này
đang liên tục đạt được để làm cho chúng phù hợp với
xu hướng dữ liệu lớn mới. Khai thác dữ liệu đóng một vai trò quan trọng trong
phân tích và hầu hết các kỹ thuật được phát triển bằng cách sử dụng
thuật toán khai thác dữ liệu theo một kịch bản cụ thể.
Kiến thức về các tùy chọn phân tích dữ liệu lớn có sẵn là rất quan trọng
khi đánh giá và lựa chọn một phương pháp phù hợp cho
quyết định. Trong phần này, chúng tôi trình bày một số phương pháp
có thể được thực hiện cho một số nghiên cứu trường hợp dữ liệu lớn.
Một số phương pháp phân tích này có hiệu quả đối với dữ liệu IoT lớn
phân tích. Bộ dữ liệu đa dạng và kích thước to lớn đóng góp
nhiều hơn trong những hiểu biết dữ liệu lớn. Tuy nhiên, niềm tin này không phải
lúc nào cũng
hợp lệ vì nhiều dữ liệu hơn có thể có nhiều sự mơ hồ và
bất thường [7].
Chúng tôi trình bày các phương pháp phân tích dữ liệu lớn theo phân loại,
phân cụm, khai thác quy tắc kết hợp và các loại dự đoán.
Hình 2 mô tả và tóm tắt từng loại này.
Mỗi thể loại là một chức năng khai thác dữ liệu và liên quan đến nhiều
phương pháp và thuật toán để thực hiện khai thác thông tin
và yêu cầu phân tích. Ví dụ: mạng Bayes,
HÌNH 2. Tổng quan về các phương pháp phân tích dữ liệu lớn.
máy vectơ hỗ trợ (SVM) và hàng xóm gần nhất (KNN) cung cấp các phương pháp
phân loại. Tương tự, phân vùng, phân cụm phân cấp và cùng xuất hiện là
phổ biến rộng rãi trong cụm. Hiệp hội khai thác quy tắc và
dự đoán bao gồm các phương pháp quan trọng.
Phân loại là một phương pháp học tập có giám sát sử dụng
kiến thức trước là dữ liệu đào tạo để phân loại các đối tượng dữ liệu
thành các nhóm [46]. Một danh mục được xác định trước được gán cho một
đối tượng, và do đó, mục tiêu dự đoán một nhóm hoặc lớp
cho một đối tượng đạt được (xem Hình 2). Tìm ẩn số
hoặc các mẫu ẩn là thách thức hơn đối với dữ liệu IoT lớn.
Hơn nữa, trích xuất thông tin có giá trị từ dữ liệu lớn
thiết lập để cải thiện việc ra quyết định là một nhiệm vụ quan trọng. Một người
Bayes
mạng là một phương pháp phân loại cung cấp khả năng diễn giải mô hình. Mạng
Bayes có hiệu quả để phân tích
cấu trúc dữ liệu phức tạp được tiết lộ thông qua dữ liệu lớn hơn các định dạng dữ
liệu có cấu trúc truyền thống. Những mạng này là
đồ thị chu kỳ có hướng, trong đó các nút là các biến ngẫu nhiên
và các cạnh biểu thị sự phụ thuộc có điều kiện [47]. Bayes ngây thơ, ngây thơ chọn
lọc, nửa ngây thơ và đa lưới Bayes là
danh mục đề xuất để phân loại [48].
Phân tích các mẫu dữ liệu và tạo các nhóm có hiệu quả
được thực hiện bằng cách sử dụng SVM, đây cũng là cách tiếp cận phân loại
cho các phân tích dữ liệu lớn. SVM sử dụng lý thuyết học thống kê
để phân tích các mẫu dữ liệu và tạo các nhóm. Một số ứng dụng phân loại SVM
trong phân tích dữ liệu lớn bao gồm
phân loại văn bản [49], khớp mẫu [50], chẩn đoán sức khỏe [51] và thương mại.
Tương tự, KNN thường
được thiết kế để cung cấp các cơ chế hiệu quả để tìm ẩn
các mẫu từ các tập dữ liệu lớn, sao cho các đối tượng được truy xuất là
tương tự như thể loại được xác định trước [52]. Việc sử dụng các trường hợp tiếp
tục cải thiện thuật toán KNN cho ứng dụng bất thường
phát hiện [53], dữ liệu chiều cao [54] và khoa học
thí nghiệm [55]. Phân loại có các phần mở rộng khác trong khi
áp dụng một số lượng lớn trí tuệ và dữ liệu nhân tạo
kỹ thuật khai thác. Do đó, phân loại là một trong những
kỹ thuật khai thác dữ liệu rộng rãi cho các phân tích dữ liệu lớn.
Phân cụm là một kỹ thuật khai thác dữ liệu khác được sử dụng như là một
phương pháp phân tích dữ liệu. Trái với phân loại, phân cụm
sử dụng phương pháp học tập không giám sát và tạo các nhóm
cho các đối tượng nhất định dựa trên các tính năng có ý nghĩa đặc biệt của chúng
[56]. Như chúng ta đã trình bày trong Hình 2, nhóm
một số lượng lớn các đối tượng ở dạng cụm
Thao tác dữ liệu đơn giản. Các phương pháp nổi tiếng được sử dụng
để phân cụm là phân cụm và phân vùng phân cấp.
Phương pháp phân cụm phân cấp tiếp tục kết hợp nhỏ
cụm các đối tượng dữ liệu để tạo thành một cây phân cấp và tạo
cụm kết tụ. Các cụm phân chia được tạo ra trong
ngược lại bằng cách chia một cụm duy nhất chứa tất cả
các đối tượng dữ liệu thành các cụm thích hợp nhỏ hơn [57].
Phân tích thị trường và ra quyết định kinh doanh là nhiều nhất
các ứng dụng quan trọng của phân tích dữ liệu lớn. Quá trình
khai thác quy tắc kết hợp liên quan đến việc xác định thú vị
mối quan hệ giữa các đối tượng, sự kiện hoặc các thực thể khác để phân tích xu
hướng thị trường, hành vi mua của người tiêu dùng,
và dự đoán nhu cầu sản phẩm (xem Hình 2). Hội
quy tắc khai thác [58] tập trung vào việc xác định và tạo quy tắc
dựa trên tần suất xuất hiện của dữ liệu số và số không. Xử lý dữ liệu được thực
hiện trong hai cách
theo quy tắc kết hợp. Đầu tiên, xử lý dữ liệu tuần tự sử dụng
Các thuật toán dựa trên tiên nghiệm, như MSPS [59] và LAPINSPAM [60], để xác
định các hiệp hội tương tác. Một cách tiếp cận xử lý dữ liệu quan trọng khác theo
quy tắc kết hợp là
phân tích trình tự thời gian, trong đó sử dụng các thuật toán để phân tích
mô hình sự kiện trong dữ liệu liên tục.
Phân tích dự đoán sử dụng dữ liệu lịch sử, được biết đến
như dữ liệu đào tạo, để xác định kết quả là xu hướng hoặc hành vi
trong dữ liệu. Các thuật toán logic mờ và SVM được sử dụng để xác định
mối quan hệ giữa các biến độc lập và phụ thuộc
và để có được các đường cong hồi quy cho các dự đoán, chẳng hạn như cho
thảm họa thiên nhiên. Hơn nữa, dự đoán mua của khách hàng
và xu hướng truyền thông xã hội được phân tích thông qua phân tích dự đoán [61]
(xem Bảng 2). Trong trường hợp phân tích dữ liệu lớn,
yêu cầu xử lý được sửa đổi theo tính chất
và khối lượng dữ liệu. Phương pháp truy cập và khai thác dữ liệu nhanh cho
dữ liệu có cấu trúc và không cấu trúc là những mối quan tâm chính liên quan đến
phân tích dữ liệu lớn. Hơn nữa, biểu diễn dữ liệu là một yêu cầu quan trọng trong
phân tích dữ liệu lớn. Phân tích chuỗi thời gian làm giảm tính chiều cao liên quan
đến dữ liệu lớn và
cung cấp đại diện để cải thiện việc ra quyết định. Nghiên cứu
liên quan đến biểu diễn chuỗi thời gian bao gồm ARMA [62],
bitmap [63] và các hàm sóng con [64].
Các phương pháp phân tích dữ liệu lớn được thảo luận trong phần này
được áp dụng rộng rãi trong nhiều lĩnh vực ứng dụng của dữ liệu lớn, như quản lý
thảm họa, y tế, kinh doanh, công nghiệp,
và quản trị điện tử. Trong Bảng 2, chúng tôi trình bày ứng dụng
lĩnh vực chức năng khai thác dữ liệu lớn được xây dựng
trong phần này, ’X, được sử dụng để hiển thị hỗ trợ cho một ứng dụng trong khi’ -
Hồi biểu thị rằng không rõ liệu
phương pháp có hỗ trợ cho một ứng dụng hay không. Đặc biệt,
Bảng 2 cho thấy các phương pháp phân loại phù hợp với
hình ảnh y tế, công nghiệp, nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên và quản
trị điện tử. Phương pháp phân tích dữ liệu dựa trên quy tắc phân cụm và liên kết
được áp dụng cho
công nghiệp và quản trị điện tử và được áp dụng tốt trong y tế, thương mại điện tử
và tin sinh học. Phân tích dự đoán
rất hữu ích cho thảm họa và dự đoán thị trường, trong khi
phân tích chuỗi thời gian được sử dụng trong dự báo thảm họa, y tế
hình ảnh, nhận dạng giọng nói, phân tích mạng xã hội và
quản trị điện tử
D. KIẾN TRÚC IoT CHO PHÂN TÍCH SỐ LIỆU LỚN
Khái niệm kiến trúc của IoT có một số định nghĩa dựa trên
về sự trừu tượng và nhận dạng tên miền IoT. Nó cung cấp một mô hình tham chiếu
xác định mối quan hệ giữa các IoT khác nhau
ngành dọc, chẳng hạn như, giao thông thông minh, nhà thông minh, giao thông
thông minh và sức khỏe thông minh. Kiến trúc cho dữ liệu lớn
phân tích cung cấp một thiết kế cho trừu tượng dữ liệu. Hơn nữa,
tiêu chuẩn này cung cấp một kiến trúc tham chiếu xây dựng
theo mô hình tham chiếu. Nhiều kiến trúc IoT được tìm thấy
trong tài liệu [13], [66], [67]. Ví dụ: [13] được cung cấp
một kiến trúc IoT với điện toán đám mây ở trung tâm và một
mô hình tương tác đầu cuối giữa các bên liên quan khác nhau
trong khuôn khổ IoT tập trung vào đám mây để so sánh tốt hơn với
kiến trúc IoT đề xuất. Kiến trúc này đạt được
bằng cảm biến phổ biến khắp nơi, phân tích dữ liệu và biểu diễn thông tin với IoT
là kiến trúc thống nhất.
Tuy nhiên, kiến trúc hiện tại tập trung vào IoT liên quan đến
để liên lạc. Theo hiểu biết của chúng tôi, kiến trúc được đề xuất của chúng tôi, tích
hợp IoT và phân tích dữ liệu lớn, đã không
đã được nghiên cứu trong các tài liệu hiện tại. Hình 3 minh họa
Kiến trúc IoT và phân tích dữ liệu lớn. Trong hình này,
lớp cảm biến chứa tất cả các thiết bị cảm biến và các đối tượng,
được kết nối qua mạng không dây. Giao tiếp mạng không dây này có thể là RFID,
WiFi, ultrawideband, ZigBee và Bluetooth. Cổng IoT cho phép truyền thông của
Internet và các trang web khác nhau. Phần trên
lớp liên quan đến phân tích dữ liệu lớn, trong đó một lượng lớn
dữ liệu nhận được từ các cảm biến được lưu trữ trên đám mây và
truy cập thông qua các ứng dụng phân tích dữ liệu lớn. Các ứng dụng này chứa
quản lý API và bảng điều khiển để trợ giúp
sự tương tác với công cụ xử lý.
Một cách tiếp cận dựa trên mô hình meta mới lạ để tích hợp IoT
đối tượng kiến trúc được đề xuất. Khái niệm này được liên kết bán tự động vào
một môi trường kiến trúc doanh nghiệp kỹ thuật số toàn diện. Mục tiêu chính là
cung cấp một
hỗ trợ quyết định đầy đủ cho kinh doanh phức tạp, kiến trúc
quản lý với sự phát triển của các hệ thống đánh giá,
và môi trường CNTT. Do đó, các quyết định kiến trúc cho IoT
được kết nối chặt chẽ với việc thực thi mã để cho phép
Người dùng hiểu được sự tích hợp của kiến trúc doanh nghiệp
quản lý với IoT.
IV. TRƯỜNG HỢP SỬ DỤNG
Phần này trình bày một số trường hợp sử dụng cho IoT lớn
phân tích dữ liệu. Mặc dù các trường hợp sử dụng có liên quan đến IoT
các ứng dụng, các lựa chọn đã được hướng dẫn cho những ứng dụng
được sử dụng phổ biến nhất trong các ứng dụng IoT và cho
lượng dữ liệu có thể được tạo để phân tích.
A. KIM LOẠI THÔNG MINH
Đo sáng thông minh là một trong những trường hợp sử dụng ứng dụng IoT
tạo ra một lượng lớn dữ liệu từ các nguồn khác nhau,
chẳng hạn như lưới điện thông minh, mực nước bể, và dòng nước và silo
tính toán cổ phiếu, trong đó xử lý mất nhiều thời gian
thậm chí trên một máy chuyên dụng và mạnh mẽ [68]. Thông minh
mét là một thiết bị ghi lại điện tử tiêu thụ
dữ liệu năng lượng điện giữa đồng hồ và điều khiển
hệ thống. Thu thập và phân tích dữ liệu đồng hồ thông minh trong IoT
môi trường hỗ trợ người ra quyết định trong việc dự đoán mức tiêu thụ điện. Hơn
nữa, các phân tích của một thông minh
mét cũng có thể được sử dụng để dự báo nhu cầu để ngăn chặn khủng hoảng
và đáp ứng các mục tiêu chiến lược thông qua các kế hoạch giá cụ thể.
Do đó, các công ty tiện ích phải có khả năng dữ liệu khối lượng lớn
quản lý và phân tích nâng cao được thiết kế để chuyển đổi
dữ liệu vào những hiểu biết hành động.
B. VẬN TẢI THÔNG MINH
Một hệ thống giao thông thông minh là trường hợp sử dụng dựa trên IoT
nhằm mục đích hỗ trợ các khái niệm thành phố thông minh. Một phương tiện giao
thông thông minh
hệ thống dự định triển khai các công nghệ truyền thông mạnh mẽ và tiên tiến để
quản lý các thành phố thông minh.
Hệ thống giao thông truyền thống, dựa trên hình ảnh
chế biến, bị ảnh hưởng bởi điều kiện thời tiết, chẳng hạn như nặng
mưa và sương mù dày đặc. Do đó, hình ảnh được chụp có thể
không được nhìn thấy rõ ràng Thiết kế của một hệ thống tấm điện tử [69]
sử dụng công nghệ RFID cung cấp một giải pháp tốt để giám sát, theo dõi và nhận
dạng phương tiện thông minh.
Hơn nữa, giới thiệu IoT vào các công nghệ mạnh mẽ sẽ
cho phép quản lý tắc nghẽn giao thông để triển lãm đáng kể
hiệu suất tốt hơn so với cơ sở hạ tầng hiện có. Công nghệ này có thể cải thiện các
hệ thống giao thông hiện có trong đó phương tiện
có thể giao tiếp với nhau một cách hiệu quả
cách thức mà không cần sự can thiệp của con người.
Hệ thống định vị vệ tinh và cảm biến cũng có thể được
áp dụng trong xe tải, tàu và máy bay trong thời gian thực. Các
định tuyến của những chiếc xe này có thể được tối ưu hóa bằng cách sử dụng
phần lớn dữ liệu công khai có sẵn, chẳng hạn như kẹt xe, đường bộ
điều kiện, địa chỉ giao hàng, điều kiện thời tiết và vị trí của các trạm nạp. Ví dụ,
trong trường hợp thời gian chạy
thay đổi địa chỉ, thông tin cập nhật (tuyến đường, chi phí) có thể
được tối ưu hóa, tính toán lại và chuyển cho các trình điều khiển trong thực tế
thời gian. Các cảm biến được tích hợp vào các phương tiện này cũng có thể cung
cấp thông tin theo thời gian thực để đo sức khỏe động cơ, xác định xem thiết bị có
cần bảo trì hay không và dự đoán
lỗi [70].
C. CHUAINI CUNG CẤP THÔNG MINH
Các công nghệ cảm biến nhúng có thể giao tiếp hai chiều và cung cấp khả năng
truy cập từ xa tới hơn 1 triệu
thang máy trên toàn thế giới [71]. Dữ liệu thu được được sử dụng bởi các kỹ thuật
viên tại chỗ và chạy các tùy chọn chẩn đoán và sửa chữa
để đưa ra quyết định phù hợp, dẫn đến tăng
thời gian hoạt động của máy và dịch vụ khách hàng nâng cao. Cuối cùng,
phân tích dữ liệu IoT lớn cho phép chuỗi cung ứng thực thi
quyết định và kiểm soát môi trường bên ngoài. Kích hoạt IoT
thiết bị nhà máy sẽ có thể giao tiếp trong dữ liệu
các thông số (nghĩa là sử dụng máy, nhiệt độ) và tối ưu hóa hiệu suất bằng cách
thay đổi cài đặt thiết bị hoặc quy trình xử lý công việc [72]. Khả năng hiển thị quá
cảnh là một trường hợp sử dụng khác
điều đó sẽ đóng một vai trò quan trọng trong chuỗi cung ứng trong tương lai
sự hiện diện của cơ sở hạ tầng IoT. Các công nghệ chính được sử dụng bởi khả
năng hiển thị nội bộ là RFID và Hệ thống định vị toàn cầu (GPS) dựa trên đám
mây, cung cấp vị trí, danh tính và các thứ khác
theo dõi thông tin. Những dữ liệu này sẽ là xương sống của
chuỗi cung ứng được hỗ trợ bởi các công nghệ IoT. Thông tin được thu thập bởi
thiết bị sẽ cung cấp khả năng hiển thị chi tiết
của một mặt hàng được vận chuyển từ một nhà sản xuất đến một nhà bán lẻ. Dữ
liệu
được thu thập thông qua công nghệ RFID và GPS sẽ cho phép cung cấp
quản lý chuỗi để tăng cường giao hàng tự động và chính xác
thông tin giao hàng bằng cách dự đoán thời gian đến. Tương tự
người quản lý sẽ có thể theo dõi các thông tin khác, chẳng hạn như
kiểm soát nhiệt độ, có thể ảnh hưởng đến chất lượng quá cảnh
các sản phẩm.
D. NÔNG NGHIỆP THÔNG MINH
Nông nghiệp thông minh là trường hợp sử dụng có lợi trong dữ liệu IoT lớn
phân tích. Cảm biến là tác nhân trong sử dụng nông nghiệp thông minh
trường hợp Chúng được cài đặt trong các lĩnh vực để có được dữ liệu về độ ẩm
mức độ đất, đường kính thân cây, điều kiện vi khí hậu,
và độ ẩm, cũng như để dự báo thời tiết. Cảm biến
truyền dữ liệu thu được bằng cách sử dụng mạng và truyền thông
thiết bị. Những dữ liệu này đi qua một cổng IoT và
Internet để tiếp cận lớp phân tích được hiển thị trong Bảng 1.
lớp phân tích xử lý dữ liệu thu được từ mạng cảm biến để ra lệnh. Kiểm soát khí
hậu tự động
theo yêu cầu thu hoạch, kịp thời và kiểm soát
thủy lợi và kiểm soát độ ẩm cho nấm phòng ngừa là ví dụ về các hành động được
thực hiện dựa trên phân tích dữ liệu lớn khuyến nghị.
E. GRID THÔNG MINH
Lưới điện thông minh là một thế hệ lưới điện mới, trong đó
quản lý và phân phối điện giữa các nhà cung cấp và
người tiêu dùng được nâng cấp bằng cách sử dụng các công nghệ truyền thông hai
chiều và khả năng tính toán để cải thiện độ tin cậy,
an toàn, hiệu quả với kiểm soát thời gian thực và giám sát [73],
[74]. Một trong những thách thức lớn trong hệ thống điện là
tích hợp năng lượng tái tạo và phi tập trung. Điện lực
các hệ thống yêu cầu một lưới điện thông minh để quản lý hành vi biến động của
các nguồn năng lượng phân tán (DER) [75]. Tuy nhiên,
hầu hết các hệ thống năng lượng phải tuân theo luật pháp của chính phủ và
quy định, cũng như xem xét phân tích kinh doanh và các ràng buộc pháp lý tiềm ẩn
[76]. Các cảm biến và thiết bị lưới liên tục và nhanh chóng tạo ra dữ liệu liên quan
đến các vòng điều khiển
và bảo vệ và yêu cầu xử lý và phân tích thời gian thực cùng với các tương tác giữa
máy với máy (M2M) hoặc người-tomachine (HMI) để đưa ra các lệnh điều khiển
cho
hệ thống. Tuy nhiên, hệ thống phải hoàn thành trực quan hóa và
yêu cầu báo cáo.
F. HỆ THỐNG ÁNH SÁNG GIAO THÔNG THÔNG MINH
Hệ thống đèn giao thông thông minh bao gồm các nút cục bộ
tương tác với các cảm biến và thiết bị IoT để phát hiện sự hiện diện của
phương tiện, người đi xe đạp và người đi bộ. Các nút giao tiếp
với đèn giao thông lân cận để đo tốc độ và
khoảng cách tiếp cận phương tiện giao thông và quản lý
tín hiệu giao thông xanh [77]. Dữ liệu IoT được thu thập bằng hệ thống
yêu cầu xử lý phân tích thời gian thực để thực hiện cần thiết
các tác vụ, chẳng hạn như thay đổi chu kỳ thời gian theo lưu lượng
điều kiện, gửi tín hiệu thông tin đến các nút lân cận,
và phát hiện các phương tiện tiếp cận sử dụng cảm biến IoT và
thiết bị để ngăn chặn hàng dài hoặc tai nạn. Hơn nữa, thông minh
hệ thống đèn giao thông có thể gửi dữ liệu IoT được thu thập của họ lên đám mây
lưu trữ để phân tích thêm. Bảng 3 trình bày các trường hợp sử dụng
IoT phân tích dữ liệu lớn.
Như thể hiện trong Bảng 3, hầu hết các trường hợp sử dụng đều liên quan đến
Công nghệ truyền thông M2M và giảm vai trò của
tương tác của con người. Tuy nhiên, các công nghệ sử dụng dự đoán
phương pháp và kỹ thuật ra quyết định để cải thiện kiểm soát, giám sát và hiệu suất
thời gian thực. Dữ liệu văn bản là
trong số các loại dữ liệu phổ biến được tạo bởi các thiết bị IoT,
trong đó chủ yếu là cảm biến và máy ảnh. Dữ liệu dựa trên văn bản là
phù hợp để phân tích bởi các hệ thống tệp phân tán, chẳng hạn như
Hadoop.
V. CƠ HỘI
IoT hiện được coi là một trong những bước chuyển đổi sâu sắc nhất trong công
nghệ. IoT hiện tại cung cấp một số cơ hội phân tích dữ liệu cho các phân tích dữ
liệu lớn. Hình 4 cho thấy
các ví dụ về các trường hợp sử dụng và các cơ hội được thảo luận trong
Phần 4 và 5.
A. THƯƠNG MẠI ĐIỆN TỬ
Phân tích dữ liệu IoT lớn cung cấp các công cụ được thiết kế tốt để xử lý
dữ liệu lớn thời gian thực, tạo ra kết quả kịp thời cho việc ra quyết định. Dữ liệu
IoT lớn thể hiện tính không đồng nhất, ngày càng tăng
khối lượng, và các tính năng xử lý dữ liệu thời gian thực. Sự hội tụ của dữ liệu lớn
với IoT mang đến những thách thức mới và
cơ hội xây dựng môi trường thông minh. Phân tích dữ liệu IoT lớn có các ứng dụng
rộng rãi trong gần như mọi ngành công nghiệp.
Tuy nhiên, các lĩnh vực phân tích thành công chính là ở
thương mại điện tử, tăng trưởng doanh thu, tăng quy mô khách hàng, độ chính xác
của kết quả dự báo bán hàng, tối ưu hóa sản phẩm, rủi ro
quản lý, và cải thiện phân khúc khách hàng.
B. CÁC KHOẢN THÔNG MINH
Dữ liệu lớn được thu thập từ các thành phố thông minh mang đến những cơ hội
mới trong đó đạt được hiệu quả có thể đạt được thông qua một
nền tảng / cơ sở hạ tầng phân tích phù hợp để phân tích lớn Dữ liệu IoT. Các thiết
bị khác nhau kết nối Internet một cách thông minh
môi trường và chia sẻ thông tin. Hơn nữa, chi phí của
lưu trữ dữ liệu đã được giảm đáng kể sau khi phát minh
của công nghệ điện toán đám mây. Khả năng phân tích có
tạo ra những bước nhảy vọt. Do đó, vai trò của dữ liệu lớn trong một thành phố
thông minh có thể
có khả năng biến đổi mọi lĩnh vực của nền kinh tế của một quốc gia.
Hadoop với trình quản lý tài nguyên YARN đã cung cấp gần đây
tiến bộ trong công nghệ dữ liệu lớn để hỗ trợ và xử lý
nhiều khối lượng công việc, xử lý thời gian thực và phát trực tuyến
nhập dữ liệu.
C. BÁN LẺ VÀ LOGISTICS
IoT dự kiến sẽ đóng một vai trò quan trọng như là một công nghệ mới nổi
trong lĩnh vực bán lẻ và hậu cần. Trong hậu cần, RFID giữ
theo dõi các container, pallet và thùng. Ngoài ra, những tiến bộ đáng kể trong công
nghệ IoT có thể tạo điều kiện cho các nhà bán lẻ
bằng cách cung cấp một số lợi ích. Tuy nhiên, các thiết bị IoT tạo ra
số lượng lớn dữ liệu hàng ngày. Do đó, dữ liệu mạnh mẽ
phân tích cho phép doanh nghiệp hiểu rõ hơn về lượng dữ liệu khổng lồ được tạo
ra thông qua các công nghệ IoT.
Áp dụng phân tích dữ liệu cho các bộ dữ liệu logistic có thể cải thiện
kinh nghiệm vận chuyển của khách hàng. Hơn nữa, các công ty bán lẻ có thể kiếm
thêm lợi nhuận bằng cách phân tích dữ liệu khách hàng,
có thể dự đoán xu hướng và nhu cầu của hàng hóa. Bằng cách xem xét dữ liệu
khách hàng, tối ưu hóa kế hoạch giá và theo mùa
chương trình khuyến mãi có thể được lên kế hoạch hiệu quả để tối đa hóa lợi
nhuận.
D. SỨC KHỎE
Những năm gần đây đã chứng kiến sự phát triển vượt bậc trong thông minh
thiết bị theo dõi sức khỏe. Những thiết bị này tạo ra lượng dữ liệu khổng lồ. Do đó,
áp dụng phân tích dữ liệu vào dữ liệu thu thập từ máy theo dõi thai nhi, điện tâm
đồ, máy đo nhiệt độ hoặc máy đo đường huyết có thể giúp ích
các chuyên gia chăm sóc sức khỏe đánh giá hiệu quả các điều kiện vật lý của bệnh
nhân. Hơn nữa, phân tích dữ liệu cho phép chăm sóc sức khỏe
các chuyên gia để chẩn đoán các bệnh nghiêm trọng trong giai đoạn đầu của họ
để giúp cứu sống. Hơn nữa, phân tích dữ liệu cải thiện
chất lượng lâm sàng chăm sóc và đảm bảo an toàn cho bệnh nhân.
Ngoài ra, hồ sơ bác sĩ có thể được xem xét bằng cách tìm kiếm
vào lịch sử điều trị của bệnh nhân, có thể cải thiện
sự hài lòng của khách hàng, mua lại và duy trì.
VI. MỞ THÁCH THỨC VÀ HƯỚNG DẪN TƯƠNG LAI
IoT và phân tích dữ liệu lớn đã được chấp nhận rộng rãi
bởi nhiều tổ chức. Tuy nhiên, những công nghệ này vẫn còn
trong giai đoạn đầu của họ. Một số thách thức nghiên cứu hiện có
chưa được giải quyết. Phần này trình bày một số
những thách thức trong lĩnh vực phân tích dữ liệu IoT lớn.
A. RIÊNG TƯ
Các vấn đề riêng tư phát sinh khi một hệ thống bị xâm phạm để suy luận
hoặc khôi phục thông tin cá nhân bằng các công cụ phân tích dữ liệu lớn,
mặc dù dữ liệu được tạo ra từ người dùng ẩn danh. Với
phổ biến các công nghệ phân tích dữ liệu lớn được sử dụng trong lớn
Dữ liệu IoT, vấn đề riêng tư đã trở thành vấn đề cốt lõi trong
miền khai thác dữ liệu. Do đó, hầu hết mọi người đều miễn cưỡng
dựa vào các hệ thống này, không cung cấp các điều kiện thỏa thuận dịch vụ liên kết
(SLA) liên quan đến cá nhân người dùng
trộm cắp thông tin hoặc sử dụng sai. Trên thực tế, thông tin nhạy cảm của người
dùng phải được bảo mật và bảo vệ khỏi bên ngoài
giao thoa. Mặc dù nhận dạng tạm thời, ẩn danh,
và mã hóa cung cấp một số cách để thực thi quyền riêng tư dữ liệu, quyết định phải
được thực hiện liên quan đến các yếu tố đạo đức, như vậy
như sử dụng cái gì, sử dụng như thế nào và tại sao sử dụng IoT lớn được tạo ra
dữ liệu [7].
Một rủi ro bảo mật khác liên quan đến dữ liệu IoT là sự không đồng nhất của các
loại thiết bị được sử dụng và bản chất của dữ liệu được tạo, chẳng hạn như thiết bị
thô, loại dữ liệu và giao tiếp
giao thức. Những thiết bị này có thể có kích thước và hình dạng khác nhau
bên ngoài mạng và được thiết kế để liên lạc với
ứng dụng hợp tác. Do đó, để xác thực các thiết bị này,
một hệ thống IoT sẽ chỉ định một nhận dạng không thể thoái thác
hệ thống đến từng thiết bị. Hơn nữa, doanh nghiệp nên duy trì
kho lưu trữ meta của các thiết bị được kết nối này để kiểm toán
mục đích. Kiến trúc IoT không đồng nhất này là mới đối với
các chuyên gia bảo mật, và do đó, dẫn đến tăng cường bảo mật
rủi ro. Do đó, bất kỳ cuộc tấn công trong kịch bản này đều thỏa hiệp
bảo mật hệ thống và ngắt kết nối các thiết bị kết nối với nhau.
Trong bối cảnh dữ liệu IoT lớn, bảo mật và quyền riêng tư là
những thách thức chính trong xử lý và lưu trữ số lượng lớn
Dữ liệu. Hơn nữa, để thực hiện các hoạt động quan trọng và máy chủ lưu trữ
dữ liệu riêng tư, các hệ thống này phụ thuộc nhiều vào dịch vụ của bên thứ ba
và cơ sở hạ tầng. Do đó, sự tăng trưởng theo cấp số nhân của dữ liệu
tỷ lệ gây khó khăn trong việc đảm bảo từng phần
dữ liệu quan trọng. Như đã thảo luận trước đây, bảo mật hiện có
các giải pháp (Karim, 2016 # 86) không còn áp dụng được để cung cấp bảo mật
hoàn toàn trong các kịch bản dữ liệu IoT lớn. Hiện tại
các thuật toán không được thiết kế để quan sát động
dữ liệu, và do đó, không được áp dụng hiệu quả. Dữ liệu di sản
giải pháp bảo mật được thiết kế đặc biệt cho các tập dữ liệu tĩnh,
trong khi các yêu cầu dữ liệu hiện tại đang thay đổi linh hoạt
(Lafuente, 2015). Vì vậy, triển khai các giải pháp bảo mật này là
khó khăn cho dữ liệu tăng động. Ngoài ra, các vấn đề lập pháp và quy định nên
được xem xét trong khi ký
SLA.
Liên quan đến dữ liệu được tạo thông qua IoT, sau đây
vấn đề bảo mật có thể xuất hiện [78]: (a) cập nhật kịp thời -
khó khăn trong việc giữ cho các hệ thống được cập nhật, (b) sự cố
quản lý - xác định các mẫu lưu lượng đáng ngờ trong số
những người hợp pháp và có thể không nắm bắt được các sự cố không xác định
được, (c) khả năng tương tác - các thủ tục độc quyền và nhà cung cấp sẽ gây khó
khăn trong việc tìm kiếm ẩn
hoặc các cuộc tấn công ngày không, (d) và hội tụ giao thức - mặc dù
IPv6 hiện tương thích với các thông số kỹ thuật mới nhất,
giao thức này vẫn chưa được triển khai đầy đủ. Do đó,
áp dụng các quy tắc bảo mật trên IPv4 có thể không được áp dụng
để bảo vệ IPv6.
Hiện tại, không có câu trả lời nào có thể giải quyết những thách thức này và
quản lý bảo mật và quyền riêng tư của các thiết bị được kết nối với nhau.
Tuy nhiên, các hướng dẫn sau đây có thể khắc phục những nghịch cảnh này. (a)
Đầu tiên, một hệ sinh thái mở thực sự với các API tiêu chuẩn là
cần thiết để tránh các vấn đề về khả năng tương tác và độ tin cậy.
(b) Thứ hai, các thiết bị phải được bảo vệ tốt trong khi giao tiếp với các đồng
nghiệp. (c) Thứ ba, các thiết bị nên được mã hóa cứng
thực hành bảo mật tốt nhất để bảo vệ chống lại an ninh chung
và các mối đe dọa riêng tư.
B. KHAI THÁC DỮ LIỆU
Phương pháp khai thác dữ liệu cung cấp các giải pháp dự đoán hoặc mô tả phù hợp
và hiệu quả nhất cho dữ liệu lớn cũng có thể là
tổng quát cho dữ liệu mới [45]. Sự phát triển của dữ liệu IoT lớn
và nền tảng điện toán đám mây đã mang đến những thách thức của
thăm dò dữ liệu và khai thác thông tin [79]. Tuy nhiên,
đối với kiến trúc dữ liệu IoT lớn tổng thể, Hình 5 trình bày
những thách thức chính liên quan đến xử lý và khai thác dữ liệu.
Dữ liệu toàn diện đọc / ghi: Khối lượng lớn, tốc độ cao và chất lượng đa dạng cao
của thách thức dữ liệu IoT lớn
thăm dò, tích hợp, giao tiếp không đồng nhất, và
quá trình khai thác. Kích thước và tính không đồng nhất của dữ liệu
áp đặt các yêu cầu khai thác dữ liệu mới và tính đa dạng trong dữ liệu
các nguồn cũng đặt ra một thách thức [80] - [82]. Hơn nữa, so với các tập dữ liệu
nhỏ, các tập dữ liệu lớn bao gồm nhiều hơn
những bất thường và sự mơ hồ đòi hỏi các bước tiền xử lý bổ sung, chẳng hạn như
làm sạch, giảm và truyền [23], [83]. Một vấn đề khác nằm ở việc trích xuất chính
xác
và thông tin am hiểu từ khối lượng lớn
dữ liệu đa dạng. Do đó, có được thông tin chính xác
từ dữ liệu phức tạp đòi hỏi phải phân tích các thuộc tính dữ liệu và
tìm kiếm sự liên kết giữa các điểm dữ liệu khác nhau.
Các nhà nghiên cứu đã giới thiệu song song và tuần tự
mô hình lập trình và đề xuất các thuật toán khác nhau để
giảm thiểu thời gian phản hồi truy vấn trong khi xử lý dữ liệu lớn.
Hơn nữa, các nhà nghiên cứu đã chọn khai thác dữ liệu hiện có
các thuật toán theo cách khác nhau để (a) cải thiện nguồn đơn
khám phá kiến thức, (b) thực hiện các phương pháp khai thác dữ liệu cho
nền tảng đa nguồn và (c) nghiên cứu và phân tích động
phương pháp khai thác dữ liệu và luồng dữ liệu [84]. Do đó, song song
thuật toán k-mean [85] và khai thác quy tắc kết hợp song song
phương pháp [65] được giới thiệu. Tuy nhiên, cần phải nghĩ ra
các thuật toán vẫn còn để cung cấp khả năng tương thích với mới nhất
kiến trúc song song. Hơn nữa, vấn đề đồng bộ hóa có thể
xảy ra trong điện toán song song, trong khi thông tin được trao đổi
trong các phương pháp khai thác dữ liệu khác nhau. Nút cổ chai dữ liệu này
phương pháp khai thác đã trở thành một vấn đề mở trong dữ liệu IoT lớn
phân tích cần được giải quyết.
C. TẦM NHÌN
Trực quan hóa là một thực thể quan trọng trong phân tích dữ liệu lớn,
đặc biệt là khi làm việc với các hệ thống IoT nơi có dữ liệu
tạo ra rất lớn. Hơn nữa, tiến hành trực quan hóa dữ liệu là khó khăn vì kích thước
lớn và kích thước cao của dữ liệu lớn. Tình huống này cho thấy xu hướng cơ bản

một bức tranh hoàn chỉnh về dữ liệu được phân tích cú pháp Do đó, phân tích dữ
liệu lớn và trực quan hóa phải hoạt động trơn tru để có được
kết quả tốt nhất từ các ứng dụng IoT trong dữ liệu lớn. Tuy nhiên,
hình dung trong trường hợp dữ liệu không đồng nhất và đa dạng
(không cấu trúc, cấu trúc và bán cấu trúc) là một nhiệm vụ đầy thách thức. Thiết kế
giải pháp trực quan tương thích
với các khung lập chỉ mục dữ liệu lớn tiên tiến là một khó khăn
bài tập. Tương tự, thời gian đáp ứng là một yếu tố mong muốn trong IoT lớn
phân tích dữ liệu. Do đó, kiến trúc điện toán đám mây
được hỗ trợ với các tiện ích GUI phong phú có thể được triển khai để có được
hiểu biết tốt hơn về xu hướng dữ liệu IoT lớn [86].
Phương pháp giảm kích thước khác nhau đã được
được giới thiệu như là kết quả của sự phức tạp và chiều cao lớn
Dữ liệu IoT [87], [88]. Tuy nhiên, các phương pháp này không phù hợp với tất cả
các loại dữ liệu được trình bày. Tương tự, khi kích thước tăng cường được hiển thị
hiệu quả, xác suất
để xác định các mối tương quan, mô hình và outliners có thể quan sát được là
cao [89]. Hơn nữa, dữ liệu nên được lưu giữ cục bộ để có được
thông tin có thể sử dụng hiệu quả vì các hạn chế về năng lượng và băng thông.
Ngoài ra, phần mềm trực quan nên
chạy với khái niệm địa phương tham chiếu để đạt được hiệu quả
kết quả trong một môi trường IoT. Cho rằng số lượng lớn
Dữ liệu IoT đang tăng nhanh, yêu cầu rất lớn
song song hóa là một nhiệm vụ đầy thách thức trong hình dung. Như vậy
để phân tách một vấn đề thành các nhiệm vụ độc lập có thể quản lý
để thực thi đồng thời các truy vấn là một thách thức đối với
thuật toán trực quan song song [90].
Hiện nay, hầu hết các công cụ trực quan hóa dữ liệu lớn được sử dụng cho
IoT thể hiện kết quả hoạt động kém về chức năng, khả năng mở rộng và thời gian
đáp ứng. Để cung cấp hiệu quả
hình dung không chắc chắn trong quá trình phân tích hình ảnh
quá trình, tránh sự không chắc chắn đặt ra một thách thức đáng kể [32]. Hơn nữa,
một số vấn đề quan trọng là
đã giải quyết [91], chẳng hạn như (a) nhiễu hình ảnh - hầu hết tập dữ liệu
các đối tượng có liên quan chặt chẽ với nhau và do đó, người dùng có thể
nhận thức kết quả khác nhau của cùng một loại; (b) thông tin
mất - áp dụng các phương pháp giảm cho các tập dữ liệu hiển thị có thể
gây mất thông tin; (c) quan sát hình ảnh lớn - dữ liệu
các công cụ trực quan có vấn đề cố hữu đối với
tỷ lệ khung hình, độ phân giải nghĩ ra và giới hạn nhận thức vật lý; (d) hình ảnh
thay đổi thường xuyên - người dùng sẽ không nhận thấy
thay đổi dữ liệu nhanh chóng trong một đầu ra; và (e) hiệu suất cao
yêu cầu - yêu cầu hiệu suất cao được áp đặt
bởi vì dữ liệu được tạo ra một cách linh hoạt trong môi trường IoT. Hơn nữa, các
phương pháp được hỗ trợ bởi các phân tích nâng cao
cho phép đồ họa tương tác trên máy tính xách tay, máy tính để bàn hoặc điện thoại
di động
các thiết bị, chẳng hạn như điện thoại thông minh và máy tính bảng [92].
Phân tích thời gian thực là một xem xét khác được nhấn mạnh
trong kiến trúc IoT. Một số hướng dẫn về trực quan hóa trong
dữ liệu lớn được trình bày [93], chẳng hạn như (a) nhận thức dữ liệu, tức là,
chuyên môn miền thích hợp, (b) chất lượng dữ liệu - làm sạch dữ liệu
sử dụng chính sách quản lý thông tin hoặc quản trị dữ liệu,
(c) kết quả có ý nghĩa - phân cụm dữ liệu được sử dụng để cung cấp
trừu tượng cấp cao sao cho tầm nhìn của nhỏ hơn
các nhóm dữ liệu là có thể, và (d) các ngoại lệ nên được loại bỏ
từ dữ liệu hoặc được coi là một thực thể riêng biệt. Tham khảo [94]
đề nghị rằng trực quan hóa phải tuân thủ những điều sau đây
hướng dẫn: (a) hệ thống cần đặc biệt chú ý
để siêu dữ liệu, (b) phần mềm trực quan phải tương tác
và nên yêu cầu sự tham gia tối đa của người dùng và (c) công cụ
nên được xây dựng dựa trên tính chất động của tạo
dữ liệu.
D. TÍCH HỢP
Tích hợp đề cập đến việc có một cái nhìn thống nhất về các định dạng khác nhau.
Tích hợp dữ liệu cung cấp một cái nhìn duy nhất về dữ liệu
đến từ các nguồn khác nhau và kết hợp quan điểm của
dữ liệu [95]. Tích hợp dữ liệu bao gồm tất cả các quy trình liên quan đến
thu thập dữ liệu từ các nguồn khác nhau, cũng như trong việc lưu trữ
và cung cấp dữ liệu thống nhất định dạng của dữ liệu phi cấu trúc [98]. Khai thác
văn bản dự kiến
được thực hiện bằng cách áp dụng một số máy chiết chuyên dụng
trên cùng một văn bản. Do đó, quản lý và tích hợp khác nhau
trích xuất kết quả từ một nguồn dữ liệu nhất định yêu cầu khác
kỹ thuật [99].
VII. PHẦN KẾT LUẬN
Tốc độ tăng trưởng của sản xuất dữ liệu đã tăng mạnh
trong những năm qua với sự phát triển của thông minh và cảm biến
thiết bị. Sự tương tác giữa IoT và dữ liệu lớn hiện đang
ở giai đoạn xử lý, biến đổi và phân tích
số lượng lớn dữ liệu ở tần số cao là cần thiết. Chúng tôi
đã thực hiện khảo sát này trong bối cảnh phân tích dữ liệu IoT lớn.
Đầu tiên, chúng tôi khám phá các giải pháp phân tích gần đây. Mối quan hệ giữa
phân tích dữ liệu lớn và IoT cũng đã được thảo luận.
Hơn nữa, chúng tôi đã đề xuất một kiến trúc cho các phân tích dữ liệu IoT lớn.
Hơn nữa, các loại phân tích dữ liệu lớn, phương pháp và
công nghệ khai thác dữ liệu lớn đã được trình bày. Một số trường hợp sử dụng
đáng tin cậy cũng được cung cấp. Ngoài ra, chúng tôi đã khám phá
tên miền bằng cách thảo luận về các cơ hội khác nhau mang lại
bởi các phân tích dữ liệu trong mô hình IoT. Một số nghiên cứu mở
những thách thức đã được thảo luận như là hướng nghiên cứu trong tương lai.
Cuối cùng, chúng tôi đã kết luận rằng các phân tích dữ liệu IoT lớn hiện có
giải pháp vẫn còn trong giai đoạn đầu phát triển của họ. bên trong
tương lai, giải pháp phân tích thời gian thực có thể cung cấp nhanh chóng
hiểu biết sẽ được yêu cầu.

You might also like