Deep neural network là gì

 - 

Bài trước học về thuật toán logistic regression với giá trị cổng đầu ra là nhị phân. Tuy nhiên, logistic regression là một mô hình neural network 1-1 giản, bài bác này vẫn học quy mô neural network đầy đủ.Bạn vẫn xem: Deep neural network là gì

Bạn nên hoàn thành 2 bài trước linear regression và logistic regression trước khi vào bài bác này. Trong bài này có tương đối nhiều kí hiệu và công thức, nên bạn nên chuẩn bị giấy cây bút để bắt đầu.

Bạn đang xem: Deep neural network là gì

Neural network là gì

Con chó có thể phân biệt được người thân trong gia đình trong mái ấm gia đình và bạn lạ tuyệt đứa trẻ rất có thể phân biệt được những con vật. Hồ hết việc tưởng như rất dễ dàng nhưng lại rất là khó để thực hiện bằng đồ vật tính. Vậy sự khác biệt nằm sinh hoạt đâu? Câu vấn đáp nằm ở bộ não với lượng lớn những nơ-ron thần kinh liên kết với nhau. Nuốm thì máy tính có phải mô rộp lại quy mô ấy nhằm giải các bài toán trên ???

Neural là tính từ của neuron (nơ-ron), network chỉ cấu tạo đồ thị đề xuất neural network (NN) là 1 trong những hệ thống giám sát lấy cảm hứng từ sự hoạt động của các nơ-ron trong hệ thần kinh.

Hoạt động của các nơ-ron


*

Để màn biểu diễn gọn lại ta vẫn gộp hai cách trên thành một bên trên biểu đồ


*

Mô hình neural network

Layer thứ nhất là input layer, những layer trọng điểm được call là hidden layer, layer ở đầu cuối được điện thoại tư vấn là đầu ra layer. Các hình tròn trụ được hotline là node.

Mỗi mô hình luôn có 1 input layer, 1 output layer, hoàn toàn có thể có hoặc không các hidden layer. Tổng thể layer trong quy mô được quy ước là số layer – 1 (Không tính input đầu vào layer).

Ví dụ như sống hình trên có một input layer, 2 hidden layer với 1 output layer. Con số layer của quy mô là 3 layer.

Mỗi node vào hidden layer và output layer :

Liên kết với tất cả các node ở layer trước đó với những hệ số w riêng.Mỗi node có một hệ số bias b riêng.Diễn ra 2 bước: tính tổng linear và áp dụng activation function.

Kí hiệu

Số node vào hidden layer sản phẩm i là l^(i).

Ma trận W^(k) kích cỡ l^(k-1) * l^(k) là ma trận thông số giữa layer (k-1) cùng layer k, trong các số ấy w_ij^(k) là hệ số liên kết từ node đồ vật i của layer k-1 cho node vật dụng j của layer k.

Vector b^(k) kích cỡ l^k * 1 là hệ số bias của các node trong layer k, trong các số ấy b_i^(k) là bias của node vật dụng i vào layer k.

Với node trang bị i trong layer l bao gồm bias b_i^(l)thực hiện nay 2 bước:

Tính tổng linear: z_i^(l) = sum_j=1^l^(l-1) a_j^(l-1) * w_ji^(l) + b_i^(l) , là tổng tất cả các node trong layer trước nhân với thông số w tương ứng, rồi cùng với bias b.Áp dụng activation function: a_i^(l) = sigma(z_i^(l))

Vector z^(k) kích cỡ l^(k) * một là giá trị những node vào layer k sau bước tính tổng linear.

Vector a^(k) kích thước l^(k) * một là giá trị của các node trong layer k sau khi áp dụng hàm activation function.


*

Tương từ bỏ ta có:

z^(2) = (W^(2))^T * a^(1) + b^(2) ewline a^(2) = sigma(z^(2)) ewline z^(3) = (W^(3))^T * a^(2) + b^(3) ewline haty = a^(3) = sigma(z^(3))
*

Do đó


*

Giờ từ input X ta rất có thể tính giá tốt trị dự kiến hatY, tuy vậy việc chính cần có tác dụng là đi kiếm hệ số W với b. Rất có thể nghĩ ngay lập tức tới thuật toán gradient descent cùng việc quan trọng đặc biệt nhất vào thuật toán gradient descent là đi tìm đạo hàm của các hệ số so với loss function. Và câu hỏi tính đạo hàm của những hệ số vào neural network được thực hiện bởi thuật toán backpropagation, vẫn được giới thiệu ở bài bác sau. Với vì bài xích này có quá nhiều công thức sợ hãi mọi bạn rối đề nghị code sẽ tiến hành để ở bài sau.

Xem thêm:

Logistic regression cùng với toán tử XOR

Phần này sẽ không bắt buộc, nó giúp lý giải việc có khá nhiều layer hơn thì mô hình có vẻ như sẽ giải quyết và xử lý được những bài toán tinh vi hơn. Rõ ràng là mô hình logistic regresion bài trước không màn trình diễn được toán tử XOR tuy thế nếu thêm một hidden layer cùng với 2 node trọng điểm input layer với output layer thì có thể biểu diễn được toán tử XOR.

AND, OR, XOR là những phép toán thực hiện phép tính bên trên bit. Cầm cố bit là gì? bạn không buộc phải quan tâm, chỉ cần phải biết mỗi bit nhận 1 trong 2 quý giá là 0 hoặc 1.

NOT

Phép tính NOT của 1 bit tạo ra giá trị ngược lại.

ANOT(A)
10
01

AND

Phép tính and của 2 bit cho giá trị 1 nếu cả 2 bit bởi 1 và cho giá trị bởi 0 trong số trường vừa lòng còn lại. Bảng chân lý

ABA & B
000
010
100
111

Giờ muốn máy vi tính học toán tử AND, ta thấy là tác dụng là 0 cùng 1, cần nghĩ ngay mang lại logistic regression với dữ liệu

x_1x_2y
000
010
100
111

Hình 1: x_1 and x_2
Hình 2: NOT (x_1 and x_2)

OR

Phép tính OR của 2 bit mang đến giá trị 1 nếu 1 trong 2 bit bằng 1 và cho giá trị bằng 0 trong số trường hòa hợp còn lại. Bảng chân lý

ABA OR B
000
011
101
111

Tương trường đoản cú ta cũng tìm được w_0 = -0.5, w_1 = 1, w_2 = 1


Mô hình XOR

Nhìn có vẻ như rối nhỉ, thuộc phân tích nhé:

node NOT(x_1 & x_2) đó là từ hình 2, với 3 mũi thương hiệu chỉ tới từ 1, x_1, x_2 với hệ số w_0, w_1, w_2 tương xứng là 1.5, -1, -1.node tính x_1 OR x_2 là trường đoản cú hình 3 node trong đầu ra layer là phép tính & từ 2 node của layer trước, giá bán trị hệ số từ hình 1 với xuống.

Xem thêm: Gà Sao Ăn Gì - Hướng Dẫn Nuôi Và Chăm Sóc Gà Sao

Nhận xét: quy mô logistic regression không giải quyết và xử lý được vấn đề XOR tuy nhiên mô mình mới thì xử lý được câu hỏi XOR. Đâu là sự việc khác nhau:

Logistic regression chỉ gồm từ input layer với output layerMô hình mới có một hidden layer bao gồm 2 node ở giữa input layer và output layer

=> Có vẻ càng các layer cùng node thì càng giải quyết được các bài toán phức hợp hơn.