- Ở bài cuối của chuỗi bài phân tích tính hội tụ của thuật toán Gradient Descent mình sẽ phân tích đối với hàm smooth và strongly convex function. Đây là 2 tính chất quan trọng kết hợp trong 1 hàm làm cho thuật toán gradient descent “faster”.
- Định nghĩa: Cho hàm là hàm lồi và khả vi, lồi và . Hàm được gọi là strongly convex (với parameter ) trên nếu
, .
Nếu thì đơn giản gọi là strongly convex.
Hàm smooth convex đã được định nghĩa ở bài trước.
Dễ thấy rằng mọi hàm lồi đều thỏa mãn tính chất trên với .
Ta có một số tính chất quan trọng sau của strongly convex function.
- Bổ đề 1: Nếu hàm strongly convex với tham số thì strictly convex và có điểm global minimum duy nhất.
-
Bổ đề 2: Cho strongly convex và smooth convex với tham số . Khi đó có dạng
với .
Ta có có điểm global minimum duy nhất .
SỬ dụng biểu thức phần tích bài ở phần 1 và tính chất của strongly convex function
.
Ta được
(1)
Suy ra (2) - Định lý: Cho hàm là hàm lồi và khả vi. Giả sử hàm smooth với tham số và strongly convex với tham số . Theo bổ đề 1 ở trên, có điểm global minimum duy nhất . Chọn .
gradient descent với điểm bắt đầu bất kì ta có
i) , .
ii) Gọi là số vòng lặp tại một thời điểm nào đó.
.
Chứng minh
i) Sử dụng định lý ở bài Phần 2 ta có .
Mà nên ta được .
Từ 1) suy ra (đpcm).
i)) Do smooth và nên
.
Suy ra đpcm.
Từ đây cũng suy ra được , hay số iteration khoảng .
Bảng tổng kết
Tài liệu tham khảo
- https://machinelearningcoban.com/
- https://github.com/epfml/OptML_course
- https://ee227c.github.io/
- Stephen Boyd and Lieven Vandenberghe.
Convex Optimization.
Cambridge University Press, New York, NY, USA, 2004. - https://easyai.tech/en/ai-definition/gradient-descent/
- https://towardsdatascience.com/binary-cross-entropy-and-logistic-regression-bf7098e75559?fbclid=IwAR1kSrG7pKJQvmge-M14CUkhjsZ0nlFA1Tw_4tBDWnBkBP8_fblXLrylk3s
- http://www.seas.ucla.edu/~vandenbe/236C/lectures/gradient.pdf