REINFORCEMENT LEARNING LÀ GÌ

     

Trong nghành nghề trí tuệ tự tạo nói phổ biến và lĩnh vực học máy dành riêng thì Reinforcement learing (RL) là 1 trong cách tiếp cận tập trung vào việc học để kết thúc được phương châm bằng việc hệ trọng trực tiếp cùng với môi trường.

Bạn đang xem: Reinforcement learning là gì

1. Reinforcement Learning (RL):

RL là học chiếc để thực hiện, tức là từ các tình huống thực tế để lấy ra các action độc nhất vô nhị định, miễn sao maximize được reward. Machine không được bảo về cái kích hoạt để thực hiện mà nuốm vào đó phải mày mò ra action hoàn toàn có thể tạo ra được nhiều reward nhất. Trong nhân loại của RL thì chúng ta có khái niệm hotline là agent, nó bao gồm một chút nào đấy hàm ý về một thực thể mà bạn muốn train nó để có thể làm được một task nào đó mà bạn giao phó (đương nhiên là nó sẽ triển khai theo cách đạt được reward những nhất).

Vì RL được ứng đụng tương đối nhiều trong robotic và game đề nghị tôi đang lấy một ví dụ như từ đây cho bạn hình dung. Dưới đấy là 1 tựa mini game cơ mà tôi mong bạn coi qua. Cách chơi thì tôi nghĩ về các các bạn sẽ dễ dàng để hiểu được. Tên của nó là CoastRunners


Nhiệm vụ của bạn là xong xuôi được khoảng đua thuyền một cách nhanh nhất có thể và nếu rất có thể thì buộc phải ở đứng top trên. Giả sử như bạn có nhu cầu training một agent để nó có thể hoàn thành chặng đua nhanh nhất có thể thì về cơ bạn dạng bạn phải xây dựng được một reward function cùng từ đó các bạn sẽ train agent dựa trên reward function này. Bạn có thể xem nó là Loss function nhưng vắt vì nên minimize hàm loss như trong số mạng Neural Network thông yêu thương thì sinh hoạt đây bọn họ sẽ buộc phải maximize nó như tôi đang nói làm việc trên. Việc lựa chọn ra một reward function thoạt nhìn trong khá đơn giản dễ dàng vì nó chỉ dựa vào các tiêu chí rất hiển nhiên của một task gắng thể, chẳng hạn như ở trò nghịch ở trên thì ta có dựa trên tiêu chuẩn là thời gian xong xuôi chặng đua chẳng hạn. (Việc thiết kế cụ thể tôi xin phép dời lại ở một bài viết khác về sau). Tuy nhiên, nếu như khách hàng đưa ra các tiêu chí không tốt thì đã agent mà bạn train rất có thể có các behavior tương đối kỳ lạ y hệt như thử nghiệm tiếp sau đây mà team OpenAI đã thử qua lúc reward mà họ chọn lại dưa trên tiêu chí của score trong trò chơi thay vì là thời gian ngừng chặng đua. Và đây là kết quả.


Agent không buộc phải phải dứt chặng đua tuy thế vẫn có thể đạt được score cao.

Điều này thoạt nhìn qua cái vẻ tương đối "thú vị" trong bối cảnh của đoạn clip game nhưng trong lĩnh vực tự động hoá xuất xắc robotics ví dụ điển hình thì những cái behavior này có thể gây ra những hành động không mong ước hoặc thậm chí còn nguy hiểm. Rộng lớn hơn, các agent này (được nhúng vào vào robot chẳng hạn) hoàn toàn có thể có số đông hành vi không ổn định hoặc không theo các nguyên lý cơ phiên bản về phương diện kỹ thuật nói chung mà hoàn toàn có thể dãn đến các hiểm hoạ vô cùng tiềm tàng.

*

Các bạn có thể xem thêm về idea trong bài xích báo của OpenAI về cái mà người ta gọi là Safety AI

2. Mô hình hoá toán học tập của RL:

Bây tiếng tôi sẽ dẫn chúng ta đi qua một chút về những khái niệm chính trong RL:| .

Các hình tiếp sau đây tôi xem thêm từ khoá học 6.S191 intro deep learning của MIT

2.1 Đây là 1 ví dụ trực quan tiền về Agent:

*

2.2 Enviroment xung quang đãng của Agent, khu vực mà agent tồn tại với tương tác:

*

2.3 dựa vào State S(t) của enviroment lúc này mà agent sẽ gửi ra action a(t):

*

2.4 sau khoản thời gian nhận được sự tác động từ agent thì enviroment gồm sự chuyển đổi trạng thái đối với agent:

*

2.5 State bây giờ của enviroment là S(t+1), tức ở thời điểm t+1:

*

2.6 cơ hội này, agent nhận thấy reward r(t). Reward này nhờ vào vào kích hoạt a(t) của agent và State S(t) của enviroment ở thời gian trước đó, tức là ở thời gian t:

*

2.7 vị ta đắn đo thời điểm xong xuôi của sự lặp đi lặp lại này đề xuất tổng reward sẽ là 1 trong chuỗi vô hạn của những reward yếu tố tại những thời điểm khác nhau tính từ lúc thời điểm t (lúc đầu):

*

2.8 chúng ta có thể khai triển chuỗi vô hạn này như sau:

*

2.9 vì chưng chuỗi này không thể nào hội tụ (convergence) được yêu cầu trên thực tế các bên nghiên cứu rất có thể dùng một chiếc trick nhằm chuỗi này rất có thể hội tụ được. Như hình dưới đây, họ chuyển vào thêm 1 term thường xuyên được hotline là discount factor (discount rate) để triển khai cho chuỗi này hội tụ.

Xem thêm: Chị 7 Tính Nóng Như Kem Nghĩa Là Gì : Định Nghĩa, Ví Dụ Anh Việt

*Nên ghi nhớ việc quy tụ là cần nếu bạn có nhu cầu train thành công xuất sắc một agent nói riêng hay là 1 mạng Neural Network nào đó nói chung.

*

Tất cả rất nhiều thứ mà lại mình vừa trình diễn sơ qua nó dựa vào một framework được điện thoại tư vấn là Markov Decision Processes (MDPs). Về cơ phiên bản thì một MDP cung ứng một framework toán học tập cho việc modelling các trường hợp decision-making. Ở đây, các kết quả (outcomes) xảy ra một giải pháp ngẫu nhiên một phần và phần sót lại thì phụ thuộc trên những action của agent (hoặc decision maker) đã tạo ra trước đó. Reward thu được bởi decision maker dựa vào trên kích hoạt mà decision maker chọn và dựa trên cả hai State new (S(t+1)) và cũ (S(t)) của enviroment.

Một reward Rai(sj,sk)R_ai(s_j, s_k)Rai​(sj​,sk​) thu được lúc agent chọn kích hoạt aia_iai​ ở state sjs_jsj​ và tạo nên enviorment biến đổi từ state sjs_jsj​ thanh lịch sks_ksk​. Agent nó follow theo một policy πpiπ. Cụ thể là π(⋅):S→Api(cdot):mathcalS ightarrow mathcalAπ(⋅):S→A làm thế nào để cho với mỗi một state sj∈Ss_j in mathcalSsj​∈S thì agent chọn cho nó một kích hoạt ai∈Aa_i in mathcalAai​∈A. Vậy đề nghị policy là trang bị bảo với agent cái action nào bắt buộc được chọn trong mỗi state.

Để rất có thể train được agent thì mục tiêu của bọn họ là phải kiếm được policy πpiπ sao cho:

*

*βetaβ là discount factor và βetaβ reward (có tình đến discount factor như đang đề cập làm việc trên) ở mỗi state cụ thể từ lúc bắt đầu đến khi ngừng (dẫu mang lại T → ightarrow→ ∞infty∞, vì chúng ta chưa biết khi nào thì quy trình này xong nên nó vẫn vẫn là một chuỗi vô hạn), và đương nhiên là phải dựa vào policy πpiπ vị agent của bọn họ base trên nó để lựa chọn reward rất tốt mà. Bản chất thì đấy là một việc tối ưu (optimazation problem).

Ở trên là một tiêu chí mà bạn có thể dùng để optimize cho việc tìm kiếm ra nghịệm (optimal policy). Gắng thể chúng ta gọi tiêu chuẩn này là infinite horizon sum reward criteria. Cũng có một vài ba reward criteria khác mà lại tôi trong thời điểm tạm thời không gác lại vào khuôn khổ nội dung bài viết này.

Phụ ở trong vào những criteria không giống nhau mà họ sẽ có những algorithm khác biệt để tìm ra optimal policy. Cùng với infinite horizon sum reward criteria thì bạn cũng có thể sử dụng một thuật toán RL cũng khá kinh điển đó là Q-Learning để giải quyết (tôi sẽ nói đến alogorithm này sống một nội dung bài viết khác).

Xem thêm: " Tạp Chí Là Gì : Định Nghĩa, Ví Dụ Anh Việt, Báo Tạp Chí

Tôi xin tạm thời gác lại phần triết lý sơ cỗ ở đây. Hẹn gặp mặt lại bạn ở bài viết sau về Q-Learning và cách để impement nó.