00:00आरेल इतनी आसान?
00:0160s में समझो
00:02सोचो, एक digital पेट को train करना है
00:06जब वो कुछ सही करता है
00:07आप उसे reward करते हो
00:09और जब वो fail होता है
00:10तो ignore करते हो
00:12यही आरेल है
00:13reinforcement learning के 3 core players है
00:16agent environment reward agent learner है
00:19वो actions लेता है
00:21environment उसके आसपास सब कुछ है
00:24states change होती है
00:25जब agent act करता है
00:27reward एक signal है
00:28positive अगर action ने help किया
00:31negative अगर उसने harm किया
00:33साथ मिलकर वे एक loop बनाते हैं
00:36agent एक state observe करता है
00:38अपनी policy का इस्तिमाल करके
00:40एक action चुनता है
00:41एक reward receive करता है
00:43और अगली बार बहतर होने के लिए
00:45policy update करता है
00:47policy बस agent की strategy है
00:50states को actions से map करना
00:52value estimates और Q values
00:55agent को बताते हैं कि actions
00:57long term में कितने अच्छे हैं
00:59सिर्फ तुरंत नहीं
01:00training methods
01:02model free methods हैं
01:04जैसे Q learning policy gradients
01:06model based methods
01:08जो environment को predict करने की
01:09कोशिश करते हैं
01:10in short act करो
01:12feedback लो
01:13सीखो
01:14repeat करो
01:15ऐसे ही agents
01:16random moves से
01:18smart strategies तक पहुँचते हैं
01:20deep dive चाहिए
01:21follow करो
01:23और मैं next एक algorithm
01:25unpack करूंगा
Comments