[Talk] Slide về RNNs, LSTM, GRU
Dưới đấy là slide giới thiệu về RNNs, LSTM, GRU tại Tokyo ML Event hôm chủ nhật 08/07/2018 vừa qua. Tiện đây, blog mình có thêm mục Chém gió lưu trữ lại các slide trình bày của mình tại các hội nhóm.
Để xem full mode dễ dàng hơn bạn có thể click tại đây. Để điều khiển chuyển qua lại các page, bạn có thể sử dụng các phím sang trái/phải hoặc scroll slide nhé.
Trong buổi này có một số câu hỏi mở khá hay như:
Nên cắt văn bản ra thế nào để có thể dự đoán được hợp lý? Nếu cắt theo câu thì các câu có phụ thuộc ngữ cảnh vào nhau sẽ không học được. Còn cắt theo độ dài nhất định nào đó chưa chắc đã đảm bảo được ngữ nghĩa phụ thuộc nhau. Có tài liệu cho học được tham số đó, nhưng việc học thực sự khả thi hay không?
Nếu có định độ dài đầu vào khi huấn luyện thì các câu độ dài ngắn hơn kích cỡ đó sẽ cần thêm kí tự rỗng (
0-0
) vào. Thế nhưng việc thêm ấy có ảnh hưởng tới quá trình huấn luyện hay không?
Ngoài ra, có 2 điểm mọi người tranh luận nhiều nhất là:
Ở slide 9, các $\dfrac{\partial J_t}{\partial \mathbf W^{(k)}}$ có khác nhau không?
Ở slide 16, việc clipping gradient thực hiện khi nào?
Ở đây tôi không đưa kết quả thảo luận cũng như câu hỏi thảo luận, tuy nhiên nếu bạn quan tâm thì cứ để lại ý kiến của mình bên dưới tôi sẽ tổng hợp và gửi lại câu trả lời sau.