Bài liên quan
Trong bài phỏng vấn này, Andrew Ng sẽ giải thích lí do anh rời Google đến đảm nhận dự án deep learning ở Baidu với cương vị kỹ sư trưởng.
Ngoài bài phỏng vấn Andrew Ng, bài báo này còn có các cuộc trò chuyện với Yoshua Bengio – giáo sư khoa khoa học máy tính và nghiên cứu thực hành ở đại học Montreal, Edward Grefenstette – nghiên cứu sinh ở đại học Oxford.
Tìm kiếm bằng cách nhập liệu là cách vận hành của các công cụ tìm kiếm trong suốt 24 năm qua. Nhưng điều này sẽ sớm thay đổi. Công cụ tìm kiếm lớn nhất Trung Quốc Baidu vừa mời về cựu nhân viên hàng đầu của Google là Andrew Ng để phụ trách dự án deep learning đầy tham vọng của mình. Dự án tập trung xây dựng cơ sở hạ tầng để giải quyết những vấn đề như nhận biết hình ảnh và tìm kiếm bằng giọng nói. Điều này báo hiệu một sự thay đổi trong cách tìm kiếm thông tin trên Internet.
Andrew Ng
Ng bộc bạch: “Trước đây, với dự án Google Brain, chúng tôi đã quyết định xây dựng những quy trình deep learning trên nền tảng cơ sở hạ tầng hiện hữu của Google. Còn hiện tại ở Baidu, chúng tôi đang tận dụng cơ hội tạo dựng thế hệ kế tiếp của hệ thống deep learning. Thời gian này chúng tôi đang ở vạch xuất phát với việc dùng kết cấu GPU nền tảng 2014. “Trong 5 năm đã có ít nhất 50% thông tin được tìm kiếm dưới dạng hình ảnh hoặc giọng nói.”
Baidu đã trao quyền cho Ng xử lý một số vấn đề nghiêm trọng nhất liên quan đến deep learning. Ng nói rằng: “Từ kỹ sư đến ban điều hành, tôi nghĩ rằng tất cả mọi người ở Baidu đều hiểu lĩnh vực này. Deep learning là một lĩnh vực thâm dụng vốn lớn, vì vậy rất khó tìm được công ty nào vừa có những nguồn lực cần thiết vừa có cơ chế giải quyết công việc không cần thông qua quá nhiều cấp quản lý hay họp quá nhiều. Điều này rất cần thiết đối với loại công nghệ mới như thế này.”
Chất xúc tác cơ bản cho bước thay đổi trong phương thức tìm kiếm thông tin hiện nay là sự gia tăng nhanh chóng các loại máy tính bảng và smartphone. Những loại thiết bị này đang dần thay thế vị trí của máy tính để bàn. Điều này càng trở nên rõ ràng ở những nước như Trung Quốc – nơi khai sinh ra Baidu, đồng thời là nơi có rất nhiều người lần đầu tiếp xúc với Internet nhờ vào các thiết bị di động.
Tính đến tháng 6/2014, theo số liệu từ Trung tâm thông tin mạng Internet Trung Quốc, trong số 632 triệu người dùng Internet ở nước này có 83% truy cập web bằng điện thoại di động. Hầu hết những người dùng này không biết cách nhập liệu tìm kiếm bởi phương thức tìm kiếm đã thay đổi quá nhiều. Nhiều năm trước, khi cần tìm kiếm thông tin, người ta sẽ đăng câu hỏi và chờ trả lời từ người khác trên trang Ask Jeeves. Nhưng nay họ có thể tìm kiếm ngay lập tức thông qua từ khóa bằng DuckDuckGo. Sự phát triển này đã hé lộ cơ hội giúp hình dung lại những quan điểm cơ bản về việc tìm kiếm. Ng nói rằng: “Nhập liệu chắc chắn là một cách thức tiện dụng, nhưng sẽ tự nhiên hơn nếu các thắc mắc được diễn giải bằng hình ảnh hoặc giọng nói. Trẻ sơ sinh học nhìn và nói trước khi học viết. Điều này cũng tương tự quá trình tiến hóa của loài người bởi chúng ta hình thành ngôn ngữ nói trước rồi rất lâu sau đó mới có chữ viết."
Trong nhiều trường hợp, phương thức nhập liệu không đem lại kết quả tìm kiếm như mong đợi. Ví dụ, nếu bạn đang đi shopping và phát hiện ra một mẫu túi xách yêu thích, tốt hơn là bạn nên chụp hình lại thay vì dùng từ ngữ miêu tả nó. Đáng mừng là ngày càng có nhiều thiết bị tích hợp camera chất lượng cao – từ những chiếc smartphone chụp được cả mặt trước và mặt sau đến Google Glass và gần đây còn có Baidu Eye. Song song đó, các công cụ deep learning đang dần được chuyên nghiệp hóa ở chức năng nhận biết thông minh và giải mã thông tin thị giác. Edward Grefenstette, nghiên cứu sinh ở trường Somerville và khoa khoa học máy tính thuộc đại học Oxford, nói rằng: “Trước đây chúng tôi coi ngôn ngữ và hình ảnh là những cách biểu đạt riêng biệt nhau. Với deep learning, đã có xu hướng dịch chuyển về phía cái được gọi là những phương thức biểu đạt có thể lan truyền. Việc này cho phép chúng ta làm được những việc như sắp xếp nghĩa của hai ngôn ngữ khác nhau hoặc giữa hình và chữ trong cùng ngữ cảnh.
Điều này có nghĩa là nếu có một hình ảnh trước giờ chưa ai nhìn thấy, những đột phá mà deep learning hoàn toàn có thể tạo ra phần diễn giải bằng chữ cho nội dung bức hình. Người ta đang dần thấy được kết quả của nghiên cứu này. Hồi đầu năm nay Facebook vừa tạo ra một hệ thống nhận diện khuôn mặt chính xác như mắt người gọi là DeepFace. Google cũng vừa thực hiện những cải tiến đáng kể trong lĩnh vực deep learning. Về phần Baidu, sau khi mời được Andrew Ng về, công ty rất có tiềm năng trở thành nhân tố chủ chốt tạo ra một trong những bước đột phá lớn nhất từ trước đến nay trong lĩnh vực trí tuệ nhân tạo.
Baidu đang có thành công nhất địn trong lĩnh vực tìm kiếm bằng giọng nói.
Giáo sư khoa khoa học máy tính và nghiên cứu ứng dụng ở đại học Montreal Yoshua Bengio nói rằng: “Xu hướng tìm kiếm bằng giọng nói thay vì nhập liệu đang ngày càng diễn ra rõ ràng.” Trường đại học nơi ông làm việc là một trong những cơ quan đầu não của thế giới nghiên cứu deep learning. Tuy nhiên, Andrew Ng không ảo tưởng về những thách thức mà đội ngũ của anh phải đối mặt. Deep learning vẫn là một lĩnh vực mới, và mặc dù có tiềm năng vô cùng lớn nhưng nó có thể bị sự thổi phồng vô ích bóp chết.
Giáo sư Bengio nói rằng: “Tôi tin là chúng ta vẫn chưa khai thác hết sức mạnh của deep learning, đặc biệt là loại hình không bị giám sát. Tôi cũng tin là hiệu quả của các ứng dụng này sẽ có vai trò rất quan trọng trong vài năm sắp tới. Nghiên cứu cơ bản là điều kiện cần để hiện thực hóa điều này. Vài thứ sẽ được thực hiện trong phòng nghiên cứu công nghiệp bởi ở đó tập trung các nhà khoa học hàng đầu như Andrew Ng, Geoff Hinton và Yann LeCun. Họ đều thống nhất rằng đây là cơ hội quan trọng để tạo nên bước tiến lớn trong tương lai.”
Theo PCWorld
Post a Comment