人工智能邁向真實"智能學習體
據英國"自然"雜志24日報道,美國團隊報告了一種可以追溯到過去并解決了復雜任務的增強學習,并確實改善了探索復雜環境的方式,并有望用于機器人、語言理解和藥物設計。這種被統稱為"去探索"的算法在經典游戲的算法挑戰中超越了人類玩家和先進的人工智能系統。這一成就被認為是朝著實現真正的"智能學習體"邁出的重要一步。
強化學習可以讓人工智能系統通過探索和理解復雜環境做出決定,并學會如何以最好的方式獲得獎勵。獎勵可以包括到達特定位置或在電腦游戲中達到一定水平的機器人。然而,當面對一個反饋很少的復雜環境時,現有的增強學習算法很容易碰壁,這讓人工智能專家非常不安。
OpenAI是一個非營利性人工智能組織,由許多硅谷巨頭共同創建,其中包括美國企業孵化器YCombinator的總裁薩姆·阿爾特曼(Sam Altman)和美國太空技術探索公司(SpaceX)的創始人埃隆·馬斯克(Elon Musk)。其目標是防止人工智能的災難性影響,并推動人工智能發揮積極作用。這次,OpenAI的科學家Edland Ekfield、Juster Huizinga和團隊提出了兩個主要障礙,并設計了一系列解決這些障礙的算法。
研究人員說,去探索可以對環境進行全面的觀察,并建立一個檔案來記住它所處的位置,并確保它不會忘記通往充滿希望的臨時或最終勝利的道路(獎勵)。"研究人員說,它可以全面地探索環境,同時建立檔案以記住它在哪里,并確保它不會忘記通往充滿希望的臨時或最終勝利的道路。它在雅達利經典游戲中的得分超過了人類玩家和先進的人工智能系統。研究人員使用這樣的算法來解決2600個以前未被解決的亞達利游戲,并驗證了這些算法的潛力。"去探索"在算法挑戰中的得分是"蒙特祖馬的復仇"的四倍,比另一項算法挑戰"瑪雅冒險"中的人類玩家平均得分還要高。"相反,以前的算法沒有得到一分錢。
去探索"算法還可以完成一個模擬機器人任務,它必須用一個機械手撿起東西,并把它們放在四個架子中的一個,其中兩個是關在兩扇門后面的。
研究人員指出,記住并返回有望成功的探索領域的簡單原理是一種強大而普遍的探索方式。他們相信,最新的算法有望應用于機器人、語言理解和藥物設計。