人工智能能够在没有规则的情况下完成不同的任务更接近人

Marcus，纽约大学心理学和认知科学教授，最近参与了人工智能公司的“深度思维”(DeepMind)。最近在推特上质疑了美国通用人工智能研究机构OpenAI的魔方操纵器后，他最近就“深度思考”推出的《星际争霸2》代理“阿尔法星”的新进化版本提出了六大问题。这一次，他的问题点不是游戏本身的表现，而是指向一个更高的层次:未来一般智力研究的意义。

近年来最酷的结果都来自深度强化学习。

这次由OpenAI引入的魔方解算器不使用专业算法来解决特定的任务(如果你改变一个任务，你需要重新编程它)。相反，它通过某种学习方法训练机器人，这样机器人就有能力解决像人手这样的问题。然而，马库斯认为对这一成就的描述具有误导性，更恰当的描述应该是“用强化学习操纵魔方”或“用灵巧的机器人手操纵物体的进展”。

”马库斯过分强调“用强化学习操纵魔方”，有点挑剔。事实上，OpenAI Rubik魔方机器人和“深度思考”发布的《星际争霸2》代理“阿尔法星”进化版都使用了深度强化学习技术。深度强化学习目前被认为是在现有技术网络中集成到强化学习框架中的自动框架搜索。AutoML服务旨在将机器学习作为服务推广到成千上万的家庭。在中国，深度强化学习技术也有许多应用。阿里、腾讯和百度等国内团队将深度强化学习应用于搜索、推荐、营销、调度和路径规划等实际问题的决策网络。从欧洲服务器上的海量数据来看，“阿尔法星”(Alpha Star)使用与人类玩家相同的地图和条件匿名参与游戏，可以在没有任何干预的情况下不断完善自己。为了使测试更加公平，该团队还根据人类玩家的水平限制了机器的一些能力，例如将“阿尔法星”(alpha star)的动作频率降低到接近熟练的人类玩家，并将它的视觉限制在相机范围内。

“深度思考(Deep Thinking)”研究团队认为，训练“阿尔法星”的先进方法和算法框架有望用于解决未来复杂的实际问题，包括天气预测、气候模型计算和语言理解。然而，一些学者对人工智能在现阶段挑战战略游戏的能力持保守态度。加拿大纽芬兰纪念大学的人工智能学者戴夫·丘吉尔(Dave Churchill)认为阿尔法仍然有许多弱点，比如它无法抵御前所未见的策略。