① 有人可以介绍一下什么是"神经网络"吗
由于神经网络是多学科交叉的产物,各个相关的学科领域对神经网络
都有各自的看法,因此,关于神经网络的定义,在科学界存在许多不同的
见解。目前使用得最广泛的是T.Koholen的定义,即"神经网络是由具有适
应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经
系统对真实世界物体所作出的交互反应。"
如果我们将人脑神经信息活动的特点与现行冯·诺依曼计算机的工作方
式进行比较,就可以看出人脑具有以下鲜明特征:
1. 巨量并行性。
在冯·诺依曼机中,信息处理的方式是集中、串行的,即所有的程序指
令都必须调到CPU中后再一条一条地执行。而人在识别一幅图像或作出一项
决策时,存在于脑中的多方面的知识和经验会同时并发作用以迅速作出解答。
据研究,人脑中约有多达10^(10)~10^(11)数量级的神经元,每一个神经元
具有103数量级的连接,这就提供了巨大的存储容量,在需要时能以很高的
反应速度作出判断。
2. 信息处理和存储单元结合在一起。
在冯·诺依曼机中,存储内容和存储地址是分开的,必须先找出存储器的
地址,然后才能查出所存储的内容。一旦存储器发生了硬件故障,存储器中
存储的所有信息就都将受到毁坏。而人脑神经元既有信息处理能力又有存储
功能,所以它在进行回忆时不仅不用先找存储地址再调出所存内容,而且可
以由一部分内容恢复全部内容。当发生"硬件"故障(例如头部受伤)时,并
不是所有存储的信息都失效,而是仅有被损坏得最严重的那部分信息丢失。
3. 自组织自学习功能。
冯·诺依曼机没有主动学习能力和自适应能力,它只能不折不扣地按照
人们已经编制好的程序步骤来进行相应的数值计算或逻辑计算。而人脑能够
通过内部自组织、自学习的能力,不断地适应外界环境,从而可以有效地处
理各种模拟的、模糊的或随机的问题。
神经网络研究的主要发展过程大致可分为四个阶段:
1. 第一阶段是在五十年代中期之前。
西班牙解剖学家Cajal于十九世纪末创立了神经元学说,该学说认为神经
元的形状呈两极,其细胞体和树突从其他神经元接受冲动,而轴索则将信号
向远离细胞体的方向传递。在他之后发明的各种染色技术和微电极技术不断
提供了有关神经元的主要特征及其电学性质。
1943年,美国的心理学家W.S.McCulloch和数学家W.A.Pitts在论文《神经
活动中所蕴含思想的逻辑活动》中,提出了一个非常简单的神经元模型,即
M-P模型。该模型将神经元当作一个功能逻辑器件来对待,从而开创了神经
网络模型的理论研究。
1949年,心理学家D.O. Hebb写了一本题为《行为的组织》的书,在这本
书中他提出了神经元之间连接强度变化的规则,即后来所谓的Hebb学习法则。
Hebb写道:"当神经细胞A的轴突足够靠近细胞B并能使之兴奋时,如果A重
复或持续地激发B,那么这两个细胞或其中一个细胞上必然有某种生长或代
谢过程上的变化,这种变化使A激活B的效率有所增加。"简单地说,就是
如果两个神经元都处于兴奋状态,那么它们之间的突触连接强度将会得到增
强。
五十年代初,生理学家Hodykin和数学家Huxley在研究神经细胞膜等效电
路时,将膜上离子的迁移变化分别等效为可变的Na+电阻和K+电阻,从而建
立了着名的Hodykin-Huxley方程。
这些先驱者的工作激发了许多学者从事这一领域的研究,从而为神经计
算的出现打下了基础。
2. 第二阶段从五十年代中期到六十年代末。
1958年,F.Rosenblatt等人研制出了历史上第一个具有学习型神经网络
特点的模式识别装置,即代号为Mark I的感知机(Perceptron),这一重
大事件是神经网络研究进入第二阶段的标志。对于最简单的没有中间层的
感知机,Rosenblatt证明了一种学习算法的收敛性,这种学习算法通过迭代
地改变连接权来使网络执行预期的计算。
稍后于Rosenblatt,B.Widrow等人创造出了一种不同类型的会学习的神经
网络处理单元,即自适应线性元件Adaline,并且还为Adaline找出了一种有
力的学习规则,这个规则至今仍被广泛应用。Widrow还建立了第一家神经计
算机硬件公司,并在六十年代中期实际生产商用神经计算机和神经计算机软
件。
除Rosenblatt和Widrow外,在这个阶段还有许多人在神经计算的结构和
实现思想方面作出了很大的贡献。例如,K.Steinbuch研究了称为学习矩阵
的一种二进制联想网络结构及其硬件实现。N.Nilsson于1965年出版的
《机器学习》一书对这一时期的活动作了总结。
3. 第三阶段从六十年代末到八十年代初。
第三阶段开始的标志是1969年M.Minsky和S.Papert所着的《感知机》一书
的出版。该书对单层神经网络进行了深入分析,并且从数学上证明了这种网
络功能有限,甚至不能解决象"异或"这样的简单逻辑运算问题。同时,他们
还发现有许多模式是不能用单层网络训练的,而多层网络是否可行还很值得
怀疑。
由于M.Minsky在人工智能领域中的巨大威望,他在论着中作出的悲观结论
给当时神经网络沿感知机方向的研究泼了一盆冷水。在《感知机》一书出版
后,美国联邦基金有15年之久没有资助神经网络方面的研究工作,前苏联也
取消了几项有前途的研究计划。
但是,即使在这个低潮期里,仍有一些研究者继续从事神经网络的研究工
作,如美国波士顿大学的S.Grossberg、芬兰赫尔辛基技术大学的T.Kohonen
以及日本东京大学的甘利俊一等人。他们坚持不懈的工作为神经网络研究的
复兴开辟了道路。
4. 第四阶段从八十年代初至今。
1982年,美国加州理工学院的生物物理学家J.J.Hopfield采用全互连型
神经网络模型,利用所定义的计算能量函数,成功地求解了计算复杂度为
NP完全型的旅行商问题(Travelling Salesman Problem,简称TSP)。这
项突破性进展标志着神经网络方面的研究进入了第四阶段,也是蓬勃发展
的阶段。
Hopfield模型提出后,许多研究者力图扩展该模型,使之更接近人脑的
功能特性。1983年,T.Sejnowski和G.Hinton提出了"隐单元"的概念,并且
研制出了Boltzmann机。日本的福岛邦房在Rosenblatt的感知机的基础上,
增加隐层单元,构造出了可以实现联想学习的"认知机"。Kohonen应用3000
个阈器件构造神经网络实现了二维网络的联想式学习功能。1986年,
D.Rumelhart和J.McClelland出版了具有轰动性的着作《并行分布处理-认知
微结构的探索》,该书的问世宣告神经网络的研究进入了高潮。
1987年,首届国际神经网络大会在圣地亚哥召开,国际神经网络联合会
(INNS)成立。随后INNS创办了刊物《Journal Neural Networks》,其他
专业杂志如《Neural Computation》,《IEEE Transactions on Neural
Networks》,《International Journal of Neural Systems》等也纷纷
问世。世界上许多着名大学相继宣布成立神经计算研究所并制订有关教育
计划,许多国家也陆续成立了神经网络学会,并召开了多种地区性、国际性
会议,优秀论着、重大成果不断涌现。
今天,在经过多年的准备与探索之后,神经网络的研究工作已进入了决
定性的阶段。日本、美国及西欧各国均制订了有关的研究规划。
日本制订了一个"人类前沿科学计划"。这项计划为期15-20年,仅
初期投资就超过了1万亿日元。在该计划中,神经网络和脑功能的研究占有
重要地位,因为所谓"人类前沿科学"首先指的就是有关人类大脑以及通过
借鉴人脑而研制新一代计算机的科学领域。
在美国,神经网络的研究得到了军方的强有力的支持。美国国防部投资
4亿美元,由国防部高级研究计划局(DAPRA)制订了一个8年研究计划,
并成立了相应的组织和指导委员会。同时,海军研究办公室(ONR)、空军
科研办公室(AFOSR)等也纷纷投入巨额资金进行神经网络的研究。DARPA认
为神经网络"看来是解决机器智能的唯一希望",并认为"这是一项比原子弹
工程更重要的技术"。美国国家科学基金会(NSF)、国家航空航天局(NASA)
等政府机构对神经网络的发展也都非常重视,它们以不同的形式支持了众多
的研究课题。
欧共体也制订了相应的研究计划。在其ESPRIT计划中,就有一个项目是
"神经网络在欧洲工业中的应用",除了英、德两国的原子能机构外,还有多
个欧洲大公司卷进这个研究项目,如英国航天航空公司、德国西门子公司等。
此外,西欧一些国家还有自己的研究计划,如德国从1988年就开始进行一个
叫作"神经信息论"的研究计划。
我国从1986年开始,先后召开了多次非正式的神经网络研讨会。1990年
12月,由中国计算机学会、电子学会、人工智能学会、自动化学会、通信学
会、物理学会、生物物理学会和心理学会等八个学会联合在北京召开了"中
国神经网络首届学术会议",从而开创了我国神经网络研究的新纪元。
② 神经网络从何而来
【嵌牛导读】神经网络从何而来?这里说的‘从何而来’,并不仅仅是从技术上去介绍一个方法的创造或发展,而更想探讨方法背后所蕴含的思想基础与演变之路。
【嵌牛鼻子】神经网络、深度学习
【嵌牛提问】神经网络的由来?
【嵌牛正文】深度学习与神经网络是近几年来计算机与人工智能领域最炙手可热的话题了。为了蹭这波热度,博主也打算分享一些自己的经验与思考。第一篇文章想探讨一个非常基础的问题:神经网络从何而来?这里说的‘从何而来’,并不仅仅是从技术上去介绍一个方法的创造或发展,而更想探讨方法背后所蕴含的思想基础与演变之路。
首先,需要为‘神经网络’正一下名。在人工智能领域,我们通常所说的神经网络(Neural Networks)全称是人工神经网络(Artificial Neural Network),与之对应的是我们用肉长成的生物神经网络(Biology Neural Network)。众所周知,人工神经网络受生物神经网络的启发而产生,并在几十年间不断进步演化。可要论人类对人工智能的探索历史,却远远长于这几十年。为了深刻了解神经网络出现的背景,我们有必要从更早的历史开始说起。
简单说,人工智能想做的事情就是去总结和提炼人类思考的过程,使之能够机械化、可重复。从各种神话、传说来看,我们的祖先在几千年前就对这件事儿充满了好奇与遐想。到两千多年前,一大批伟大的哲学家在希腊、中国和印度相继诞生,并将人类对这一问题的认识推向了新的高度。为避免本文成为枯燥的哲学史,这里不想举太多的例子。伟大的希腊哲学家亚里士多德在他的《前分析篇》中提出了着名的三段论(sollygism),类似于:
所有希腊人是人
所有人终有一死
因此所有希腊人终有一死
虽然这是我们现在已经无比熟悉的推理模式,但是要在2000年前从无到有系统总结出一系列这样的命题与推理模式,却着实不易。有了‘三段论’这种的武器,人们对问题的认识与决策就能从感性真正走向理性,做到可以重复。此外,我们熟悉的欧式几何也是当时这种逻辑推理学派的代表。欧式几何以一系列的公理为基础,基于一套严密的逻辑推理体系,最终得到结论的证明,现在仍然是每个学生需要反复训练的思维体操。
随着时间的演进,认知哲学与逻辑学也在不断的发展。在17世纪时,以笛卡尔、莱布尼茨为代表的哲学家进一步提出通过数学的方式对逻辑推演进行标准化,这也是对人脑推理与思考的再次抽象,为后续以后基于数字电路的人工智能打下了基础。之后,数理逻辑进一步发展,而到了20世纪中期,数理逻辑又一次取得了巨大的突破,哥德尔不完备理论、图灵机模型等的相继提出,科学家们既认识到了数理逻辑的局限性,也看到了将推理机械化的无限可能性,一种新的计算方式呼之欲出。
在图灵机的思想指导下,第一台电子计算机很快被设计出来,为人工智能的真正实现提供了物质上的基础。其实回望人工智能历史上的历次重大飞跃,硬件技术的发展无不扮演者重要的作用。很多看似有效的算法都苦于没有足够强大的计算平台支持无疾而终,而计算能力的提升也可以促进科学家们们摆脱束缚,在算法的研究道路上天马行空。深度学习这些年的迅猛发展,很大程度就是得益于大规模集群和图形处理器等技术的成熟,使得用复杂模型快速处理大规模数据成为可能。
1956年达特茅斯会议上,斯坦福大学科学家约翰·麦卡锡(John McCarthy)正式提出了‘人工智能’这一概念, 标志着一个学科的正式诞生,也标志着人工智能的发展开始进入了快车道。如果说逻辑符号操作是对人类思维的本质的抽象,那么利用电子计算机技术来模拟人类的符号推理计算也是一个自然而然的想法。在艾伦·纽威尔(Alan Newell)和赫伯特·西蒙(Herbert A.Simon)等大师的推动下,以逻辑推演为核心符号主义(symbolicism)流派很快占据了人工智能领域的重要地位。符号主义在很多领域取得了成功,比如在80年代风靡一时的专家系统,通过知识库和基于知识库的推理系统模拟专家进行决策,得到了广泛的应用。而本世纪初热炒的语义网络以及当下最流行的知识图谱,也可以看做这一流派的延续与发展。
符号主义最大的特点是知识的表示直观,推理的过程清晰,但是也存在着许多局限性。除去在计算能力方面的困扰,一个很大的问题就在于虽然我们可以通过逻辑推理解决一些复杂的问题,但是对一些看似简单的问题,比如人脸识别,却无能为力。当看到一张人脸的照片,我们可以毫不费力的识别出这个人是谁,可这个过程并不需要做什么复杂的推理,它在我们的大脑中瞬间完成,以至于我们对这个过程的细节却一无所知。看起来想通过挖掘一系列严密的推理规则解决这类问题是相对困难的,这也促使很多人去探索与人脑工作更加贴合的解决方案。实际上在符号主义出现的同时,人工智能的另一重要学派联结主义(Connectionism)也开始蓬勃发展,本文的‘主角’神经网络终于可以登场了。
在文章的一开始就提到,我们现在所说的人工神经网络是受生物神经网络启发而设计出来的。在1890年,实验心理学先驱William James在他的巨着《心理学原理》中第一次详细论述人脑结构及功能。其中提到神经细胞受到刺激激活后可以把刺激传播到另一个神经细胞,并且神经细胞激活是细胞所有输入叠加的结果。这一后来得到验证的假说也成为了人工神经网络设计的生物学基础。基于这一假说,一系列模拟人脑神经计算的模型被相继提出,具有代表性的有Hebbian Learning Rule, Oja's Rule和MCP Neural Model等,他们与现在通用的神经网络模型已经非常相似,例如在Hebbian Learning模型中,已经可以支持神经元之间权重的自动学习。而在1958年,Rosenblatt将这些模型付诸于实施,利用电子设备构建了真正意义上的第一个神经网络模型:感知机(Perceptron)。Rosenblatt现场演示了其学习识别简单图像的过程,在当时的社会引起了轰动,并带来了神经网络的第一次大繁荣。此后的几十年里,神经网络又经历了数次起起伏伏,既有春风得意一统天下的岁月,也有被打入冷宫无人问津的日子,当然,这些都是后话了。
本文更想讨论这样一个问题:神经网络产生的动机仅仅是对生物学中对神经机制的模仿吗?在神经网络产生的背后,还蕴含着一代代科学家怎么样的思想与情怀呢?事实上,在神经网络为代表的一类方法在人工智能中又被称为联结主义(Connectionism)。关于联结主义的历史,一般的文献介绍按照惯例会追溯到希腊时期哲学家们对关联性的定义与研究,例如我们的老朋友亚里士多德等等。然而当时哲学家研究的关联其实并不特指神经元之间的这种关联,比如前文提到的符号推理本身也是一种形式关联,在希腊哲学中并没有对这两者进行专门的区分。所以硬要把这些说成是连接主义的思想起源略微有一些牵强。
前文提到,在数理逻辑发展过程中,17世纪的欧陆理性主义起到了重要的作用。以笛卡尔、莱布尼茨等为代表的哲学家,主张在理性中存在着天赋观念,以此为原则并严格按照逻辑必然性进行推理就可以得到普遍必然的知识。与此同时,以洛克、休谟等哲学家为代表的英国经验主义,则强调人类的知识来自于对感知和经验归纳。这一定程度上是对绝对的真理的一种否定,人类的认识是存在主观的,随经验而变化的部分的。如果在这个思想的指导下,我们与其去寻找一套普世且完备的推理系统,不如去构造一套虽不完美但能够随着经验积累不断完善的学习系统。而休谟甚至提出了放弃揭示自然界的因果联系和必然规律,而是依据“习惯性联想”去描绘一连串的感觉印象。这其实和神经网络设计的初衷是非常类似的:重视经验的获得与归纳(通过样本进行学习),但对模型本身的严谨性与可解释行则没有那么关注,正如有时候我们愿意把神经网络模型看做是一个‘黑箱’。
然而单单一个‘黑箱’是不能成为经验的学习与整理的系统的,我们还需要去寻找构建‘黑箱’的一种方法论。现代哲学发展到20世纪初期时,在维特根斯坦和罗素等哲学家的倡导下,产生了逻辑经验主义学派。依托当时逻辑学的迅猛发展,这一主义既强调经验的作用,也重视通过严密的逻辑推理来得到结论,而非简单的归纳。在数理逻辑领域颇有建树的罗素有一位大名鼎鼎的学生诺伯特·维纳,他创立的控制论与系统论、信息论一道,为信息科学的发展提供了坚实的理论基础。而神经网络模型的创立也深受这‘三论’的影响。前文提到MCP神经元模型的两位创始人分别是罗素和维纳的学生。作为一个系统,神经网络接受外部的输入,得到输出,并根据环境进行反馈,对系统进行更新,直到达到稳定状态。这个过程,同样也是神经网络对环境信息传递的接受和重新编码的过程。如果如果把神经网络当做一个‘黑盒’,那么我们首先关心该是这个黑盒的输入与输出,以及如何根据环境给黑盒一个合理的反馈,使之能够进行调整。而黑盒内部的结构,则更多的成为了形式的问题。我们借鉴生物神经网络构造这个黑盒,恰好是一个好的解决方案,但这未必是唯一的解决方案或者说与人类大脑的神经元结构存在必然的联系。比如在统计学习领域中最着名的支持向量机(Support Vector Machines),最终是作为一种特殊的神经网络而提出的。可当其羽翼丰满之后,则和神经网络逐渐脱离关系,开启了机器学习的另一个门派。不同的模型形式之间可以互相转化,但是重视经验(样本),强调反馈的思想却一直保留下来。
前面说了这些,到底神经网络从何而来呢?总结下来就是三个方面吧:1.对理性逻辑的追求,对样本实证的重视,为神经网络的诞生提供了思想的基础。2.生物学与神经科学的发展为神经网络形式的出现提供了启发。3.计算机硬件的发展与计算能力的提升使神经网络从理想变成了现实。而这三方面的发展也催生着神经网络的进一步发展与深度学习的成熟:更大规模的数据,更完善的优化算法使网络能够学习到更多更准确的信息;对人脑的认识的提升启发设计出层次更深,结构更高效的网络结构;硬件存储与计算能力提升使海量数据的高效训练成为可能。而未来神经网络给我们带来的更多惊喜,也很大可能源自于这三个方面,让我们不妨多一些期待吧。
③ BP神经网络的发展历史
人工神经网络早期的研究工作应追溯至上世纪40年代。下面以时间顺序,以着名的人物或某一方面突出的研究成果为线索,简要介绍人工神经网络的发展历史。
1943年,心理学家W·Mcculloch和数理逻辑学家W·Pitts在分析、总结神经元基本特性的基础上首先提出神经元的数学模型。此模型沿用至今,并且直接影响着这一领域研究的进展。因而,他们两人可称为人工神经网络研究的先驱。
1945年冯·诺依曼领导的设计小组试制成功存储程序式电子计算机,标志着电子计算机时代的开始。1948年,他在研究工作中比较了人脑结构与存储程序式计算机的根本区别,提出了以简单神经元构成的再生自动机网络结构。但是,由于指令存储式计算机技术的发展非常迅速,迫使他放弃了神经网络研究的新途径,继续投身于指令存储式计算机技术的研究,并在此领域作出了巨大贡献。虽然,冯·诺依曼的名字是与普通计算机联系在一起的,但他也是人工神经网络研究的先驱之一。
50年代末,F·Rosenblatt设计制作了“感知机”,它是一种多层的神经网络。这项工作首次把人工神经网络的研究从理论探讨付诸工程实践。当时,世界上许多实验室仿效制作感知机,分别应用于文字识别、声音识别、声纳信号识别以及纯激学习记忆问题的研究。然而,这次人工神经网络的研究高潮未能持续很久,许多人陆续放弃了这方面的研究工作,这是因为当时数字计算机的发展处于全盛时期,许多人误以为数字计算机可以解决人工智能、模式识别、专家系统等方面的一切问题,使感知机的工作得不到重视;其次,当时的电子技术工艺水平比较落后,主要的元件是电子管或晶体管,利用它们制作的神经网络体积庞大,价格昂贵,要制作在规模上与真实的神经网络相似是完全不可能的;另外,在1968年一本名为《感知机》的着作中指出线性感知机功能是有限的,它不能解决如异或这样的基本问题,而且多层网络还不能找到有效的计算方法,这些论点促使大批研究人员对于人工神经网络的前景失去信心。60年代末期,人工神经网络的研究进入了低潮。
另外,在60年代初期,Widrow提出了自适应线性元件网络,这是一种连续取值的线性加权求和阈值网络。后来,在此基础上发展了非线性多层自适应网络。当时,这些工作虽未标出神经网络的名称,而实际上就是一种人工神经网络模型。
随着人们对感知机兴趣的衰退,神经网络的研究沉寂了相当长的时间。80年代初期,模拟与数字混合的超大规模集成电路制作技术提高到新的水平,完全付诸实用化,此外,数字计算机的发展在若干应用领域遇到困难。这一背景预示,向人工神经网络寻求出路的时机已经成熟。美国的物理学家Hopfield于1982年和1984年在美国科学院院刊上发表了两肆胡篇关于人工神做雹袜经网络研究的论文,引起了巨大的反响。人们重新认识到神经网络的威力以及付诸应用的现实性。随即,一大批学者和研究人员围绕着 Hopfield提出的方法展开了进一步的工作,形成了80年代中期以来人工神经网络的研究热潮。
④ 神经网络的历史是什么
沃伦·麦卡洛克和沃尔特·皮茨(1943)基于数学和一种称为阈值逻辑的算法创造了一种神经网络的计算模型。这种模型使得神经网络的研究分裂为两种不同研究思路。一种主要关注大脑中的生物学过程,另一种主要关注神经网络在人工智能里的应用。
一、赫布型学习
二十世纪40年代后期,心理学家唐纳德·赫布根据神经可塑性的机制创造了一种对学习的假说,现在称作赫布型学习。赫布型学习被认为是一种典型的非监督式学习规则,它后来的变种是长期增强作用的早期模型。从1948年开始,研究人员将这种计算模型的思想应用到B型图灵机上。
法利和韦斯利·A·克拉克(1954)首次使用计算机,当时称作计算器,在MIT模拟了一个赫布网络。纳撒尼尔·罗切斯特(1956)等人模拟了一台 IBM 704计算机上的抽象神经网络的行为。
弗兰克·罗森布拉特创造了感知机。这是一种模式识别算法,用简单的加减法实现了两层的计算机学习网络。罗森布拉特也用数学符号描述了基本感知机里没有的回路,例如异或回路。这种回路一直无法被神经网络处理,直到保罗·韦伯斯(1975)创造了反向传播算法。
在马文·明斯基和西摩尔·派普特(1969)发表了一项关于机器学习的研究以后,神经网络的研究停滞不前。他们发现了神经网络的两个关键问题。
第一是基本感知机无法处理异或回路。第二个重要的问题是电脑没有足够的能力来处理大型神经网络所需要的很长的计算时间。直到计算机具有更强的计算能力之前,神经网络的研究进展缓慢。
二、反向传播算法与复兴
后来出现的一个关键的进展是保罗·韦伯斯发明的反向传播算法(Werbos 1975)。这个算法有效地解决了异或的问题,还有更普遍的训练多层神经网络的问题。
在二十世纪80年代中期,分布式并行处理(当时称作联结主义)流行起来。戴维·鲁姆哈特和詹姆斯·麦克里兰德的教材对于联结主义在计算机模拟神经活动中的应用提供了全面的论述。
神经网络传统上被认为是大脑中的神经活动的简化模型,虽然这个模型和大脑的生理结构之间的关联存在争议。人们不清楚人工神经网络能多大程度地反映大脑的功能。
支持向量机和其他更简单的方法(例如线性分类器)在机器学习领域的流行度逐渐超过了神经网络,但是在2000年代后期出现的深度学习重新激发了人们对神经网络的兴趣。
三、2006年之后的进展
人们用CMOS创造了用于生物物理模拟和神经形态计算的计算设备。最新的研究显示了用于大型主成分分析和卷积神经网络的纳米设备具有良好的前景。
如果成功的话,这会创造出一种新的神经计算设备,因为它依赖于学习而不是编程,并且它从根本上就是模拟的而不是数字化的,虽然它的第一个实例可能是数字化的CMOS设备。
在2009到2012年之间,Jürgen Schmidhuber在Swiss AI Lab IDSIA的研究小组研发的循环神经网络和深前馈神经网络赢得了8项关于模式识别和机器学习的国际比赛。
例如,Alex Graves et al.的双向、多维的LSTM赢得了2009年ICDAR的3项关于连笔字识别的比赛,而且之前并不知道关于将要学习的3种语言的信息。
IDSIA的Dan Ciresan和同事根据这个方法编写的基于GPU的实现赢得了多项模式识别的比赛,包括IJCNN 2011交通标志识别比赛等等。
他们的神经网络也是第一个在重要的基准测试中(例如IJCNN 2012交通标志识别和NYU的扬·勒丘恩(Yann LeCun)的MNIST手写数字问题)能达到或超过人类水平的人工模式识别器。
类似1980年Kunihiko Fukushima发明的neocognitron和视觉标准结构(由David H. Hubel和Torsten Wiesel在初级视皮层中发现的那些简单而又复杂的细胞启发)那样有深度的、高度非线性的神经结构可以被多伦多大学杰弗里·辛顿实验室的非监督式学习方法所训练。
2012年,神经网络出现了快速的发展,主要原因在于计算技术的提高,使得很多复杂的运算变得成本低廉。以AlexNet为标志,大量的深度网络开始出现。
2014年出现了残差神经网络,该网络极大解放了神经网络的深度限制,出现了深度学习的概念。
构成
典型的人工神经网络具有以下三个部分:
1、结构(Architecture)结构指定了网络中的变量和它们的拓扑关系。例如,神经网络中的变量可以是神经元连接的权重(weights)和神经元的激励值(activities of the neurons)。
2、激励函数(Activation Rule)大部分神经网络模型具有一个短时间尺度的动力学规则,来定义神经元如何根据其他神经元的活动来改变自己的激励值。一般激励函数依赖于网络中的权重(即该网络的参数)。
3、学习规则(Learning Rule)学习规则指定了网络中的权重如何随着时间推进而调整。这一般被看做是一种长时间尺度的动力学规则。一般情况下,学习规则依赖于神经元的激励值。它也可能依赖于监督者提供的目标值和当前权重的值。
例如,用于手写识别的一个神经网络,有一组输入神经元。输入神经元会被输入图像的数据所激发。在激励值被加权并通过一个函数(由网络的设计者确定)后,这些神经元的激励值被传递到其他神经元。
这个过程不断重复,直到输出神经元被激发。最后,输出神经元的激励值决定了识别出来的是哪个字母。
⑤ 人工神经网络的发展
现代意义上对神经网络(特指人工神经网络)的研究一般认为从1943年美国芝加哥大学的生理学家W.S. McCulloch和W.A. Pitts提出M-P神经元模型开始,到今年正好六十年。在这六十年中,神经网络的发展走过了一段曲折的道路。1965年M. Minsky和S. Papert在《感知机》一书中指出感知机的缺陷并表示出对这方面研究的悲观态度,使得神经网络的研究从兴起期进入了停滞期,这是神经网络发展史上的第一个转折。到了20世纪80年代初,J.J. Hopfield的工作和D. Rumelhart等人的PDP报告显示出神经网络的巨大潜力,使得该领域的研究从停滞期进入了繁荣期,这是神经网络发展史上的第二个转折。
到了20世纪90年代中后期,随着研究者们对神经网络的局限有了更清楚的认识,以及支持向量机等似乎更有前途的方法的出现,“神经网络”这个词不再象前些年那么“火爆”了。很多人认为神经网络的研究又开始陷入了低潮,并认为支持向量机将取代神经网络。有趣的是,着名学者C.-J. Lin于2003年1月在德国马克斯·普朗克研究所所做的报告中说,支持向量机虽然是一个非常热门的话题,但目前最主流的分类工具仍然是决策树和神经网络。由着名的支持向量机研究者说出这番话,显然有一种特殊的意味。
事实上,目前神经网络的境遇与1965年之后真正的低潮期相比有明显的不同。在1965年之后的很长一段时期里,美国和前苏联没有资助任何一项神经网络的研究课题,而今天世界各国对神经网络的研究仍然有大量的经费支持;1965年之后90%以上的神经网络研究者改变了研究方向,而今天无论是国际还是国内都有一支相对稳定的研究队伍。实际上,神经网络在1965年之后陷入低潮是因为当时该领域的研究在一定意义上遭到了否定,而今天的相对平静是因为该领域已经走向成熟,很多技术开始走进生产和生活,从而造成了原有研究空间的缩小。
在科学研究中通常有这么一个现象,当某个领域的论文大量涌现的时候,往往正是该领域很不成熟、研究空间很大的时候,而且由于这时候人们对该领域研究的局限缺乏清楚的认识,其热情往往具有很大的盲目性。从这个意义上说,过去若干年里各领域研究者一拥而上、各种专业刊物满眼“神经网络”的风光,其实是一种畸形繁荣的景象,而对神经网络的研究现在才进入了一个比较理智、正常的发展期。在这段时期中,通过对以往研究中存在的问题和局限进行反思,并适当借鉴相关领域的研究进展,将可望开拓新的研究空间,为该领域的进一步发展奠定基础。
⑥ 神经网络简述
机器学习中谈论的神经网络是指“神经网络学习”,或者说,是机器学习和神经网络这两个学科领域的交叉部分[1]。
在这里,神经网络更多的是指计算机科学家模拟人类大脑结构和智能行为,发明的一类算法的统称。
神经网络是众多优秀仿生算法中的一种,读书时曾接触过蚁群优化算法,曾惊讶于其强大之处,但神经网络的强大,显然蚁群优化还不能望其项背。
A、起源与第一次高潮。有人认为,神经网络的最早讨论,源于现代计算机科学的先驱——阿兰.图灵在1948年的论文中描述的“B型组织机器”[2]。二十世纪50年代出现了以感知机、Adaling为代表的一系列成功,这是神经网络发展的第一个高潮[1]。
B、第一次低谷。1969年,马文.明斯基出版《感知机》一书,书中论断直接将神经网络打入冷宫,导致神经网络十多年的“冰河期”。值得一提的是,在这期间的1974年,哈佛大学Paul Webos发明BP算法,但当时未受到应有的重视[1]。
C、第二次高潮。1983年,加州理工学院的物理学家John Hopfield利用神经网络,在旅行商问题上获得当时最好结果,引起轰动;Rumelhart等人重新发明了BP算法,BP算法迅速走红,掀起神经网络第二次高潮[1]。
D、第二次低谷。二十世纪90年代中期,统计学习理论和支持向量机兴起,较之于这些算法,神经网络的理论基础不清晰等缺点更加凸显,神经网络研究进入第二次低谷[1]。
E、深度学习的崛起。2010年前后,随着计算能力的提升和大数据的涌现,以神经网络为基础的“深度学习”崛起,科技巨头公司谷歌、Facebook、网络投入巨资研发,神经网络迎来第三次高潮[1]。2016年3月9日至15日,Google人工智能程序AlphaGo对阵韩国围棋世界冠军李世乭,以4:1大比分获胜,比众多专家预言早了十年。这次比赛,迅速在全世界经济、科研、计算机产业各领域掀起人工智能和深度学习的热烈讨论。
F、展望。从几个方面讨论一下。
1)、近期在Google AlphaGo掀起的热潮中,民众的热情与期待最大,甚至有少许恐慌情绪;计算机产业和互联网产业热情也非常巨大,对未来充满期待,各大巨头公司对其投入大量资源;学术界的反应倒是比较冷静的。学术界的冷静,是因为神经网络和深度神经网络的理论基础还没有出现长足的进步,其缺点还没有根本改善。这也从另一个角度说明了深度神经网络理论进步的空间很大。
2)、"当代神经网络是基于我们上世纪六十年代掌握的脑知识。"关于人类大脑的科学与知识正在爆炸式增长。[3]世界上很多学术团队正在基于大脑机制新的认知建立新的模型[3]。我个人对此报乐观态度,从以往的仿生算法来看,经过亿万年进化的自然界对科技发展的促进从来没有停止过。
3)、还说AlphaGo,它并不是理论和算法的突破,而是基于已有算法的工程精品。AlhphaGo的工作,为深度学习的应用提供了非常广阔的想象空间。分布式技术提供了巨大而廉价的计算能力,巨量数据的积累提供了丰富的训练样本,深度学习开始腾飞,这才刚刚开始。
一直沿用至今的,是McChlloch和Pitts在1943年依据脑神经信号传输结构抽象出的简单模型,所以也被称作”M-P神经元模型“。
其中,
f函数像一般形如下图的函数,既考虑阶跃性,又考虑光滑可导性。
实际常用如下公式,因形如S,故被称作sigmoid函数。
把很多个这样的神经元按一定层次连接起来,就得到了神经网络。
两层神经元组成,输入层接收外界输入信号,输出层是M-P神经元(只有输出层是)。
感知机的数学模型和单个M-P神经元的数学模型是一样的,如因为输入层只需接收输入信号,不是M-P神经元。
感知机只有输出层神经元是B-P神经元,学习能力非常有限。对于现行可分问题,可以证明学习过程一定会收敛。而对于非线性问题,感知机是无能为力的。
BP神经网络全称叫作误差逆传播(Error Propagation)神经网络,一般是指基于误差逆传播算法的多层前馈神经网络。这里为了不占篇幅,BP神经网络将起篇另述。
BP算法是迄今最为成功的神经网络学习算法,也是最有代表性的神经网络学习算法。BP算法不仅用于多层前馈神经网络,还用于其他类型神经网络的训练。
RBF网络全程径向基函数(Radial Basis Function)网络,是一种单隐层前馈神经网络,其与BP网络最大的不同是采用径向基函数作为隐层神经元激活函数。
卷积神经网络(Convolutional neural networks,简称CNNs)是一种深度学习的前馈神经网络,在大型图片处理中取得巨大成功。卷积神经网络将起篇另述。
循环神经网络(Recurrent Neural Networks,RNNs)与传统的FNNs不同,RNNs引入定向循环,能够处理那些输入之间前后关联的问题。RNNs已经在众多自然语言处理(Natural Language Processing, NLP)中取得了巨大成功以及广泛应用[5]。RNNs将起篇另述。[5]
[1]、《机器学习》,周志华着
[2]、《模式识别(第二版)》,Richard O.Duda等着,李宏东等译
[3]、《揭秘IARPA项目:解码大脑算法或将彻底改变机器学习》,Emily Singerz着,机器之心编译出品
[4]、图片来源于互联网
[5]、 循环神经网络(RNN, Recurrent Neural Networks)介绍