《预测生物质热解动力学参数的随机森林模型.doc》由会员分享,可在线阅读,更多相关《预测生物质热解动力学参数的随机森林模型.doc(21页珍藏版)》请在第一文库网上搜索。
1、预测生物质热解动力学参数的随机森林模型摘要:基于大量已发表的生物质热解实验数据,采用数值方法拟合全局反应热解模型的动力学参数,建立生物质热解的训练和验证数据库,并利用随机森林算法研究生物质热解动力学参数与生物质种类和加热条件之间的非线性关系,发展预测生物质热解动力学参数的随机森林模型。训练和验证的结果显示:随机森林模型能够较好地预测训练数据库中的生物质热解的动力学参数(R20.92),并能够准确预测验证数据库中的多种生物质的热解过程(R20.93)。此外,变量重要性分析结果显示:纤维素质量分数对于反应级数和活化能影响较大,木质素对于反应级数的影响最大。加热条件对于活化能的影响可以忽略,但是对指
2、前因子和反应级数的影响显著。生物质能源相比传统的化石能源具有可再生性。同时,相比其他可再生能源,生物质是唯一可转化成固态、液态和气态燃料及其他化工燃料或产品的碳能源。因此生物质能的利用是二十一世纪能源发展的主要研究方向之一。当前生物质热化学转化方式主要有燃烧、气化和热解等1,而热解是生物质的众多热化学转化方式的基础,一直以来,生物质的热解过程及其模型构建都是学者们研究的重点。生物质热解是一个非常复杂的物理化学过程,涉及到复杂的化学组分(纤维素、半纤维素和木质素)和反应路径。国内外的学者开展了大量的实验研究,提出了针对生物质热解表观失重动力学模型,比如分布式活化能模型2。近期一些学者提出了微观网
3、络类的生物质模型,例如化学渗透挥发分模型3和动力学蒙特卡洛模型4,对热解的详细组分信息作了预测。但是需要注意的是,在上述模型研究中,针对的生物质种类以及所处的加热条件都十分有限,因此这些模型的动力学参数不具备生物质种类和加热条件的通用性。事实上,生物质热解的动力学与生物质种类(化学成分)及其所处的加热条件存在非常复杂的非线性关系。这种非线性关系对于提出通用的生物质热解模型至关重要,但是至今还没有完全被认知,需要进一步的研究5。一些学者采用了传统的经验拟合方法来研究这种非线性关系6-7,但是结果显示,采用传统拟合方法发展的经验拟合表达式不能很好地表达这种关系5。随着人工智能方法的提出和发展,发现
4、神经网络8、随机森林9等算法被能够较好地处理非线性问题。最近Xing等10-11采用神经网络建立了煤粉热解动力学参数与煤种、加热条件之间的非线性关系,准确预测了不同煤种在广泛加热条件下的热解过程。Lei等12采用随机森林模型较为精确地预测了煤粉自燃现象。针对生物质热解,Sunphorka等13采用神经网络(artificial neural net-work,ANN)方法来研究动力学参数与生物质种类之间的非线性关系,但忽略了加热条件的影响,且提出的模型只在一种生物质上加以验证,其通用性有待商榷。作为目前最先进的集成人工智能算法之一,随机森林方法的应用潜力很大。本文首次尝试利用该方法建立生物质热
5、解的动力学参数与生物质化学组成及其所处加热条件之间的非线性关系。基于大量已发表的生物质热解实验数据,并采用数值方法拟合全局反应热解模型的动力学参数,建立生物质热解的训练和验证数据库。利用随机森林(random forest,RF)算法,建立生物质的化学组成和加热条件与动力学参数的复杂非线性关系,发展预测生物质热解动力学参数的随机森林模型,并在验证数据库上对该模型的准确性进行验证。此外采用排列精度重要性方法研究生物质化学组成与加热条件对于其热解动力学参数的相对影响大小。1生物质热解的数学描述生物质热解过程是极为复杂的物理和化学过程,涉及到其不同化学组分之间的相互作用,并且受加热条件的影响较大。本
6、文采用的热解动力学的架构是基于反应级数的全局反应,该架构已经被广泛使用在生物质热解动力学的研究中14-15,其具体的表达式如下:本文采用1stopt软件17-18,基于实验数据,通过拟合得到特定生物质相应工况下热解过程的动力学参数n、K和E。图1显示了桉树叶(eucalyptusleaves,EL)在2种不同加热速率条件下利用拟合出的动力学参数预测的热解过程和实验值的比较,其中实验值来源于文献19,预测的热解过程是利用拟合后的动力学参数(n、K和E),结合已知的升温速率,通过式(1)计算得出。该生物质中纤维素、半纤维素和木质素的质量分数分别为11.28%、17.93%和9.25%,在不同加热条
7、件下拟合出的动力学参数如表1所示。从图1中可以发现,实验结果和拟合结果吻合得很好,相关系数在0.98以上。这说明本文采用的拟合方法可以准确获得热解动力学参数,也为后续的模型发展奠定了基础。需要说明的是,本研究样本库中的生物质热解结果均来自于实验测量,采用何种生物质热解动力学架构进行动力学参数拟合不是本文的研究重点。不同的动力学架构,如分布式活化能等,可能会产生不同的热解动力学参数。本文的研究重点在于对动力学参数与生物质化学组成和加热条件的非线性关系的建模研究,且本文的建模方法同样适用于不同的生物质热解动力学架构。一般地,生物质热解的动力学参数(在本文中指热解反应的活化能(E)、指前因子(K)和
8、反应级数(n)与生物质化学组成和其所处加热条件之间的非线性关系可表示为2研究方法2.1随机森林方法随机森林算法是由多棵分类回归树(classific-ation and regression tree,CART)组合构成的新型机器学习算法9。如图2所示,首先,采用有放回(bootstrap)抽样技术有放回地从原始数据集中随机抽取N个训练样本,每个训练集的大小约为原始数据集的2/322,剩余的未被选中的数据称为袋外(outofbag,OOB)的数据,OOB数据不参与回归树的训练;然后,分别为每个训练集建立分类回归树,产生由Ntree棵CART决策树组成的森林,在每棵树生长过程中,从全部M个特征变
9、量中随机抽选m个(mM),在这m个属性中根据Gini系数最小原则选出最优属性进行内部节点分支;最后,集合Ntree棵决策树的预测结果,对于分类问题,采用结果的众多树投票结果的众数作为分类的结果,对于回归问题,采用众多树的预测值的平均值作为回归的预测结果。在本文的研究中,纤维素、半纤维素和木质素的质量分数被用来表征生物质种类的影响,热解速率被用来表征加热条件的影响。需要说明的是,为了保留所有影响因素的特征,m的值设置为4。此外,袋外的数据的误差被用来作为评判标准,通过试错法来确定最优化的分类回归树的数目:2.2样本库基于大量已发表的生物质热解实验数据,本文分别建立了用于训练随机森林模型的训练数据
10、库和用于验证提出的随机森林模型的验证数据库。训练和验证的数据分布可见图3,其中左侧的散点表示样本中参数的值。右侧代表样本数据的统计信息:倒三角表示最大值,正三角表示最小值,菱形代表中位数的值,方框内的横线代表平均数的值,详细的训练和验证数据库信息见附录文件。训练数据库一共包含115个样本,其中样本的纤维素,半纤维素,木质素和加热速率的值的分布范围分别为0100%、0100%、0100%和280K/min。验证数据库一共包含48个样本,这48个样本均没有包含在训练数据库中,其中纤维素,半纤维素,木质素和加热速率样本的分布范围分别为14.59%53.60%、4.83%55.92%、4.88%45.
11、59%和560K/min。需要说明的是,由于生物质的化学组成和加热速率具有不同的量纲,所有的输入参数都需要进行一个无量纲化的预处理23,具体的方法如下:3结果和分析3.1随机森林模型训练结果在发展生物质热解的随机森林模型过程中,最优的树的数目Ntree-best需要经过试错法进行确定。在本文中,测试的树的数目为1300棵,优化的指标为OOB数据的预测误差。图4显示了测试的结果,可以发现对于所有的动力学参数,随着树的数目的增加,袋外数据的预测误差先急剧下降,然后保持平稳,相关性系数先逐渐增加然后也保持平稳。最优化的树的数目的评判指标即是以较少的分类回归树,获得较好的预测结果。针对log(n)、l
12、og(E)和log(K),最优化的树的数目分别为139、120和123,最优的相关性系数分别为0.9231、0.9572和0.9830。图5显示了RF模型的对于整个训练数据库的训练结果,其中纵轴为预测值,横轴为实验值。从图中可以看出,对于3个动力学参数,其训练结果的相关性系数都达到了0.92以上,对于指前因子甚至达到了0.98,这表明RF模型能够很好地表征生物质热解动力学参数和生物质化学组成及加热条件间的复杂的非线性关系。但需要指出的是,对于反应级数的训练结果相对较差,这和Sunphorka等13采用ANN方法的研究结果相一致,这说明了反应级数与生物质种类、加热速率具有更加强烈的非线性关系。这
13、可能是由于生物质热解过程中多组分的多个反应路径造成的,在未来的研究中可以考虑采用多步机理的热解动力学架构来提高对于化学反应级数的预测。3.2随机森林模型验证结果为了检验训练出的RF模型对不同生物质种类和加热条件下的热解动力学参数的预测能力,采用训练出的RF模型对验证数据库内的样本的热解动力学参数进行预测,并与从实验值拟合得到的动力学参数进行比较,比较的结果如图6所示。可以发现对于验证数据库的样本,RF模型能够很好的预测3个动力学参数,对log(n)、log(E)和log(K)的预测,其相应的相关性系数分别为0.9628,0.9685和0.9343,均超过了0.93。综上,本文提出的RF模型能够
14、很好地预测生物质热解的动力学参数与化学组成和加热条件之间的非线性关系。此外RF模型预测结果的相关性系数要优于Sunphorka等13提出的ANN方法,且在更多的生物质和加热条件下得到了验证,说明了RF模型的通用性较ANN方法要好。除了进行预测的动力学参数的比较,本文还采用由RF模型预测的动力学参数,利用式(1),对2种不同生物质(桉树皮,eucalyptus bark,EB;桉树木屑,eucalyptus sawdust,ESD)在不同加热条件下的热解过程进行预测,并与实验值进行比较。图7展示了采用RF模型预测的动力学参数计算出的生物质热解过程和实验值的比较结果,可以发现所预测的热解过程与实验
15、值吻合较好。这也更进一步验证了采用随机森林方法所得到的非线性关系能够较好地反应生物质的化学组成和加热条件对于热解过程的影响。3.3相关性分析生物质的化学组成和加热条件对于生物质的热解过程有着很明显的影响,但是对于这种影响的相对大小,至今还没有定量或者定性的描述。基于提出的RF模型能够较好地描述热解过程,本文采用序列精度重要性方法(permutation accur-acy importance,PAI)来研究不同影响因素的相对影响力24。需要说明的是,由于随机森林算法随机选择OOB数据,且PAI方法随机置换OOB数据样本间两两的特征信息,在这2个随机过程的综合作用下,动力学参数的补偿作用对结果的影响不大。图8显示了生物质的化学组成和加热条件对于每一个动力学参数的相对影响大小。可以看出,对于热解反应的指前因子,半纤维素和木质素的质量分数起到了至关重要的影响,且升温速率和纤维素质量分数的影响相当。对于热解反应的活化能,纤维素的质量分数影响最大,而升温速率的影响基本可以忽略。对于反应级数,纤维素和半纤维素的质量分数影响最大,升温速率和木质素的影响相对较小。4结论(1)训练的结果显示,随机森林模型能够较好地预测不同加热条件下生物质热解的动力学参数。基于训练数据库的相关性系数达到0.92以上,说明对于训练库RF模型能够很好地描述热解动力学参数与生物质化学组成和加热条件之间的