基于ChEMBL数据库的文本分类器.docx
《基于ChEMBL数据库的文本分类器.docx》由会员分享,可在线阅读,更多相关《基于ChEMBL数据库的文本分类器.docx(2页珍藏版)》请在第一文库网上搜索。
1、摘要:某些科学家和将大数据提取整理到公共数据库这一过程都需要对文本进行数据挖掘,科学出版物的大量发行则要求可以实现半自动和全自动文本挖掘。作者开发了一种文档分类器,可以成功区分类化学物(即与小分子药物发现相关且可能包含定量生物活性数据的出版物)和“非类化学物”。基于ChEMBL数据库的文本分类器ref: Journal of Cheminformatics 2074, 6:40 ; IF=3.893链接:http:/www.jcheminf.eom/content/6/1/40.ChEMBL数据库存储了大量的化合物结构、生物靶标、生物活性数据以及药物和类药分子的分子性质。其数据是人工提取了原始
2、文献中的实验结果,并进行了整理和集成,保证了数据的一致性和数据质量。基于ChEMBL数据库来源,作者用Pipeline Pilot构建了分档分类算法,使用朴素贝叶斯(Naive Bayesian, NB)和随机森林(Random Forest, RF)算法,对文献中的标题和摘要做了文本分类,用于快速提取类化学物数据,从大量文献数据中提取关键的文献进行研究。该算法已在毒理基因组学中获得验证。TitleAbstractChEMBL47,939Papers1. Tokenization2. Punctuation removal3. Case normalization4. Stop word re
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 ChEMBL 数据库 文本 分类