皮皮网
皮皮网

【社交网源码】【网站信息登记查询源码】【网站备份源码文件扫描】事件抽取源码_事件抽取源码怎么做

来源:决策树c 源码 发表时间:2024-12-22 17:04:46

1.使用Prophet预言家进行时间序列预测
2.系统管理

事件抽取源码_事件抽取源码怎么做

使用Prophet预言家进行时间序列预测

       prophet是事件事件年由Facebook开源的一个高效时间序列预测工具。

       其名源于英文单词“prophet”,抽取抽意为先知或预言家,源码源码暗示其预测未来的事件事件能力。

       Prophet采用简洁的抽取抽单层回归模型,非常适合用于预测具有明确季节性周期性的源码源码社交网源码时间序列,同时具有出色的事件事件解释性。

       接下来,抽取抽我们将简要介绍Prophet的源码源码算法原理,并利用一个开源的事件事件能源消耗时间序列数据预测案例,展示Prophet的抽取抽使用方法和其强大功能。

       notebook源码位置:

       预测效果展示:

       〇,源码源码Prophet原理概述

       1,事件事件prophet的抽取抽优点:

       1, 拟合能力强。源码源码能够拟合时间序列数据中的趋势、周期以及节假日和特殊事件的网站信息登记查询源码影响,并能提供置信区间作为预测结果。

       2,对噪声鲁棒。引入了changepoints的概念,参数量远小于深度学习模型如LSTM,不易过拟合,收敛速度较快。

       3,网站备份源码文件扫描模型解释性好。提供了强大的可视化分析工具,便于分析趋势、周期、节假日/特殊事件等因素的贡献。

       2,prophet的缺点:

       1,不适用协变多维序列。源码资本景文娜Prophet只能对单个时间序列建模,不能同时建模多个协变序列(如沪深支股票走势)。

       2,无法进行自动化复杂特征抽取。受模型假设空间限制,它无法对输入特征进行交叉组合变换等自动化抽取操作。

       3,prophet的coin交易所源码原理:

       Prophet是一个加法模型,将时间序列分解为趋势项、周期项、节假日项/特殊事件影响以及残差项的组合。

       注:根据需求,周期项和节假日项/特殊事件影响也可设置为乘数而非加数

       1,其中趋势项被拟合成分段线性函数(默认)或分段logistic函数(适用于存在上下限的情况,如虫口模型、病毒传播等)。

       2,周期项使用有限阶(通常为3到8阶)的傅里叶级数进行拟合,有效减少参数量,避免对噪声数据过拟合。

       3,节假日项/特殊事件项可以作为点特征或区间特征引入,支持自定义不同类型的节假日或事件,还可通过add_regressor引入其他已知序列作为特征,具有很高的灵活性。

       一,准备数据

       我们使用的数据集是美国能源消耗数据集,包含了美国一家能源公司数十年的能源消耗小时级数据。

       1,读取数据

       2,数据EDA

       我们设计了一些时间日期特征来观察数据的趋势。

       3,数据分割

       二,定义模型

       三,训练模型

       四,使用模型

       五,评估模型

       六,保存模型

系统管理

       ç³»ç»Ÿçš„用户包括普通用户和管理员用户两大类。

       å¯¹äºŽæ™®é€šç”¨æˆ·ï¼Œç³»ç»Ÿéœ€è¦å‘其提供只读的访问权限,可以查看系统内预定义好的各类风险GIS展示,风险评价指标体系、评价结果,以及不同评价对象的基本信息,另外还可以对系统内的模型运行结果进行查看。

       å›¾5.增加评价方案页面

       å›¾5.修改评价方案页面

       å›¾5.同级指标审核页面

       å›¾5.批量评价页面

       ç®¡ç†å‘˜ç”¨æˆ·åˆ™éœ€è¦ä¸ºç³»ç»Ÿå„模块的正常运行和系统内各种数据的维护等提供支持,系统管理平台的用户对象仅是系统管理员。

       ç³»ç»Ÿç®¡ç†çš„开发将主要围绕系统管理平台、数据管理和图库管理3方面展开。系统管理平台主要是对整个网站系统的后台管理和网站设置,即实现该原型系统的后台维护。数据管理主要包括油价数据、事件管理,以及基础数据管理。另外,图库管理是针对国家、运输等相关风险中所用到的结构图或地图等进行集中管理。

       5.4.5.1系统管理平台开发

       ä»¥B/S形式运行的风险管理系统的管理平台如图5.所示。依照数据流程的线索将系统整体功能从左到右进行组织,划分为数据准备、数据处理、数据存储和数据应用四大块,每一块中包括了数据流程不同阶段的具体任务。这些任务以多种形式展现在管理平台界面中,包括中心的流程图形式,左侧菜单和顶层菜单,对系统的管理功能提供了多个访问入口,方便系统管理员对系统功能的把握和调用。

       æŽ¥ä¸‹æ¥ï¼Œä»¥ä¸»ç•Œé¢ä¸­çš„数据流程图为主线,简单介绍该原型系统的逻辑框架。在系统运行管理平台界面的数据准备中,将系统需要获取的数据分为Internet抽取的价格数据和风险评价数据两大类(见图5.c)。

       åœ¨æ•°æ®å¤„理部分,系统提供对油价数据的进一步整理和数据自动抓取过程中的日志查看,保证系统提供准确完整的数据(见图5.d)。除此以外,系统管理的数据处理部分包含模型运算模块的调用和管理,以及系统对指标体系和对象评价相关数据的管理。

       å›¾5.系统管理主界面

       ç›®å‰ä¸»è¦ä»‹ç»çš„是国家风险、市场风险和运输风险3个子功能模块。此外,除了上面所介绍的系统管理主要框架以外,在系统管理平台中,还添加了系统设置和网站操作模块。系统设置和网站操作主要实现整个原型系统的后台界面框架管理。具体主要包含以下几个方面。

       1)直接利用采取Sharepoint列表功能对网站后台框架进行整体设计,可以进行创建、编辑网页、网站框架设计(图5.)。

       å›¾5.网站操作

       2)更改网站主题。网站后台中有多种网站主题,用户可根据需要选择不同的主题(图5.)。

       3)在每一个系统模块下面,可进行整体页面和架构的设计,同时可以编辑相应的超链接条目(图5.)。

       4)在网站设置主页中,高级用户可以进行权限管理,主题外观设置,系统库的管理以及网站集的管理(图5.)。当然,上述权限操作仅限于高级用户。

       5.4.5.2数据管理的开发

       æ•°æ®ç®¡ç†åŒ…括油价数据和事件管理、基础数据管理等内容。在油价数据和事件管理中主要完成油价数据和事件的自动抓取功能,基础数据管理将对各个风险模块评价对象的概况、信息等相关数据进行维护和管理。

       ï¼ˆ1)油价数据和事件管理

       æ²¹ä»·æ•°æ®å’Œäº‹ä»¶ç®¡ç†çš„重点是油价和时间数据的获取。系统要求能够实现从Internet中定期自动地抓取数据并存储到系统中心数据库中。

       å›¾5.网站主题更改

       å›¾5.编辑网页

       å›¾5.网站设置

       è€ƒè™‘到数据管理和数据库之间的关系比较密切,并且需要不间断地运行,所以对数据管理模块的界面采取了C/S的开发形式。

       è‡ªåŠ¨æŠ“取模块的开发内容包括:价格数据抓取算法的设计;事件抓取算法的设计;数据抽取任务控制的整体程序结构确定;任务的自动执行和调度算法的设计;日志功能的使用,要能够依据日志对任务执行中的错误追踪和出错原因进行判断;需要实现任务失败重试,并可以设置重试次数阈值,默认为3次等。

       1)调度算法。将抽取代码进行封装,添加调度日志等功能,设计出自动抓取模块流程的整体流程图(图5.,图5.)。用于数据管理的管理员界面如图5.所示。

       å›¾5.自动抓取模块流程图

       å›¾5.自动抓取模块流程图

       å›¾5.数据管理模块界面

       2)价格数据抓取算法。自动抓取模块的核心代码是价格数据抓取和事件抓取算法。价格数据抓取从网页中抓取数据存储到本地中来,包括下载模块和处理转换模块两个子模块。自动抓取模块的核心代码部分自动远程下载价格数据,并按照指定路径保存到本地,并将下载结果计人数据库下载日志表,然后将下载下来的Excel表格数据进行转换,转换成符合数据库所建立的表格形式。

       å¯¹ç¾Žå›½èƒ½æºéƒ¨çš„数据抓取代码流程和表格处理转换流程如图5.与图5.所示。

       å›¾5.数据抓取代码流程图

       å›¾5.表格处理转换流程图

       ä»·æ ¼æ•°æ®æŠ“取模块的技术难点主要有:所下载的表格中包含的市场名称可能会发生变动,难以预期,导致匹配失败;Excel表格中产品名称、市场名称、价格类型、货币类型这几个字段是合并在一起的,需要将其分别识别出来;原表格中的日期格式直接导入数据库会发生不一致现象,需要对其进行转换处理。这些难点的解决主要依赖与算法的设计,在此不再赘述。

       3)事件数据抓取算法。事件数据抓取算法要求对美国能源部上关于油品的所有历史事件进行抓取,并保存进数据库。具体实现算法是从美国能源部指定的事件网站上将事件页面的源码下载到本地,然后进行相关字符串抓取、清洗、操作之后进入中心数据库。

       äº‹ä»¶æŠ“取算法的技术难点,主要在于事件是基于页面HTML形式而非链接,另外抓取的事件要符合数据库规定的形式。解决这些问题的主要方法包括对网页本地化装载的控件进行恰当的选择;在去除页面的HTML标记之后需要附加一些更正性质的处理,比如日期、年份的选择,事件日期、时间和内容之间没有空格的判断问题等;最后,最主要的就是在抓取中大量使用正则表达式提高效率。事件页面的呈现,如图5.所示。

       å›¾5.国际油价事件

       ï¼ˆ2)基础数据管理

       ç³»ç»Ÿç®¡ç†å¹³å°ä¸»è¦å®žçŽ°åŸºç¡€æ•°æ®ç®¡ç†ã€‚在基础数据管理模块,基于可扩展的数据维护技术,完成了总体架构设计,以国家、运输、市场基础数据为例的基础数据管理功能实现。在基础信息管理下实现了概况、信息、油价、事件等的添加、编辑、修改、更新一系列操作。

       åœ¨åŸºç¡€æ•°æ®ç®¡ç†ä¸­ï¼Œå®žçŽ°äº†å›½å®¶æ•°æ®çš„资源概况、基本信息的页面设计;运输数据的港口、航线概况和基本信息的页面设计;市场数据管理的页面设计,并都实现了链库功能。

       å›¾5.d展示的是系统管理的主界面。其中,最主要的功能是实现基础数据管理操作,该模块仅对高级用户(即有权限进行数据维护的用户)开放。

       1)国家数据管理。与风险评价页面相类似,基础数据部分根据模块分了“国家数据”“运输数据”等标签,各标签下又有各自模块的细分功能菜单,显示于页面左侧。国家数据的新增国家和资源概况展示的页面,如图5.和图5.所示。

       å›¾5.新增国家页面

       å›¾5.国家基本信息批量展示

       2)运输数据管理。运输数据管理模块实现了港口概况、港口信息、航线概况、航线信息的页面设计。现仅以港口信息页面展示为例,如图5.所示。

       5.4.5.3图库管理

       åœ¨æ•´ä¸ªé£Žé™©è¯„价系统中,应用了大量图片来丰富展现评价对象的相关信息。图片的应用范围包括:国家对象的地理分布示意以及国家的内部行政划分等;港口对象的标志性图片,可能是港口的照片或者结构图等;以及其他模块所应用到的图片。

       åœ¨å›¾åº“管理部分,目前考虑的有国家和港口的图片管理。图库的结构如图5.所示。

       å›¾5.港口信息维护

       å›¾5.图库管理结构图

       å›¾5.是添加图片的页面。

       å›¾5.是国家对象图库的显示页面,图5.是一个具体的对象图片页面,并且可以在此处删除或者修改图片。

       å›¾5.图库管理-添加图片

       å›¾5.图库管理-国家对象图库

       å›¾5.图库管理-国家对象具体图片显示

相关栏目:热点