1.经济学问题。关于通货膨胀与名义利率

2.石油市场价格抓取算法

油价算法只会越来越高对吗_油价是根据什么涨的

油耗的计算为:油耗x油价/100公里。百公里8.5升,按照7块钱一升来算,那么大概需要?60,也就是说每公里六毛钱左右。

设油箱红灯亮了去加油,加的是92号汽油,单价是6.2元/L,加满后总共用了300块(这里不讲你油箱多少L)。然后你归零公里数,从0公里开始算,等到下次红灯再亮时去加油。此时车子显示你一共跑了 480公里,加了290元,那么我们就得到数据290元跑了480公里。

百公里油耗,就是290元/480公里=0.6 0.6*100=60 60/6.2(油的单价)=9.67L 。

每公里就是290元/480公里=0.6。

扩展资料

每个人的车型不同,性能不同,油耗自然就会不一样,但是算法都是一样的,只要记住初始里程数和结束里程数,就能够算出自己车辆的油耗,但是往往这个实际油耗会比官方给出的油耗要高出一部分。

因为官方给出的数据都是理想状态的,比如一个驾驶员按照一定速度行驶一百公里的油耗,由于多数车辆在90公里/小时接近经济车速,所以大多数官方给出的油耗都是90公里/小时的百公里油耗,这完全就是理想状态。

百度百科-油耗

经济学问题。关于通货膨胀与名义利率

一般在0.5元~0.8元不等。这个数据没有一个准确统一的答案,因为各个地区的油价不同,每辆车的排量不同,导致油耗不同,就算是同一辆车,因为驾驶习惯等客观因素的原因,油耗也会差很多。

汽车油耗多少钱一公里,可以用下面这个公式计算:百公里油耗×油价÷100(公里)=一公里的油钱。平常俗话说的百公里几个油,或者百公里多少多少个油,意思就是几升油。

例如,百公里6个油,意思就是说一百公里耗油6升。如油价8元一升,算法就是6*8/100=0.48元。即,一公里少有4毛8分。

还有一种方法,可以算出自己车辆的百公里油耗。计算百公里油耗,可以用以下公式:排量(L)*10/2。

例如,2.0升的汽车,百公里油耗大约是2*10/2=10升。

这里要特别注意的一点是,这个算法不是精准结果,只是一个大约结果。平常的行车路况、个人的开车习惯等都会影响油耗数值!

附开车省油小技巧:

石油市场价格抓取算法

通货膨胀一般指因纸币发行量超过商品流通中的实际需要的货币量而引起的纸币贬值、物价上涨现象。

纸币流通规律表明,纸币发行量不能超过它象征地代表的金银货币量,一旦超过了这个量,纸币就要贬值,物价就要上涨,从而出现通货膨胀。通货膨胀只有在纸币流通的条件下才会出现,在金银货币流通的条件下不会出现此种现象。因为金银货币本身具有价值,作为贮藏手段的职能,可以自发地调节流通中的货币量,使它同商品流通所需要的货币量相适应。而在纸币流通的条件下,因为纸币本身不具有价值,它只是代表金银货币的符号,不能作为贮藏手段,因此,纸币的发行量如果超过了商品流通所需要的数量,就会贬值。例如,商品流通中所需要的金银货币量不变,而纸币发行量超过了金银货币量的一倍,单位纸币就只能代表单位金银货币价值量的1/2,在这种情况下,如果用纸币来计量物价,物价就上涨了一倍,这就是通常所说的货币贬值。此时,流通中的纸币量比流通中所需要的金银货币量增加了一倍,这就是通货膨胀。在宏观经济学中,通货膨胀主要是指价格和工资的普遍上涨。

通货膨胀在现代经济学中意指整体物价水平上升。一般性通货膨胀为货币之市值或购买力下降,而货币贬值为两经济体间之币值相对性降低。前者用于形容全国性的币值,而后者用于形容国际市场上的附加价值。两者之相关性为经济学上的争议之一。

通货膨胀之反义为通货紧缩。无通货膨胀或极低度通货膨胀称之为稳定性物价。

在若干场合中,通货膨胀一词意为提高货币供给,此举有时会造成物价上涨。若干(奥地利学派)学者依旧使用通货膨胀一词形容此种情况,而非物价上涨本身。因之,若干观察家将美国1920年代的情况称之为“通货膨胀”,即使当时的物价完全没有上涨。以下所述,除非特别指明,否则“通货膨胀”一词意指一般性的物价上涨。

通货膨胀的起因

不同学派对通货膨胀的起因有不同的学说。

1.货币主义的解释

对于通货膨胀最广为人知也最直接的理论是:通货膨胀导因于货币供给率高于经济规模增长。此说主张以比较gdp平减指数与货币供给增长来作测量,并由中央银行设定利率来维持货币数量。此观点不同于下述之奥地利学派者在于其着重于货币之数量而非实质。在货币主义架构下,货币的聚集是重点所在。

货币数量理论,简单的说,就是经济体所耗货币总量取决于现存货币总量。下列公式创自此说:

p 为一般消费品物价水平,dc为消费品总需求量,而sc消费品总供给量。公式背后的观念是:在消费品总供应量对消费品总需求量相对下降,或消费品总需求量对消费品总供应量相对上升时,一般消费品物价会随之提高。基于总开销主要基于现存货币总量的观点,经济学者们以货币总量计算消费品总需求量。于是乎,他们断定总开销与消费品总需求量随著货币总量提高。于是相信货币数量理论的学者们同样也相信物价上涨的唯一原因就是经济成长(表示消费品总供给量正提高),以及央行因之以货币政策提高现存货币总量。

以此观点来说,通货膨胀的最根本原因是货币供给量多于需求量,于是“通货膨胀是一定会到处发生的货币现象”,弗里德曼如是说。意指通货膨胀的控制有赖于货币上与财政上的限制。不可令借支过于容易,其自身亦不可超额。此观点着重于中央预算赤字与利率,以及经济生产力,也就是由生产成本(总供应)所推动的通货膨胀( cost - pull inflation )。

2.新凯恩斯主义的解释

(neo-keynesian)

依新凯恩斯主义,通货膨胀有三种主要的形式,为robert j. gordon所说的“三角模型”的一部分:

·需求拉动通胀 ——通货膨胀发生于因gdp所产生的高需求与低失业,又称菲利普斯曲线型通货膨胀。

·成本推动通胀 ——今称“供给震荡型通货膨胀”(supply shock inflation),发生于油价突然提高时。

·固有型通货膨胀(built-in inflation)—— 因合理预期所引起,通常与物价/薪资螺旋(price/wage spiral)有关。工人希望持续提高薪资,其费用传递至产品成本与价格,形成恶性循环。固有型通货膨胀反应已发生的,被视为残留型通货膨胀,又称“惯性通货膨胀”,甚至是“结构性通货膨胀”。

这三型的通货膨胀可随时合并解释现行的通货膨胀率。然而,大多时前两种型态的通货膨胀(及其实际的通货膨胀率)会影响固有型通货膨胀的大小:持续性的高(或低)通货膨胀带动提高(或降低)固有型通货膨胀。

三角模型中有两项基本元素:沿著菲利普斯曲线移动,如低失业率刺激升高通货膨胀;以及转移其曲线,如通货膨胀升高或降低对失业率的影响。

3.菲利普斯曲线通货膨胀说

(phillips curve)(或称需求面)

需求带动理论主要集中于货币供给:通货膨胀可由流通中的货币数量与经济供应力(其潜在输出)相关。这点在(可能于对外战争或内战期间)印行超额的货币引起金融危机时特别鲜明,有时会导致恶性通货膨胀使得物价飞涨(或达每月上涨一倍的程度)。

货币供给在程度温和的通货膨胀中也扮演主要角色,但其重要性有争议。货币主义经济学家相信其具强力连结;相反地,凯恩斯主义经济学者强调总体需求在其中的角色,而货币供给仅只是总体需求的决定性因素。

凯恩斯主义解释法的基本观念为通货膨胀与失业率之间的关系,称之为菲利普斯曲线模型。此模型在物价稳定度与失业率之间权衡(trade off);故为将失业率降至最低,可允许一定程度的通货膨胀。菲利普斯曲线模型极佳的描述出美国在1960年代的经历,但不足以诠释其于10年所遭遇到的通货膨胀升高与经济停滞结合。现今菲利普斯曲线用以关联薪资总额增长与一般性通货膨胀的关系而非失业率与通货膨胀率。

·菲利普斯曲线之位移

因为供给震荡与通货膨胀已成为经济活动的固定因素,当代整体经济使用‘位移’过的菲利普斯曲线(以及物价稳定度与失业率之间的取舍平衡)来描述通货膨胀。供给震荡意指10年的油价震荡,而固有型的通货膨胀意指物价/薪资循环与通货膨胀预期,表示在正常经济情况下容忍通货膨胀。因此,菲利普斯曲线仅代表三角模式中的需求拉动通胀。

另一个凯恩斯主义的观点为潜在产出(有时称为国内生产总值)——也就是达到最高生产力的状况下经济体之gdp水准——为习惯性且固有的限制。此种输出标准对应于nairu——固有失业率、自然失业率或全职性的失业率。在如此架构下,固有型通货膨胀率为内因性地取决于经济体内的劳动量:

gdp超出其潜在水准(且失业率低于nairu)时。该理论指出,在其他条件相等时,通货膨胀随著供应者提高价格而加剧,且固有型通货膨胀会更恶化。进一步将导致菲利普斯曲线朝著高通胀与高失业摆向滞胀。这种"加速型通货膨胀"曾见于1960年代的美国,当时越战的开销(由小额加税抵消)在数年间将失业率压低在百分之四以下。

gdp低于其潜在水准(且失业率高于nairu),而其他条件相等时,通货膨胀随著供应者企图降价,让市场消化超额数量,并低估固有型通货膨胀而减低;即阻止通货膨胀。将导致菲利普斯曲线朝著低通胀与低失业摆向期望的方向。阻止通货膨胀曾见于1980年代的美国,当时美联储保罗?沃尔克的抗通胀措施带来数年的高失业率,其中两年曾高达百分之十。

gdp相等于其潜在水准(且失业率也等于nairu)时,只要没有供给震荡,通货膨胀率即不变。长期说来,大多数的新凯恩斯总体经济学者视菲利普斯曲线为垂直。也就是说,若通货膨胀率高到可以压过失业率的情况下,失业率为其前提,且等相于nairu。

然而,以该理论作为政策制订的标的存在缺陷。潜在产出(以及nairu)的数量通常为未知,且会随时间改变。另外,通货膨胀率的发生并不对称,上升的速度较下降为快;更糟的是还趋向随政策而变。例如说,在撒切尔首相主政时期,失业者发觉自己处于结构性失业,也就是无法在不列颠经济体内找到适才适所的就业机会,当时英国的高失业率可能提高了nairu(且潜力降低)。在一经济体避免跨越高通货膨胀的门坎时,结构性失业率的提高暗示着只有小量的人力可在nairu中找到就业机会。

若定nairu与潜在产出两者皆具独特性且迅速达成,则绝大多数的非凯恩斯主义的通货膨胀理论可理解为包含于新凯恩斯主义的观点中。当"供给面"固定时,通货膨胀取决于总体需求(aggregate demand)。固定供给面也暗示著公私机构的开销定然相互冲突。故的赤字开支会对私营机构产生排挤效果,而对就业水准并无影响。也就是说,资金供给与金融政策为唯一可影响通货膨胀者。

4.供给面学说

供给面经济学说定通货膨胀一定由资金供给过剩与资金需求不足所引起。对这两个因素而言,资金数量纯粹只是标的物。于是,欧洲于中世纪的黑死病流行期间所发生的通货膨胀,可视为因资金需求降低所引起;而10年代的通货膨胀可归因于美国脱离布雷顿森林体系所订定的金本位后所产生的资金供给过剩。供给学派定,资金供给与需求同时提高时,不会导致通货膨胀。

供给面经济学说所阐述的一个要素,称美国1980年代由低税负所引领的经济扩张为结束高通货膨胀的手段。其论点在经济扩张提高对基本资金的需求,且此种作法抵销通货膨胀的影响。经济扩张可视为经常性的带来对资金的高需求,且其他条件等同于提高资金数量。在国际货币市场中,此种政策无可置辩。供给面经济学说主张,经济扩张不仅提高国内对资金的评价,也会提高国际上的评价。

通货膨胀的测量

通货膨胀之测量由观察一经济体中之大量的劳务所得或物品价格之改变而得,通常是基于由所收集的资料,而工会与商业杂志也做过这样的调查。物价与劳务所得两者共同组成物价指数,为整组物品的平均物价水准之测量基准。通货膨胀率为该项指数的上升幅度。物价水准量测整体物价,而通货膨胀是指整体物价的上扬幅度。

对通货膨胀没有单独性的确实量测法,因通货膨胀值取决于物价指数中各特定物品之价格比重,以及受测经济区域的范围。通用的量测法包括:

生活指数CLI(cost of living index)为个人生活所需费用的理论增幅,以消费者物价指数(consumer price indexes)概估之。经济学家对特定的cpi值应估计为高于或低于cli值有不同的看法。这是因为cpi值公认具"偏向性"(bias)。cli可用"购买力平"(ppp, purchasing power parity)来调整以反应区域性商品与世界物价的广泛差距。

消费者物价指数CPI

(consumer price index)测量由‘典型消费者’所购物品之价格。在许多工业国家中,该指数的年度性变化百分比为最通用的通货膨胀曲线报告。该项测量值通常用于薪资报酬谈判中,因为雇员希望薪资(名目)能相等或高于cpi。有时劳资合约中会包含按生活指数调整条款(cost of living escalators),表示名目薪资会随cpi的升高自动调整,其调整之时机通常于通货膨胀发生之后,幅度较实际通货膨胀率为低。

生产者物价指数(ppi)测量生产者收购物料的价格,与cpi于物价津贴、盈利、与税负上有所不同,导致生产者之所得与消费者之付出产生差距。ppi反应于cpi升高而上升,具有典型的延迟。虽说其具多样化的组合,一般相信这种延迟的特性使得根据今日的ppi通货膨胀粗估(rough-and-ready)明日的cpi通货膨胀成为可能;各种的论述与内容有极重要的不同。

批发物价指数(wholesale price index)测量选择性货品之批发价格变化(特别是销售税),与ppi极为类似。

商品价格指数(commodity price index)测量选择性商品售价之变化。若使用金本位制,则其所选择的商品为黄金。美国使用复本位制,其指数包含黄金与白银两者。

gdp平减指数(gdp deflator)为基于国内生产总值的计算:名目gdp与经通货膨胀修正后的gdp(即不变价格(constant-price)gdp或实质gdp)两者间所使用的金钱之比例(参见实质与名目经济)。这是对价格水准最宏观测量。本指数也用来计算gdp的组成部分,如个人消费开支。美国联邦储备改用核心个人消费平减指数(personal consumption deflator)及其他平减指数作为制订“反通胀政策”的参考。

个人消费支出价格指数pcepi(personal consumption expenditures price index)。2000年2月17日,在半年一度的国会金融政策报告(亦即humphrey-hawkins报告)中,联邦公开市场委员会fomc(federal open market committee)声称将主要的通货膨胀测量法自cpi改为连锁式个人消费开支价格指数。

因为每一种测量法都基于他种测量法,并以固定模式结合在一起,经济学家经常争议在各测量法及通货膨胀模式中是否有‘偏差’存在。例如,boskin委员会于1995年找出美国劳工部统计局(bls)所计算出的cpi具有偏差。在对其偏差进行定量分析后,他们认为当年度的通货膨胀遭过分夸大。因“快乐论”(hedonic )所带来的科技创新增加与以平价品取代昂贵的商品,两者都会降低cpi-u的升高率。另一个例子是在1980年代早期,无人居住的出租单位并不计入cpi-u与cpi-w的租金收入部分;在加计此部分后,通货膨胀率实际上是极度的受低估,于是在1982年的cpi计算中加入了这项改变。

现存的争论为应否计入关于快乐论的调整部分,包含人们会在高物价的地区不可企及时搬迁到较便宜的地区。也有人认为指数中的购屋部分极度低估了日常生活费用对房价的冲击,亦极度低估了医疗费用在退休者的日常费用中的重要性。

通货膨胀与痛苦指数

(痛苦指数:Misery index)

·痛苦指数的概念

痛苦指数代表令人不快的经济状况,等于通货膨胀与失业率之总合。其公式为:痛苦指数 = 通货膨胀百分比 + 失业率百分比,表示一般大众对相同升幅的通货膨胀率与失业率感受到相同程度的不愉快。

·学者观点

现代经济学家不同意以完全负面的“痛苦”一词来形容上述通货膨胀机转的负面冲击。实际上,经济学家中有许多认为公众对温和通货膨胀的成见是来自其相互影响:群众只记得在高通货膨胀时期相关的经济困难状况。以现代经济学家的观点来说,温和的通货膨胀是较不重要的经济问题,可由对抗滞胀[stagflation](可能由货币主义[monetarist]所刺激)来作部分中止。

通货膨胀在经济学上的角色

稳定的小幅度通货膨胀的其中一个影响是难以重新谈判降价,特别是对薪资与合约而言更是如此。所以物价若缓步上涨,则相关的价格便较易于调整。有多种物价会“滞留降价”,但悄悄上涨。所以零通货膨胀(物价维持平准)的效应会以降低价格、盈利、与雇员数的方式影响到其他方面。所以,若干公司的执行部门视温和的通货膨胀为“润滑商业巨轮”。追求完完全全的价格稳定会带来极具毁灭性的通货紧缩(物价持续降低),将导致破产与经济衰退(甚至经济萧条)。

金融体系视通货膨胀之“潜在风险”为高于储蓄累积财富的基本投资诱因。换句话说,通货膨胀就是市场对金钱的时间价值之措辞。也就是说,因为今天的一元较明年的一元更具价值,所以未来的资本价值在经济学上有所扣减。此种观点视通货膨胀为对未来资本价值的不确定性。

对低阶层者而言,通货膨胀通常会提高由经济活动之前的贴现所产生的负面影响。通货膨胀通常导因于提高货币供给政策。对通货膨胀的所能进行的影响是对停滞的资金课税。通货膨胀升高时,提高对停滞的资金的税负以刺激消费与借支,于提高了资金的流动速度,又增强了通货膨胀,形成恶性循环。在极端的情形下会形成恶性通货膨胀(hyperinflation)

国际贸易:若国内通货膨胀率较低,遭削减的贸易余额会破坏固定汇率。

鞋底成本:因为现金的价值在通货膨胀时会萎缩,在通货膨胀时期人们因此会倾向持有较少的现金。此词表示真实的成本会更经常流向银行。(鞋底成本一词是句玩笑话,意指因走到银行而磨损鞋底所产生的成本。)

菜单成本:商号须更勤于改变产品价格。此词表示餐厅用于改印菜单所需的成本。

恶性通货膨胀:若通货膨胀升高的程度失去控制,会干扰到正常的经济活动,损害供给能力。

在一经济体中,会有若干部门编入通货膨胀指数,而若干部门没有,通货膨胀行为会自未编入的部门向编入的部门重新分配。在影响幅度小时,这属于一种政策性的选择,不对储蓄而对变现优先权与手头资金课税。若影响超出一定幅度时,则其效应歪曲,成为个人“对通货膨胀的投资”,也就是鼓励对通货膨胀的预期心理。

因为以上打击通货膨胀的理由都高于打击其预期行为与打击持有大量资金所需的小幅影响,大部分的中央银行顾及物价稳定性,都以可见但极低的通货膨胀为目标。

反通货膨胀

国家中央银行,如美联储,可经由设定利率及其他货币政策来有力地影响通货膨胀率。高利率(及资金需求成长迟缓)为央行反通胀的典型手法,以降低就业及生产来抑制物价上涨。

然而,不同国家的央行对控制通货膨胀有不同的观点。例如说,有些央行密切注意对称性通货膨胀目标,而有些仅在通货膨胀率过高时加以控制。欧洲中央银行因在面对高失业率时行后者而受指责。

货币主义者着重经由金融政策以降低资金供给来提高利率。凯恩斯主义者则着重于经由增税或降低开支等财政手段来普遍性的降低需求。其对金融政策的解释部分来自罗伯特?索罗对日用品价格上涨所作的研究成果。供给学派所主张的抵抗通货膨胀方法为:固定货币与黄金等固定参考物的兑换率,或降低浮动货币结构中的边际税率以鼓励形成资本。所有这些政策可透过公开市场操作达成。

另一种方法为直接控制薪资与物价(参见工资议价,incomes policies)。美国在10年代早期,尼克森主政下,曾试验过这种方法。其中一个主要的问题是,这些政策与刺激需求面同时实施。故供给面的限制(控制手段、潜在产出)与需求增长产生冲突。经济学家一般视物价控制为不良作法,因其助长短缺、降低生产品质,从而扭曲经济运行。然而,若能避免因经济严重衰退导致成本升高,或在抵抗战时通货膨胀的情形下,这样的代价或许值得。

实际上,物价控制可能因抵抗通货膨胀而使经济衰退更具影响力(因降低需求而提高失业率),而经济衰退可在需求高涨时防止物价因控制产生歪曲。

通货膨胀对经济生活的影响

在有通货膨胀的情况下,必将对社会经济生活产生影响。如果社会的通货膨胀率是稳定的,人们可以完全预期,那么通货膨胀率对社会经济生活的影响很小。因为在这种可预期的通货膨胀之下,各种名义变量(如名义工资、名义利息率等)都可以根据通货膨胀率进行调整,从而使实际变量(如实际工资、实际利息率等)不变。这时通货膨胀对社会经济生活的的唯一影响,是人们将减少他们所持有的现金量。但是,在通货膨胀率不能完全预期的情况下,通货膨胀将会影响社会收入分配及经济活动。因为这时人们无法准确地根据通货膨胀率来调整各种名义变量,以及他们应取的经济行为。

(一)在债务人与债权人之间,通货膨胀将有利于债务人而不利于债权人

在通常情况下,借贷的债务契约都是根据签约时的通货膨胀率来确定名义利息率,所以当发生了未预期的通货膨胀之后,债务契约无法更改,从而就使实际利息率下降,债务人受益,而债权人受损。其结果是对,特别是长期带来不利的影响,使债权人不愿意发放。的减少会影响投资,最后使投资减少。

(二)在雇主与工人之间,通货膨胀将有利于雇主而不利于工人

这是因为,在不可预期的通货膨胀之下,工资增长率不能迅速地根据通货膨胀率来调整,从而即使在名义工资不变或略有增长的情况下,使实际工资下降。实际工资下降会使利润增加。利润的增加有利于刺激投资,这正是一些经济学家主张以温和的通货膨胀来刺激经济发展的理由。

(三)在与公众之间,通货膨胀将有利于而不利于公众

由于在不可预期的通货膨胀之下,名义工资总会有所增加(尽管并不一定能保持原有的实际工资水平),随着名义工资的提高,达到纳税起征点的人增加了,有许多人进入了更高的纳税等级,这样就使得的税收增加。但公众纳税数额增加,实际收入却减少了。由这种通货膨胀中所得到的税收称为“通货膨胀税”。一些经济学家认为,这实际上是对公众的掠夺。这种通货膨胀税的存在,既不利于储蓄的增加,也影响了私人与企业投资的积极性。

改革开放以来,我国经历了三次比较严重的通货膨胀,分别发生在1980年,1988年和1994年。hlm

由于网站上的石油市场价格历史数据的时间粒度从年一直精确到日,所有的下载靠人工完成是很困难的,而且由于下载到本地之后的表格字段并不规范,所以必须要根据数据库字段的要求对字符串和Excel表格操作,使之规范化后再入库。其难点在于实现石油市场价格的自动抓取完成对数据源的自动下载,数据源的自动更新,与管理平台的无缝链接,以及ActiveX 插件的制作。

5.3.1.1 数据源的自动下载

石油市场价格数据有3个数据源,包括美国能源部能源信息署(EIA)、《华尔街日报》(WJS)和中石油(CNPC)的数据。这些数据源皆为互联网上的。针对3个不同的数据源的特点,用远程自动下载及规范化,以及基于正则表达式的网页数据自动抓取两种不同的技术完成。

(1)远程自动下载及规范化

对于美国能源部网站的油价历史数据,通过设计自动下载引擎,完成对其历史油价数据的自动远程下载,按照指定路径保存到本地,并将每次下载的结果保存到数据库下载日志表;将下载下来的数据进行清洗、转换并上载到中心数据库。

(2)基于正则表达式的网页数据自动抓取技术

由于大部分网页数据并没有提供下载的通道,而且油价数据同股价数据一样更新频率很高。因此需要对网站上的数据进行基于正则表达式网页数据自动抓取。华尔街油价数据、美国能源部上的油价、中石油网页上的油价数据,均需要通过正则表达式的网页自动抓取功能来实现。

网页抓取需要解决的问题:

1)得到需要抓取的网页的地址列表(URL);

2)根据网页的地址去请求,得到网页的内容;

3)分析网页(HTM L)的结构,并提取出需要的内容,即使用网页结构化信息抽取技术或元数据集技术。可以使用基于字符串查找定位和基于DOM(Document Object Model)结构的分析;数据抓取结构体系,如图5.27所示。

图5.27 B/S网页抓取结构体系

正则表达式的网页数据自动抓取技术涉及网页源码数据的本地化操作,装载源码数据控件的选择,相关信息源码的抓取,源代码的去行操作,数据中含有超链接和字体变换的HTML标签元素的去除,应用零款断言和截取子字符串等字符串函数的方法来抓取数据以及数据入库这些操作(图5.28)。

图5.28 基于正则表达式的网页信息抓取过程

5.3.1.2 数据源的自动更新

当完成对历史数据的初始化之后,需要设计监控引擎,监控网站数据源的更新情况,以决策是否执行增量下载任务。其监控引擎用实时监控技术以及周期性检测技术。当执行增量下载任务之后,需要对下载数据的有效性和完整性进行检查,指定的数据源要定格式、定期进行更新。数据源的自动更新,主要依据站点在对数据更新之后系统能及时发现并自动快速地获取更新。从站点上获取更新的手段,涉及数据更新后的更新超链接、按钮变化后的触发网址的变动,分析网址来获得更新等,如:《华尔街日报》的期货油价就是按照将日期写进网址来制作更新的;若是周末或是节日期间网址同样存在只是网页上无相关内容,于是便要考虑此次更新获得的数据是否有效和存在;另外在处理如AJAX 等网址不变的网络站点或者站点的更新不能从网址上得到解释时,使用针对网页的高级字符串操作来获取更新,前述的正则表达式便是最有效的方法之一。

5.3.1.3 与管理平台的无缝链接

管理平台的功能是要使下载、更新的多个任务按照程式的设计,分配到计算机的几个线程中,通过对线程的调度,达到自动下载和更新的有效管理。为此需要设计审核功能、日志功能、重试次数的阈值,以及开启多个Excel进程的功能。通过审核功能,可以查明自动下载过程中的异常,便于进行人工干预;通过日志功能,可以帮助我们依据日志对任务执行中的错误进行追踪和对出错原因进行判断;通过设置重试次数阈值,可以实现任务执行失败后重试;通过开启多个Excel进程的功能,可以实现EIA的Excel数据自动读取和转换。

5.3.1.4 预测程序ActiveX插件的制作

由于油价预测程序是基于C/S架构开发,要将程序发布到B/S架构必须使用插件技术从服务器端向客户端安装预测程序的核心部件,以达到对油价模型更新而不用再单独编写程序的目的,这样就保证了程序的完整性和解决方案之间的良好衔接。

创建ActiveX插件的过程,必须让系统提供一个接口使得插件能够完整地从后台链接到前台。因为工程无法生成tlb文件,没有tlb文件也就意味着注册失败,以及dll文件或ActiveX 控件在客户端无法使用。创建的类就是通过代码的方式将dll文件在客户端注册,生成tlb文件,使得.exe程序能够在B/S体系下进行操作。