数据挖掘-基于模板的属性抽取

信息抽取是一个互联网自然语言处理的一个首要环节，信息抽取的准确度会直接影响到后续的处理。信息抽取的目标是去除噪音，获取网页有价值的信息如网页的标题、时间、正文、链接等信息。根据工作中的实际应用，下面简单介绍一下基于网页模板的属性抽取方法：一、模板特征网页属于半结构化的文本，同一网站中的网页结构往往是固定的，网页中的内容可能随时改变...

shunqs

1704人浏览 · 2014-07-25 22:04:41

shunqs · 2014-07-25 22:04:41 发布

信息抽取是一个互联网自然语言处理的一个首要环节，信息抽取的准确度会直接影响到后续的处理。信息抽取的目标是去除噪音，获取网页有价值的信息如网页的标题、时间、正文、链接等信息。

根据工作中的实际应用，下面简单介绍一下基于网页模板的属性抽取方法：

一、模板特征

网页属于半结构化的文本，同一网站中的网页结构往往是固定的，网页中的内容可能随时改变，但网页的模板结构常常不变化，我们把这类网页称为特定领域的网页。

二、抽取思路

定位模板中需要抽取的重要属性信息，建立模板文件

重要属性信息，如，url、标题、内容、时间、单位、作者、来源等；通过分析这些重要信息在网页中的位置特征和标签特征，来建立模板文件，模板文件含有：

A：定位抽取的重要属性信息

B：规则文件：用来和网页进行匹配（常用的方法，有正则表达式，字符串处理方法）

我在工作中常用的模板文件：xml文件，因为xml文件是结构化的文件，容易识别和解析。

三、优点

1.网页通过模板转化为结构化数据

2.网页的内容变化不需要修改代码

四、缺点

网页结构经常变化的网站，维护起来比较麻烦，代码需要修改。

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

【金融风控-贷款违约预测】数据挖掘学习：1.赛题理解

学习目标理解赛题数据和目标，清楚评分体系。完成相应报名，下载数据和结果提交打卡（可提交示例结果），熟悉比赛流程。了解赛题赛题概况比赛地址：https://tianchi.aliyun.com/competition/entrance/531830/introduction比赛要求参赛选手根据给定的数据集，建立模型，预测金融风险。赛题以预测金融风险为任务，数据集报名后可见并可下载，该数据来自某信贷平

永洪数据分析社区

智能分析最佳实践——指标逻辑树

所有业务都会面对“为什么涨、为什么降、原因是什么？”这种简单粗暴又不易定位的业务问题。为了找出数据发生异动的原因，业务人员会通过使用多维查询、dashboard等数据产品锁定问题，再辅助人工分析查找问题原因，这个过程通常需要一天时间。几乎每种业务角色的用户都在做相似的分析，但在业务方分析人员发生工作变动时，分析方法难以得到较好传承。因此我们需要一款自动给出分析结论的智能化数据产品来解决上面的问题，

永洪数据分析社区

数据挖掘实验一：分类技术——二分网络上的链路预测

实验一：分类技术——二分网络上的链路预测实验内容采用二分网络模型，对ml-1m文件夹中的“用户—电影”打分数据进行建模，考虑将用户信息、电影详细信息、以及打分分值作为该网络上的边、点的权重；根据网络结构特征给出节点相似性度量指标；基于相似性在二分网络上进行链路预测；画出ROC曲线来度量预测方法的准确性。分析及设计导入数据并初步分析处理数据：观察所给的文件类型为.dat格式，即纯文本格式，pytho