互联网元数据采集系统
互联网元数据采集系统[专业版]提供我们所知的最强大、灵活、最经济性的互联网元数据结构化信息)模板方式采集系统。是高端垂直搜索引擎技术的必要补充、是低端垂直搜索的必备利器!可解决相对集中的数据源的信息的复杂采集。
处理能力
普通PC服务器:1~5MB/秒数据流;可采集数十~数千个信息源网站
平 台
windows .net C#
适用范围
对互联网数据的结构化有严格的要求
实时性可极高,可用于元搜索引擎
灵活、准确、可靠
低成本的部署
通用性强,适合绝大多数的元数据采集要求
互联网信息源数量不大于1万,数据源太多维护成本会相应增加 (过分散的信息源请采用WEB结构化信息抽取技术)
局 限 性
如果信息源比较多且变化比较频繁那么信息源模板的维护成本将较高,不适合极度分散的信息的采集。这是模板方式的局限性。
对于多次js插入、多次iframe插入、控件加密、其它特殊的加密方式加密的页面将无法采集。(密码身份验证、js防拷贝等可解决)
自我评价
定位在为WEB结构信息抽取技术的补充或经济型垂直搜索引擎</A信息采集器:价格适中、灵活、准确、可靠。
唯一的不足是为了强大的功能和强大的适用性,整个软件搞得有些复杂,不是太傻瓜版,需要专业人员进行维护。
功能列表
1. 基于图形界面的管理系统,可以简单、高效的实现管理配置
(请参考使用文档)
2. 可根据信息源对信息进行分类
3. 支持文件采集
4. 支持需要身份验证的网站的采集
5. 可对过往数据进行一次性批量采集
6. 可自动进行新增数据的采集
7. 自动监视多个信息源网站
8. 可对html代码不规范的网页进行清洗和自动处理
9. 重复信息去除
10. ……您能想到的和您想不到的功能
专业性
本系统不是一个万能的系统,也不是一个傻瓜系统,要想充分发挥本系统的功能,需要使用者不仅对HTML具有相当的了解,而且要非常熟悉Http协议的交互过程。要对系统进行专业的、长期持续的维护。
发展远景
尽量做到傻瓜性和专业性的良好结合。
尽量使标准版支持用户的各种数据采集需求。
客户二次研发插件和更大的可控性。
"元数据"是从英文单词"metadata"的中文意译,也有翻译为"元资料"(常见于东南亚、台湾等地的文献中)。元数据的直译为关于数据的数据,一般属于计算机领域中的术语。我们可以用一个简单的例子来说明;有一本书《政治经济学》,我们对它的书名、作者、出版社等信息做一个简单的摘要,那么这个摘要信息就可以称作元数据。同样的,关于物质世界的和初始事物的简单(相对于源)再描述所得到信息都可以称作元数据,这就是元数据的一般定义。元数据最基本的用途就是管理数据,从而实现查询、阅读、交换和共享。