A-A+
自动标引
自动标引
automatic indexing
利用计算机系统从拟存储、检索的事实情报或文献(题目、文摘、正文)中抽取检索标志的过程。检索标志从机器词典中取出的叫赋词标引,从文本中抽出的叫抽词标引。抽词标引,又可分为全关键词标引和主关键词标引。从文本中抽取全部关键词作为检索标志的叫全关键词标引;只从文本中抽取表示主题的关键词作为检索标志的叫主关键词标引。自动标引与计算机情报检索、应用语言学和人工智能的研究密切相关。自动标引系统是情报检索系统的一个子系统。自动标引过程与人工标引过程相似,也要经过主题分析、查词表和将自然语言转换为情报检索语言的若干阶段。自动标引的特点是标引速度快,标引的前后一致性好,在随机存储介质容量允许、软件检索功能具备的情况下,可以实现文摘、甚至全文的无人工标引自动检索。目前自动标引系统抽出的表述文献主题的主关键词准确性较差,还不能完全代替人工标引。
自从1957年美国 IBM公司的H.P.卢恩关于文献自动标引的论文发表后,各国曾进行大量的自动标引实验研究。在主要的国际联机检索系统中,已实现了全关键词自动标引和检索。主关键词自动标引也建立了多个实用系统。自1980年起,中国对汉语自动标引和分词进行了实验研究,科技文献自动分词初步达到了实用水平。并正在应用人工智能、语言学和决策论等方法研究解决自动标引中存在的问题。
自动标引系统 一个自动标引系统通常包括文本输入、词典、抽词、知识库、综合与转换和输出等 6个子系统。
①文本输入子系统 对事实情报或文献文本进行自动标引前,必须使之变为机器可读形式,并按一定格式加以组织,这就是输入子系统的任务。通常,输入子系统处理的结果是将文本以数据库或文档中的记录形式存储在磁介质上。每个记录中包括供标引用的若干字段或子字段(如题目、文摘、文本段落等)。
②词典子系统 自动标引词典是存储在计算机系统内的一部或多部词表。因标引的目的要求不同,词表的结构和组织也有很大差别。在赋词标引系统中,词表通常是手工标引用的受控词表(如主题词表)。这种词表中的词之间具有整体-局部、 种-属、 同义和相关关系。在抽词标引系统中,全关键词标引词表是一种禁用词表(亦称非用词表),即词表中收入的词都不作为检索标志;而主关键词标引词表中的每个词具有若干信息,如词类,组配等。在标引过程中,通过查找机器词典确定关键词与非用词、词组构成与切分。
③抽词子系统 通过查找机器词典中存储的信息,对输入的文本逐字逐句进行扫描,抽出供综合与转换子系统处理的检索标志。对于拼音文字来说,词间有空格分隔,可按空格进行逐词扫描,作抽词处理。对于汉语这样的拼音文字来说,词间没有空格,不能进行逐词扫描。因此,汉语抽词子系统的首要任务,是将连续书写的汉字文本切分为有空格分隔的词。汉语自动切分,又称汉语自动分词,主要是通过扫描取文本的一部分同词典比较进行分词。分词的方法主要有:最长匹配法、最短匹配法、设立切分标志法、逆向扫描二字前进法和非用字后缀表法等。
④知识库子系统 是人工标引中选词知识形式化的规则集合。总结人工标引经验,人们发现,人工标引包括主题分析、选择表述主题的关键词和把关键词转换为规范主题词 3个阶段。这些经验通过主题句法、频率法、概率法、加权法、语法分析法和语义分析法等方法加以形式化,用语义网、框架等知识表达方式构造成知识库。
⑤综合与转换子系统 依据知识库提供的知识,对抽词子系统抽出的全部词语进行统计、分析和综合,选取表达主题的关键词,然后,按词典子系统的规范化规则,将选出的关键词转换为规范化词语。
⑥输出子系统 将选取的关键词存入到文本记录的有关字段,并将记录输出到要求的介质上。
利用计算机系统从拟存储、检索的事实情报或文献(题目、文摘、正文)中抽取检索标志的过程。检索标志从机器词典中取出的叫赋词标引,从文本中抽出的叫抽词标引。抽词标引,又可分为全关键词标引和主关键词标引。从文本中抽取全部关键词作为检索标志的叫全关键词标引;只从文本中抽取表示主题的关键词作为检索标志的叫主关键词标引。自动标引与计算机情报检索、应用语言学和人工智能的研究密切相关。自动标引系统是情报检索系统的一个子系统。自动标引过程与人工标引过程相似,也要经过主题分析、查词表和将自然语言转换为情报检索语言的若干阶段。自动标引的特点是标引速度快,标引的前后一致性好,在随机存储介质容量允许、软件检索功能具备的情况下,可以实现文摘、甚至全文的无人工标引自动检索。目前自动标引系统抽出的表述文献主题的主关键词准确性较差,还不能完全代替人工标引。
自从1957年美国 IBM公司的H.P.卢恩关于文献自动标引的论文发表后,各国曾进行大量的自动标引实验研究。在主要的国际联机检索系统中,已实现了全关键词自动标引和检索。主关键词自动标引也建立了多个实用系统。自1980年起,中国对汉语自动标引和分词进行了实验研究,科技文献自动分词初步达到了实用水平。并正在应用人工智能、语言学和决策论等方法研究解决自动标引中存在的问题。
自动标引系统 一个自动标引系统通常包括文本输入、词典、抽词、知识库、综合与转换和输出等 6个子系统。
①文本输入子系统 对事实情报或文献文本进行自动标引前,必须使之变为机器可读形式,并按一定格式加以组织,这就是输入子系统的任务。通常,输入子系统处理的结果是将文本以数据库或文档中的记录形式存储在磁介质上。每个记录中包括供标引用的若干字段或子字段(如题目、文摘、文本段落等)。
②词典子系统 自动标引词典是存储在计算机系统内的一部或多部词表。因标引的目的要求不同,词表的结构和组织也有很大差别。在赋词标引系统中,词表通常是手工标引用的受控词表(如主题词表)。这种词表中的词之间具有整体-局部、 种-属、 同义和相关关系。在抽词标引系统中,全关键词标引词表是一种禁用词表(亦称非用词表),即词表中收入的词都不作为检索标志;而主关键词标引词表中的每个词具有若干信息,如词类,组配等。在标引过程中,通过查找机器词典确定关键词与非用词、词组构成与切分。
③抽词子系统 通过查找机器词典中存储的信息,对输入的文本逐字逐句进行扫描,抽出供综合与转换子系统处理的检索标志。对于拼音文字来说,词间有空格分隔,可按空格进行逐词扫描,作抽词处理。对于汉语这样的拼音文字来说,词间没有空格,不能进行逐词扫描。因此,汉语抽词子系统的首要任务,是将连续书写的汉字文本切分为有空格分隔的词。汉语自动切分,又称汉语自动分词,主要是通过扫描取文本的一部分同词典比较进行分词。分词的方法主要有:最长匹配法、最短匹配法、设立切分标志法、逆向扫描二字前进法和非用字后缀表法等。
④知识库子系统 是人工标引中选词知识形式化的规则集合。总结人工标引经验,人们发现,人工标引包括主题分析、选择表述主题的关键词和把关键词转换为规范主题词 3个阶段。这些经验通过主题句法、频率法、概率法、加权法、语法分析法和语义分析法等方法加以形式化,用语义网、框架等知识表达方式构造成知识库。
⑤综合与转换子系统 依据知识库提供的知识,对抽词子系统抽出的全部词语进行统计、分析和综合,选取表达主题的关键词,然后,按词典子系统的规范化规则,将选出的关键词转换为规范化词语。
⑥输出子系统 将选取的关键词存入到文本记录的有关字段,并将记录输出到要求的介质上。