跳转到内容

元数据

本页使用了标题或全文手工转换
维基百科,自由的百科全书
在2010年元资料通常为数码形式;而在1960和70年代的传统卡片目录,也是元资料的例子,因为这些卡片包含有关图书馆(作者,标题,主题等)中的图书资讯。

元资料(英语:metadata),又称诠释资料中介资料中继资料后设资料等,为描述其他资料资讯的资料[1]。元资料有六种不同类型,分别是记叙性元资料结构性元资料管理性元资料[2]参考性元资料统计性元资料[3]法律性元资料

  • 记叙性元资料描述了用于发现与辨别意义的资源。它可以包括如标题、摘要、作者和关键字等元素[4]
  • 结构性元资料是有关于资料容器的元资料,指示如何整理其中复合的物件。例如页面依甚么排序方式组成章节。
  • 管理性元资料是用于管理资源的资讯,例如资料产生的时间和方式、档案种类和其它技术资讯,以及谁有权限存取它。
  • 参考性元资料是跟内容及统计数据质量相关的资讯。
  • 统计性元资料,又称处理过程资料,会描述收集、处理或产生资料的过程。[5]
  • 法律性元资料提供有关作者、版权持有者、及公共授权条款等资讯。

内容简介

[编辑]

主要是描述资料属性(property)的资讯,用来支持如指示储存位置、历史资料、资源寻找、文件记录等功能。元资料算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏资料的内容或特色,进而达成协助资料检索的目的。

该名词起源于1969年,由Jack E. Myers所提出的.metadata即关于资料的资料(data-about-data),可以说是一种标准,是为支援互通性的资料描述,所取得一致的准则。其基本定义出自OCLC与NCSA所主办的“Metadata Workshop”研讨会。它将metadata定义为“描述资料的资料”(data about data)。此后各种有关Metadata的定义纷纷的出现。现存很多metadata的定义,主要视特定社群或使用情境而不同。如有有关资料的资料(data about data),有关资讯物件之结构的资讯(structured information about an information object),描述资源属性的资料(Data describes attributes of resources)等。

都柏林核心集(Dublin Core Metadata Initiative,DCMI)是元资料的一种应用,是1995年2月由国际图书馆电脑中心(OCLC)和美国国家超级计算应用中心(National Center for Supercomputing Applications,NCSA)所联合赞助的研讨会,在邀请52位来自图书馆员电脑专家,共同制定规格,建立一套描述网路上电子文件之特征。

历史

[编辑]

元资料传统上用于图书馆卡片目录,一直到1980年代。2000年代起,数位化成为储存资料的普遍方式。而图书馆也将其目录资料转换为数位资料库,数位资料也有相关的元资料标准。

不同行业有不同的元资料标准(例如,博物馆收藏、数位音乐档案、网站等)。描述资料或资料档的背景和内容,增加了实用性。例如一个网页的元资料包括了有关页面主题、编写脚本语言(例如 HTML)、产生页面的工具,以及哪里有关于主题的更多资讯。这个元资料可以自动提高阅读者的体验,让使用者更容易在网路上寻找网页。音乐CD可提供此专辑的音乐家歌手歌曲作者资讯的元资料。

元资料的主要目的是帮助用户寻找相关资讯并探索资源。元资料也有助于组织电子资源,提供数位识别,并支援归档和保存资源。“由相关标准寻找、辨识资源,将相似资源集中在一起,区分不同并提供位置资讯”,元资料可帮助使用者探索资源。各国政府广泛收集包括互联网在内的通讯活动元资料,用于流量分析,而且可用于大规模监控

在许多国家有关于电子邮件电话网页IP连线与手机位置的元资料,是固定由国家储存的。

定义

[编辑]

元资料是指“描述资料的资料”。虽然说源自于希腊介词前缀 μετά- 的英文前缀“meta”代表“之后”或“之下”的意思,在此处实际上是使用知识论中“关于”的意思。元资料被定义为提供某些资料单方面或多方面资讯的资料;它被用来概述资料的基础资讯,以简化查找过程与方便使用[6]。例如:

  • 创建资料的方法
  • 资料的用途
  • 建立的时间与日期
  • 资料的建立者或作者
  • 资料被建立在电脑网路的何处
  • 用作标准
  • 档案大小

举例,一个数位影像档案可能会包括描述图片大小、色彩深度、图片解析度、图片建立时间、快门速度等资料的元资料[7]。一份文档的元资料可能会包含文档长度、作者、建立时间、文档概述等资讯。网页中的元资料也可以包含页面内容的描述,以及有关于内容的关键字等等[8]。这些东西常被称作“元标签”(metatags),其在1990年代后期以前被用来当作决定搜寻引擎结果顺序的主要因素[8]。在1990年代后期,由于“关键字堆砌英语keyword stuffing”的出现,对于元标签的倚赖程度逐渐降低[8]。元标签的滥用导致许多搜寻引擎会误认某些结果的关联性高于实际值[8]

元资料可以在被称作元资料注册系统元资料储存库资料库中储存和管理[9]。不过,如果没有文字和参考点的话,单纯看是很难辨认这些元资料的[10]。举例来说:一个资料库本身会包含一些数字,但是这些数字代表的涵义可能是某些计算后的结果,或者是书籍的ISBN码──这就需要参考才能知道,而无法直接由资料容器内部得知。菲利普·巴格利在1968年在他的著作《Extension of Programming Language Concepts》中发明了“metadata”这个词,当时的意思为“描述资料容器的资料”,也就是结构性元资料,而非描述性元资料或常用于图书馆目录的元内容(metacontent)[11][12]。自那时起,资讯管理、资讯科学、资讯技术、图书馆学与地理资讯系统等领域广泛接受了这个词汇。在这些领域中,元资料的定义为“描述资料的资料”[13]。尽管这是最广为接受的定义,许多学科也为了自用而采用了特殊的解释或定义。

类型

[编辑]

虽然元资料的应用层面很广,涵盖各式各样的领域,有专门和公认的方法来决定元资料的类型弗朗西斯·布雷瑟顿英语Francis Bretherton和辛格利(1994)将元资料分成两类:结构性/控制性元资料和指南性元资料[14]。“结构性元资料”描述了诸如表格金钥索引等资料库物件的结构。“指南性元资料”帮助人们找到特定的物品,而且经常被压缩为一系列自然语言中的关键字

根据拉尔夫·金博尔英语Ralph Kimball,元资料可以分成两个相似的类别:技术性元资料和商业性元资料。“技术性元资料”等同内部性元资料,而“商业性元资料”则为外部性元资料。金博尔加入了第三种类别,“过程性元资料”。

另一方面,美国国家资讯标准组织将元资料分成三种:描述性、结构性和管理性[13]。“描述性元资料”通常用于发现识别,作为搜寻和定位物件的资讯,例如标题作者科目关键字出版商等等。“结构性元资料”描述物件的构成物是如何组织起来的,举例来说,书页是如何组成一本书中的章节的这种资料,就是结构性元资料。最后,“管理性元资料”给予有助于管理资源的资讯。管理性元资料参考技术资讯,包括档案类型、档案建立时间和档案建立方式。管理性元资料之下还有两个小分类,权限性元资料和保存性元资料。“权限性元资料”解释了智慧财产权,而“保存性元资料”则包含保存和储存资源的资讯[15]

结构

[编辑]

元资料(元内容)或更正确地,用来组合元资料(元内容)陈述句的词汇,通常依据明确定义元资料纲要的标准化概念而结构化,其中包含了:元资料的标准和模型。诸如控制词汇表分类学索引典资料字典元资料注册库等工具,可针对元资料进一步标准化。结构元资料的共通性在资料模型开发和资料库设计中也是至关重要的。

语法

[编辑]

元资料(metacontent)语法是指产生元资料的栏位或元素的结构规则。单一个元资料纲要可以许多不同的标记编程语言来表达,每种标记或编程语言需要不同语法。例如,都柏林核心集(Dublin Core)可用纯文字HTMLXMLRDF来表达。

(引导)元内容的常见例子是书目分类,主题,杜威十进位图书分类号。在任何“分类”中总是有些关于物件的隐含陈述。将物件分类为例如杜威分类号514(拓扑)(即书背上有编号为514的书),隐含的陈述是:<book><subject heading><514>。这是一个主题-谓词-物件的三元组,更重要的,它是一个类-属性-值的三元组,前两个元素(类、属性)是已有定义语义的结构元资料片段。第三个元素是一个值,最好来自一些控制词汇表,一些参考(主)资料。

元资料和主资料元素组合为一个陈述句,它是一个元内容陈述,即“元内容 = 元资料 + 主资料”。所有这些元素都可以当作“词汇”。元资料和主资料都是词汇,可以汇编成为元内容陈述。这些词汇有很多来源,包括元资料和主资料:UMLEDIFACTXSD,Dewey/UDC/LoC,SKOS,ISO-25964,Pantone二名法等。使用控制词汇表作为元内容陈述的组成部分,无论是索引或寻找,都被ISO 25964认可:“如果索引搜寻两者从相同概念都选择了相同的术语,那么检索将得到相关文件。”

这对互联网的搜索引擎(如Google)尤其重要,搜寻程序使用复杂的索引演算法使搜寻的文字网页相符合;其中并没有智慧或“推论”发生,只是令人感觉似乎如此。

层级,线性和平面模式

[编辑]

元资料的模式在本质上是层级结构,即元资料元素和元素之间存在套叠的关系,因此元素之间有亲子关系。层级模式的一个例子是IEEE LOM模式,其中某个元素可属于父亲的元资料元素。元资料模式也可以是一维或线性的,其中每个元素与其它元素完全不相关联,而且只根据一维来分类。例如都柏林核心纲要就是一维的元资料模式。元资料模式通常是二维或平面的,其中每个元素与其它元素完全不相关联,但根据两个正交的维度来分类。

超映射

[编辑]

在元资料模式超出平面描述的所有情况下,需要某种类型的超映射(hypermapping)以选取观点来显示和查看元资料,并提供特殊视图。超映射通常应用于地理学的或地质资讯叠加的图层

细致程度

[编辑]

将资料或元资料构造的程度称为“细致程度”(granularity),是指提供了多少资料的相关细节。具有高细致度的元资料允许更深入、详细和更结构化的资讯,并实现更高级别的技术操作。较低的细致度意味著以低成本的考量来产生元资料,但没有细节描述的资讯。细致度的主要影响不仅在于元资料的产生和取得,而且在于其维护成本上。一旦元资料的结构变得过时,则对参考资料的存取也是如此。因此,细致度必须考虑到产生以及维护元资料的投入。

标准

[编辑]

元资料有适用的国际标准。在国家和国际标准社群,特别是ANSIISO正完成许多工作,就元资料和登录的标准化达成共识。元资料的核心登录标准是ISO/IEC 11179 元资料登录(MDR),在ISO/IEC 11179-1:2004中描述了该标准的框架。新版本的第一部份正处于2015年或2016年初发布的最后阶段,已经被修订以符合目前版本的第三部份;而ISO/IEC 11179-3:2013,其中扩展了MDR以支援概念系统的登录(见ISO/IEC 11179)。

此标准规范了记录资料涵义和技术结构两者,适合人类和计算机的无歧义用法。ISO/IEC 11179标准是指元资料为相关于资料的资讯物件,或是“有关资料的资料”。在ISO/IEC 11179第三部份中,一个资料项的资讯物件是指,描述关于其资料元素、值域和其它可重复使用语义,与用来描述意义和技术细节。此标准还规定了元资料登录的详细内容,以及在元资料登录中为了登录和管理的资讯物件。ISO/IEC 11179第三部份也预定了从其它资料元素衍生的复合结构描述,例如经过计算,一或多个资料元素的集合或其它形式的衍生资料。

此标准原先叙述本身为“资料元素”登录,但其目的则独立于任何特定应用程式之外,支援元资料内容的记叙和登录,将记叙提供给人或计算机以开发新的应用程式,资料库,或根据登录的元资料内容来分析收集到的资料。重复利用、扩展与该标准的管理部份,此标准已成为其它类型的元资料登录的一般基础。

地理空间社群有专业化地理空间元资料标准的传统,特别奠基于地图图像库目录之上。对于地理空间资料,正规的元资料是必要基本的,一般文字处理方法则无法适用。

都柏林核心元资料术语是一组词汇,用于描述意图探索的资源。最初的15个经典元资料术语被称为都柏林核心元资料元素集,在以下标准文件中均认可:

  • IETF RFC 5013
  • ISO标准 15836-2009
  • NISO标准 Z39.85。

虽然微格式遵循XHTMLHTML的语义标记方法,但它本身不是一个标准,它尝试重新利用现有的网页标签来传送元资料。一位微格式的倡导者坦塔克·塞里克,说明了采行另案的问题症结点:“我们希望你学习一种新语言,现在你需要在伺服主机上输出这些额外的文件。实在是麻烦。(微格式)能降低进入障碍。”

用途

[编辑]

照片

[编辑]

含有拥有者,版权和联系资讯的识别元资料可能被写入数位照片档案,产生档案的相机品牌型号以及曝光资讯(快门速度,f-stop等)和记述资讯,例如关于照片的关键字,使档案或图像可在计算机和/或互联网上搜寻。

一些元资料由相机产生,一些元资料由摄影师和/或软件在下载到计算机之后输入。大多数数位相机都会写入关于机型、快门速度等的元资料,有些则可以编辑它;在大多数NikonCanon,和Pentax DSLRs相机已经提供这样的功能。在后期制作时,使用元资料关键字可更方便组织。过滤器可用于分析特定的一组照片,并根据评等或摄影时间等标准来选取。

摄影元资料标准由制定以下标准的组织管理。它们包括但不限于:

  • IPTC Information Interchange Model IIM (International Press Telecommunications Council),
  • IPTC Core Schema for XMP
  • XMP – Extensible Metadata Platform (an ISO standard)
  • Exif – Exchangeable image file format, Maintained by CIPA (Camera & Imaging Products Association) and published by JEITA (Japan Electronics and Information Technology Industries Association)
  • Dublin Core (Dublin Core Metadata Initiative – DCMI)
  • PLUS (Picture Licensing Universal System).
  • VRA Core (Visual Resource Association)

电信

[编辑]

关于电信通话,非通讯的内容如通话时间、起点和目地的资讯、电子讯息、即时讯息和其它电信模式,是另一种形式的元资料。在Edward Snowden公布情报机构对通话细节记录元资料的大量收集后,大众对于此举是有争议的,例如NSA保留数百万互联网使用者的在线元资料长达一年,无论他们是否为该机构所关注的人物。

影片

[编辑]

元资料在影片中特别有用,其中关于内容资讯(例如对白字幕和场景叙述)计算机并无法理解,而是用于有效地搜寻内容。影片元资料来源有两个来源:

  1. 操作收集的元资料,即内容的制作资讯,如设备类型、软体日期位置
  2. 人工编辑的元资料,以提高搜索引擎的能见度、可探索性,观众参与度,并向影片发行商提供广告机会。在当今社会专业的影片编辑软体可存取元资料,例如Avid's MetaSync和Adobe的Bridge。

网页

[编辑]

网页通常包含元标记形式的元资料。元标签(<meta ……>)中的叙述和关键字一般用于描述网页的内容。标记元素也指示页面描述、关键字、档案作者以及最后修改的时间。网页元资料可帮助搜索引擎和使用者,寻找他们需求的网页类型。

参考文献

[编辑]
  1. ^ 存档副本. [2016-11-14]. (原始内容存档于2015-02-27). 
  2. ^ Zeng, Marcia. Metadata Types and Functions. NISO. 2004 [5 October 2016]. (原始内容存档于2016-10-07). 
  3. ^ Directorate, OECD Statistics. OECD Glossary of Statistical Terms - Reference metadata Definition. stats.oecd.org. [2018-05-24]. 
  4. ^ National Information Standards Organization (NISO). Understanding Metadata (PDF). NISO Press. 2001 [2016-11-14]. ISBN 1-880124-62-9. (原始内容 (PDF)存档于2014-11-07). 
  5. ^ Dippo, Cathryn. The Role of Metadata in Statistics (PDF). Bureau of Labor Statistics. 
  6. ^ A Guardian Guide to your Metadata. theguardian.com. Guardian News and Media Limited. 12 June 2013 [2016-11-14]. (原始内容存档于2014-05-22). 
  7. ^ ADEO Imaging: TIFF Metadata. [2013-05-20]. (原始内容存档于2013-05-17). 
  8. ^ 8.0 8.1 8.2 8.3 Rouse, Margaret. Metadata. WhatIs. TechTarget. July 2014 [2016-11-14]. (原始内容存档于2015-10-29). 
  9. ^ Hüner, K.; Otto, B.; Österle, H.: Collaborative management of business metadata, in: International Journal of Information Management, 2011
  10. ^ Metadata Standards And Metadata Registries: An Overview (PDF). [2011-12-23]. (原始内容存档 (PDF)于2011-06-29). 
  11. ^ Philip Bagley. Extension of programming language concepts (PDF). Philadelphia: University City Science Center. November 1968 [2016-11-14]. (原始内容存档 (PDF)于2012-11-30). 
  12. ^ "The notion of "metadata" introduced by Bagley". Solntseff, N+1; Yezerski, A. A survey of extensible programming languages. Annual Review in Automatic Programming 7. Elsevier Science Ltd: 267–307. 1974. doi:10.1016/0066-4138(74)90001-9. 
  13. ^ 13.0 13.1 NISO. Understanding Metadata (PDF). NISO Press. [5 January 2010]. ISBN 1-880124-62-9. (原始内容 (PDF)存档于2014年11月7日). 
  14. ^ Bretherton, F. P.; Singley, P.T. Metadata: A User's View, Proceedings of the International Conference on Very Large Data Bases (VLDB): 1091–1094. 1994. 
  15. ^ National Information Standards Organization; Rebecca Guenther; Jaqueline Radebaugh. Understanding Metadata (PDF). Bethesda, MD: NISO Press. 2004 [2 April 2014]. ISBN 1-880124-62-9. (原始内容 (PDF)存档于2014年11月7日). 

参见

[编辑]