+
Les données Dumps Les données RDF est sérialisé en utilisant le format N-Triples, encodé en UTF-8 texte et compressé avec Gzip. Si vous écrivez votre propre code pour analyser le RDF déverse son souvent plus efficace de lire directement à partir du fichier GZip plutôt que d'extraire les données d'abord, puis le traitement des données non compressées. Remarque: Dans Freebase, les objets ont MIDs qui ressemblent / m / 012rkqx. En RDF ces MIDs deviennent m.012rkqx. De même, Freebase schéma comme / common / sujet sont écrits comme common. topic. Le sujet est l'ID d'un objet Freebase. Il peut être un MID Freebase (ex. De m.012rkqx) pour les sujets et les TCT ou un identifiant lisible par l'homme (ex. Common. topic) pour le schéma. Le prédicat est toujours un ID lisible par l'homme pour une propriété Freebase ou une propriété d'un vocabulaire RDF standard comme RDFS. namespaces clé étrangère Freebase sont également utilisées comme prédicats pour le rendre plus facile à regarder les clés en l'espace de noms. Le champ d'objet peut contenir un MID Freebase pour un objet ou une pièce d'identité lisible par l'homme pour le schéma de Freebase ou d'autres vocabulaires RDF. Elle peut également inclure des valeurs littérales comme les chaînes, les booléens et les valeurs numériques. descriptions Sujet contiennent souvent newlines. Afin de faire de chaque ajustement triple sur une seule ligne, nous avons échappé newlines avec. Freebase Deleted Triples Nous fournissons également un dump de triplets qui ont été supprimés de Freebase au fil du temps. Ceci est une décharge d'un temps à Mars 2013. Dans l'avenir, nous pourrions envisager de fournir des mises à jour périodiques des triplets récemment supprimés, mais pour le moment nous avons aucun délai spécifique pour le faire, et nous ne fournissant cette unique décharge. Le vidage est distribué sous forme de fichier tar. gz (2.1GB compressé, 7.7Gb non compressé). Il contient 63,036,271 triples supprimés dans 20 fichiers (il n'y a pas de signification particulière pour les fichiers individuels, il est plus facile de manipuler plusieurs fichiers d'un énorme fichier). Merci à Chun Comment Tan et John Giannandrea pour rendre cette version de données possible. Le format de données est essentiellement CSV avec une réserve importante. Le champ d'objet peut contenir tous les caractères, y compris des virgules (ainsi que tous les autres délimiteurs raisonnables que vous pourriez penser). Cependant, tous les autres champs sont garantis de ne pas contenir de virgules, de sorte que les données peuvent être analysées sans ambiguïté. Les colonnes de l'ensemble de données sont définies comme suit: creationtimestamp (Unix temps d'époque en millisecondes) créateur deletiontimestamp (Unix temps d'époque en millisecondes) deletor sujet (MID) prédicat (MID) objet (MID / Literal) languageCode CSVFreebase / Wikidata Mappages Les données ont été créés sur la base du Wikidata-Dump du 28 Octobre 2013, et contient uniquement les liens qui ont au moins deux Wikipédia-liens communs et pas un seul désaccord Wikipedia-Link. En outre, les lignes sont triées par le nombre de communes Wikipedia-Liens (bien que dans ce tortue n'a pas d'importance). Les données RDF est sérialisé en utilisant le format N-Triples, encodé en UTF-8 texte et compressé avec Gzip. Licence Freebase données Dumps sont fournis gratuitement à des fins de mises à jour régulières par Google. Ils sont distribués, comme Freebase lui-même, sous la Creative Commons Paternité (aka CC-BY) et l'utilisation est soumise aux conditions d'utilisation. Les mappages ID Freebase / Wikidata sont fournis sous CC0 et peuvent être utilisés sans restrictions. Citant Si youd aiment citer ces données déverse dans une publication, vous pouvez utiliser: Sauf indication contraire, le contenu de cette page est sous licence 3.0 License Creative Commons Attribution. et des exemples de code sont sous la licence Apache License 2.0. Pour plus de détails, consultez nos Politiques du site. 2, 2016
No comments:
Post a Comment