CiteSeerX

CiteseererX
Type site
Bibliografische database
Baasje Pennsylvania State University College of Information Sciences and Technology
Url Citeseerx.IX.psu.edu Edit this at Wikidata
Registratie Optioneel
Gelanceerd 2008; 14 jaar geleden / 1997; 25 jaar geleden
Huidige status Actief
Inhoudsvergunning
Creative Commons By-NC-SA-licentie[1]

CiteseererX (voorheen gebeld Citeseerer) is een publiek zoekmachine en digitale bibliotheek voor wetenschappelijke en academische papers, voornamelijk op het gebied van computer en informatie wetenschap.

Het doel van Citeseer is om de verspreiding en toegang van academische en wetenschappelijke literatuur te verbeteren. Als een non-profit service die door iedereen vrij kan worden gebruikt, is het beschouwd als onderdeel van de vrije toegang beweging die probeert te veranderen Academisch en wetenschappelijk publiceren om meer toegang te geven tot wetenschappelijke literatuur. Citeseerer vrij verstrekt Open Archives Initiative metadata van alle geïndexeerde documenten en links geïndexeerde documenten indien mogelijk naar andere bronnen van metadata zoals zoals DBLP en de ACM -portaal. Promoveren open data, CiteseererX deelt zijn gegevens voor niet-commerciële doeleinden onder een Creative Commons -licentie.[1]

Citeseer wordt beschouwd als een voorloper van academische zoekhulpmiddelen zoals zoals Google geleerde en Microsoft Academic Search.[2] Citeseer-achtige motoren en archieven oogsten meestal alleen documenten van openbaar beschikbare websites en kruipen geen websites van de uitgever. Om deze reden zijn auteurs wier documenten vrij beschikbaar zijn, eerder in de index weergegeven.

Citeseer veranderde zijn naam op een gegeven moment in ResearchIndex en veranderde deze vervolgens terug.[3]

Geschiedenis

Citeseer en Citeseer.ist

Citeseer is gemaakt door onderzoekers Lee Giles, Kurt Bollacker en Steve Lawrence in 1997 terwijl ze op de NEC Research Institute (nu NEC Labs), Princeton, New Jersey, VERENIGDE STATEN VAN AMERIKA. Het doel van Citeseer was om academische en wetenschappelijke documenten op internet actief te kruipen en te oogsten en autonoom te gebruiken indexering om vragen te stellen per citaat of per document, rangschikken ze door Citatie -impact. Op een gegeven moment heette het ResearchIndex.

Citeseer werd openbaar in 1998 en had op dat moment veel nieuwe functies die niet beschikbaar waren in academische zoekmachines. Deze zijn inbegrepen:

  • Autonome citatie -indexering heeft automatisch een citatie -index gemaakt die kan worden gebruikt voor het zoeken en evalueren van literatuur.
  • Citatiestatistieken en gerelateerde documenten werden berekend voor alle artikelen die in de database worden aangehaald, niet alleen de geïndexeerde artikelen.
  • Referentie -koppeling waardoor de database wordt gebruikt met behulp van citatielinks.
  • Citatiecontext toonde de context van citaten in een bepaald artikel, waardoor een onderzoeker snel en gemakkelijk kon zien wat andere onderzoekers te zeggen hebben over een interessant artikel.
  • Gerelateerde documenten werden getoond met behulp van citatie- en op woord gebaseerde maatregelen en een actieve en continu bijgewerkte bibliografie wordt voor elk document weergegeven.

Citeseer kreeg een Verenigde Staten octrooi #6289342, getiteld "Autonome citatie -indexering en literatuurbrowsen met behulp van citatiecontext", op 11 september 2001. Het octrooi werd ingediend op 20 mei 1998 en heeft voorrang op 5 januari 1998. Een voortzettingspatent (US Patent #6738780) werd ingediend op 16 mei 2001 en verleend op 18 mei, 2004.

Na NEC werd het in 2004 georganiseerd als Citeseer.ist op de Wereld wijde web aan het College of Information Sciences and Technology, de Pennsylvania State University, en had meer dan 700.000 documenten. Voor verbeterde toegang, prestaties en onderzoek werden vergelijkbare versies van Citeseer ondersteund aan universiteiten zoals de Massachusetts Institute of Technology, Universiteit van Zürich en de Nationale Universiteit van Singapore. Deze versies van Citeseer bleken echter moeilijk te onderhouden en zijn niet langer beschikbaar. Omdat Citeseer alleen indexeert dat vrijwel beschikbare artikelen op het web zijn en geen toegang hebben tot de metagegevens van de uitgever, retourneert het minder citatietellingen dan sites, zoals sites, zoals sites, zoals sites, zoals Google geleerde, die metadata van de uitgever hebben.

Citeseer was sinds 2005 niet volledig bijgewerkt vanwege beperkingen in zijn architectuurontwerp. Het had een representatieve steekproef van onderzoeksdocumenten in computer- en informatiewetenschap, maar was beperkt in dekking omdat het beperkt was tot papieren die openbaar beschikbaar zijn, meestal op de startpagina van een auteur, of die ingediend door een auteur. Om sommige van deze beperkingen te overwinnen, is een modulaire en open source -architectuur voor Citeseer ontworpen - CiteseerX.

CiteseererX

CiteseererX Citeseer vervangen en alle vragen naar Citeseer werden omgeleid. CiteseererX[4] is een publiek zoekmachine en digitale bibliotheek en opslagplaats voor wetenschappelijke en academische papers voornamelijk met een focus op computer en informatie wetenschap.[4] Recent CiteseerX is uitgebreid naar andere wetenschappelijke domeinen zoals economie, natuurkunde en anderen. Uitgebracht in 2008, was het losjes gebaseerd op de vorige Citeseer -zoekmachine en digitale bibliotheek en is gebouwd met een nieuwe open source Infrastructuur, Seersuite en nieuwe algoritmen en hun implementaties. Het werd ontwikkeld door onderzoekers Dr. Isaac Councill en Dr. C. Lee Giles Bij Het College of Information Sciences and Technology, Pennsylvania State University. Het blijft de doelen ondersteunen die door Citeseer wordt geschetst om academische en wetenschappelijke documenten op het openbare web actief te crawl en te oogsten en een citaatonderzoek te gebruiken door citaten en rangorde van documenten door de impact van citaten. Momenteel is Lee Giles, Prasenjit Mitra, Susan Gauch, Min-Yen Kan, Pradeep Teregowda, Juan Pablo Fernández Ramírez, Pucktada Treeratpituk, Jian Wu, Douglas Jordan, Steve Carman, Jack Carroll, Jim Jansen, en Shuyi Zheng betrokken bij de ontwikkeling ervan. Onlangs werd een tabelzoekfunctie geïntroduceerd.[5] Het is gefinancierd door de National Science Foundation, NASA, en Microsoft Research.

CiteseererX blijft worden beoordeeld als een van 's werelds toprepositories en werd in juli 2010 beoordeeld op nummer 1.[6] Het heeft momenteel meer dan 6 miljoen documenten met bijna 6 miljoen unieke auteurs en 120 miljoen citaten.

CiteseererX deelt ook zijn software, gegevens, databases en metadata met andere onderzoekers, momenteel door Amazon S3 en bij rsync.[7] Zijn nieuwe modulaire open source architectuur en software (eerder beschikbaar op Bronforge Maar nu Gitub) is gebouwd op Apache Solr en andere Apache en open source tools waarmee het een testbed kan zijn voor nieuwe algoritmen bij het oogsten van documenten, rangorde, indexering en informatie -extractie.

CiteseererX Caches enkele PDF -bestanden die het heeft gescand. Als zodanig bevat elke pagina een DMCA Link die kan worden gebruikt om schendingen van het auteursrecht te melden.[8]

Huidige functies

Geautomatiseerde informatie -extractie

CiteseererX Gebruikt geautomatiseerd Informatie -extractie Tools, meestal gebaseerd op methoden voor machine learning zoals PARSCIT, om metagegevens van wetenschappelijke document te extraheren, zoals titel, auteurs, abstract, citaten, enz. Als zodanig zijn er soms fouten in auteurs en titels. Andere academische zoekmachines hebben vergelijkbare fouten.

Gericht kruipen

CiteseererX Crawls openbaar beschikbare wetenschappelijke documenten voornamelijk van auteurswebpagina's en andere open bronnen, en heeft geen toegang tot uitgever metadata. Als zodanig citaat telt in CiteseerX zijn meestal minder dan die in Google Scholar en Microsoft Academic Search die toegang hebben tot Publisher Metadata.

Gebruik

CiteseererX heeft bijna 1 miljoen gebruikers wereldwijd op basis van unieke IP -adressen en heeft dagelijks miljoenen hits. Jaarlijkse downloads van document PDFS bedroeg bijna 200 miljoen voor 2015.

Gegevens

CiteseererX gegevens worden regelmatig gedeeld onder een Creative Commons By-NC-SA-licentie met onderzoekers wereldwijd en is en wordt en wordt in veel experimenten en wedstrijden gebruikt.

Dankzij de Oai-pmh eindpunt,[9] Citeseerx is een open Archief en de inhoud ervan wordt geïndexeerd als een institutionele repository in Academische zoekmachines, bijvoorbeeld BASEREN en Losmaken consumenten.

Andere zoekmachines op basis van Seersuite

Het Citeseer -model was uitgebreid om academische documenten in het bedrijfsleven te behandelen Smalsearch en in e-business met Ebizsearch. Deze werden echter niet onderhouden door hun sponsors. Een oudere versie van beide kan ooit worden gevonden op bizseer.ist maar is niet langer in dienst.

Andere SEER-achtige zoek- en repository-systemen zijn gebouwd voor chemie, ChemXZiener en voor archeologie, Archseer. Een andere was gebouwd voor Robots.txt File Search, Botser. Al deze zijn gebouwd op de open source tool seersuite, die de open source indexer gebruikt Lucene.

Zie ook

Referenties

  1. ^ a b "Citeseerx Data Policy". Gearchiveerd van het origineel op 2012-01-05. Opgehaald 2015-11-10.
  2. ^ Kodakateri Pudhiyaveetil, Ajith; Gauch, Susan; Luong, hek; Eno, Josh (2009). "Conceptueel aanbevelingssysteem voor Citeseerx". Proceedings van de derde ACM -conferentie over aanbevelingssystemen - Recsys '09. New York, New York, VS: ACM Press: 241. doen:10.1145/1639714.1639758. ISBN 978-1-60558-435-5. S2CID 13900679.
  3. ^ Lawrence, Steve (2001). "Onderzoek Inhoudsopgave". Proceedings of the International Conference on Knowledge Capture - K -Cap 2001. p. 3. doen:10.1145/500737.500740. ISBN 1581133804. S2CID 19592721.
  4. ^ a b "Over Citeseerx". Gearchiveerd Van het origineel op 2010-07-22. Opgehaald 2010-05-07.
  5. ^ "The Citeseerx Team". Pennsylvania State University. Gearchiveerd van het origineel op 2018-07-26. Opgehaald 2018-05-01.
  6. ^ "Ranking Web of World Repositories: Top 800 Repositories". Cybermetrics Lab. Juli 2010. Gearchiveerd van het origineel op 2010-07-24. Opgehaald 2010-07-24.
  7. ^ "Over Citeseerx -gegevens". Pennsylvania State University. Gearchiveerd van het origineel op 2012-01-05. Opgehaald 2012-01-25.
  8. ^ Bijvoorbeeld, "Citeseerx - DMCA -kennisgeving". Citeseerx 10.1.1.604.4916. Het document met de identificatie "10.1.1.604.4916" is verwijderd vanwege een DMCA Takedown -kennisgeving. Als u denkt dat de verwijdering fout is geweest, neem dan contact met ons op via de feedbackpagina, samen met de identificator die op deze pagina wordt genoemd.
  9. ^ Hirst, Tony (2011-12-08). "OAI-PMH gebruiken als een enkele recordniveau-query-interface naar Citeseer". Gearchiveerd Van het origineel op 2020-11-24. Opgehaald 2020-04-25.

Verder lezen

Externe links