Die Zukunft des Schweizer Metakatalogs swissbib / Le futur du métacatalogue swissbib

Deutsche Version Version française

Einiges wurde bereits berichtet, vieles blieb aber bislang noch offen: Wie geht es weiter mit swissbib nach dem Start der Swiss Library Service Platform SLSP am 1. Januar 2021? Nach einem Jahr intensiver Klärungsgespräche können wir nun erste konkrete Aussichten formulieren.

Metakatalog Schweiz und Discoveries

Ab dem 1. Januar 2021 wird SLSP das neue Discovery für Bibliotheksbestände in der Schweiz stellen. In einem ersten Schritt werden primär wissenschaftliche Bibliotheken aus den bisherigen Verbünden IDS und RERO darin enthalten sein. Danach ist jedoch geplant, die Teilnehmerbasis von SLSP kontinuierlich auszuweiten sowie über ein hybrides Verfahren auch Drittsysteme anzubinden. Auch die lokalen swissbib Discoveries werden migriert bzw. teilweise abgestellt:

  • swissbib orange für die Bestände der Bibliotheken in Bern und Basel wird durch SLSP bzw. Primo VE abgelöst.
  • swissbib blau: Die Vereinigung der Juristischen Bibliotheken der Schweiz (VJBS) hat sich entschieden, ihren Katalog einzustellen.

Eine gemeinsame Mitteilung der Direktion der UB Basel, des swissbib-Beirates und SLSP (16.01.2020) schildert die Details:

„Ablösung von swissbib grün durch SLSP

Ende 2020 wird die UB Basel die Dienste von swissbib einstellen im Zuge der Inbetriebnahme des nationalen Angebotes von Swiss Library Service Platform (SLSP). Die Mehrheit der in swissbib beteiligten Bibliotheken und der Grossteil der Schweizer Bibliotheksbestände werden von der SLSP Discovery-Lösung ab Go-Live oder in der «zweiten Welle» abgedeckt. Für die Einbindung weiterer Bibliotheken, die nicht planen SLSP beizutreten, sind Lösungen bzw. Produktentwicklungen seitens der Firma Ex Libris in Aussicht gestellt worden.

Mit dem Go-Live von SLSP Ende 2020 wird ein Grossteil der Hochschulbibliotheken und viele andere wissenschaftliche Bibliotheken der Schweiz über das Discovery-Tool von SLSP auf Netzwerkebene recherchierbar sein. Diese Oberfläche ermöglicht auch einen direkten Zugang zu allen elektronischen Beständen und eine nahtlose Anbindung an alle Benutzungsfunktionalitäten inkl. Kurier.

In einer «zweiten Welle» sollen weitere Hochschul- und wissenschaftliche Bibliotheken zu SLSP stossen und ebenfalls in das Discovery eingebunden werden. Hierzu gehören andere Einrichtungen, die bereits Alma nutzen (beispielsweise Alexandria-Verbund) sowie weitere Bibliotheken, die einen Systemwechsel zu Alma planen (beispielsweise Bibliotheksverbund Graubünden, St. Galler Bibliotheksnetz, Liechtensteinische Landesbibliothek und Sistema Bibliotecario Ticinese).

Allerdings kann nicht davon ausgegangen werden, dass sämtliche von swissbib abgedeckten Bibliotheken von dieser «zweiten Welle» erfasst werden können. Somit wird es auch mittelfristig Bibliotheken geben, die nicht über das Discovery von SLSP recherchierbar sind. Hier handelt es sich voraussichtlich um kleinere bis mittelgrosse Kantonsbibliotheken sowie wissenschaftliche Spezialbibliotheken, die nicht Alma als Bibliothekssystem einsetzen. Um diese Drittsysteme nahtlos und ohne grossen technischen Aufwand in das schweizweite Discovery einzubinden, braucht es weitere Produktentwicklungen bei der Firma Ex Libris. Diese werden von Ex Libris in Aussicht gestellt, allerdings ohne Nennung eines konkreten Termins. Der zumindest vorübergehende Ausschluss dieser Bibliotheken aus dem nationalen Rechercheportal wird vom swissbib-Team an der UB Basel und dem Beirat von SLSP bedauert.

Allerdings hält SLSP am Ziel eines schweizweiten Discovery-Tools für alle wissenschaftlichen Bibliotheken fest und wird die Entwicklungen bei Ex Libris eng verfolgen. Idealerweise könnte die Bildung eines hybriden Discoveries (also mit Einbindung von Drittsystemen) direkt im Anschluss an die oben genannte «zweite Welle» in Angriff genommen werden.

Marie-Christine Doffey (Direktorin Schweizerische Nationalbibliothek) und Martin Good (Direktor BCU Fribourg) bedanken sich im Namen des SLSP Verwaltungsrates und SLSP Beirats beim swissbib Team für den ausgezeichneten und zuverlässigen Service von swissbib grün, den die Basler Kolleginnen und Kollegen während vieler Jahre zur Verfügung gestellt haben. Aus nationaler Sicht ist bzw. war swissbib ein Vorzeigeprojekt, das einerseits innovative technische Entwicklungen aufgegriffen und vorangetrieben hat, und andererseits für die Kundinnen und Kunden über alle Bibliotheksverbünde hinweg eine einheitliche Suchoberfläche angeboten hat.

Eine abschliessende Würdigung der Leistungen des swissbib Teams und ein Dankeschön an alle teilnehmenden Bibliotheken für ihre regelmässigen Datenlieferungen und grosszügige finanzielle Unterstützung während der letzten zwei Jahre soll gesondert und gegen Ende des Jahres erfolgen.“

Nationallizenzen und Private User Remote Access (PURA)

Mit der am 29. November 2019 durch SLSP publizierten Mitteilung, dass der operative Teil des Konsortiums der Schweizer Hochschulbibliotheken in SLSP integriert wird, ist bestätigt, dass die Nationallizenzen künftig auch im SLSP-Discovery implementiert werden. Der jüngste Service von swissbib – Private User Remote Access PURA – kann durch den Einsatz von SWITCH edu-ID in SLSP ebenfalls realisiert werden. Für Details dazu empfehlen wir die direkte Kontaktaufnahme mit SLSP.

Schnittstellen zu den bibliografischen Metadaten

swissbib bietet heute neben den Discoveries auch offene Schnittstellen verschiedenster Art für den Metadatenbezug an. Diese können ab Ende 2020 von uns nicht weiter bedient werden (das genaue Datum werden wir noch kommunizieren). Den automatischen Datenexport nach WorldCat wird SLSP eigenständig weiterführen, auch die Anbindung an das Kartenportal bleibt bestehen.

Weitere Daten- und Schnittstellennutzer bitten wir, sich direkt bei SLSP zu melden, um die Möglichkeiten und Konditionen für den Metadatenbezug zu klären.

Know-How (und dessen Weitergabe) im Bereich Dataprocessing

Die Personen hinter swissbib waren in den vergangenen Jahren rege im Bereich der Weitergabe ihres Know-Hows unterwegs – an Tagungen und in verschiedenen Weiterbildungskursen wurden die Erfahrungen und Services präsentiert und erläutert. Diesen Geist möchten wir uns bewahren. Die im Rahmen von swissbib erarbeiteten Skills im Bereich Dataprocessing und Datentransformation und -anreicherung wird die Universitätsbibliothek Basel in Zukunft in anderen Projekten einsetzen und nachnutzen können.

Neue Dienstleistung: Private User Remote Access (PURA)

Unlängst hat swissbib eine neue Dienstleistung lanciert: Private User Remote Access, oder kurz: PURA. Das Bedürfnis danach entstand, weil Bibliotheksbestände eine wachsende Zahl an E-Medien beherbergen, auf diese jedoch oft nur Hochschulangehörige zugreifen können. Was bei reinen Hochschulbibliotheken in der Regel kein Problem darstellt, kommt bei Bibliotheken mit gemischtem Publikum und Kantonsbibliotheken besonders zum Tragen: nur ein Teil ihrer Nutzerschaft kann auf die lizenzierten E-Medien ihrer Bibliothek via SWITCHaai-Account zugreifen. Für weitere Nutzergruppen und spezifische Angebote mussten daher bislang individuelle Lösungen mit den einzelnen Publishern gesucht und natürlich auch selbst betrieben und gepflegt werden. Hinzu kommen Login-Möglichkeiten für spezifische Dienste von Microsoft u.ä. Ein exemplarisches Beispiel für die gewachsene Vielfalt an Zugriffsmöglichkeiten ist folgendes Login-Fenster:

Screenshot des Logins von Brockhaus: Individuelle Anmeldemöglichkeiten für Nutzende und umfangreiche Liste unterstützter Bibliotheken

Um ein mögliches Angebot zur Vereinfachung und nachhaltigen Vereinheitlichung solcher Zugänge zu schaffen, springt swissbib mit PURA in diese Lücke.

Im vergangenen Jahr hat swissbib, zusammen mit der Zentralbibliothek Zürich, einen Service eingerichtet, der es Nutzenden ermöglicht, mit einem SWITCH edu-ID-Account auf die lizenzierten E-Medien zuzugreifen. Der Zugang ist möglichst einfach gehalten. Interessierte Nutzende registrieren sich auf www.swissbib.ch für einen SWITCH edu-ID-Account, loggen sich ein und wählen in ihrem Profil die PURA-Dienstleistung für „ihre Bibliothek“ aus. Mit dem daraufhin erhaltenen Barcode müssen sie sich nun nur noch vor Ort bei der Bibliothek (leider aus lizenzrechtlichen Gründen erforderlich) freischalten lassen und haben somit ein Jahr garantierten Zugang, auch von Zuhause aus. Der Zugang kann selbstverständlich nach einem Jahr erneuert werden. SWITCH edu-ID ist eine nachhaltige Lösung: der Nachfolger des bisherigen Authentifizierungsverfahrens SWITCHaai ist auch für Privatpersonen zugänglich und wird national von SWITCH betrieben.

Technisch wurde eine möglichst einfach Lösung angestrebt, dennoch müssen einzelne Verlage technisch nachrüsten: die Shibboleth-Authentifizierung ist Pflicht. Zu beachten ist zudem, dass interessierte Bibliotheken mit den Publishern ihrer jeweiligen E-Medien-Angebote Kontakt aufnehmen und ggf. ihre Verträge nachbessern müssen. Die Journal-Archive des Projekts Nationallizenzen (Springer, Oxford, DeGruyter, Cambridge) sind jedoch generell und kostenlos im Angebot enthalten. Immerhin: Mit den bisherigen PURA-Bibliotheken wurden bereits bei mehreren Publishern die nötigen technischen Einrichtungen vorgenommen, so dass weitere interessierte Bibliotheken nur noch die vertragsrechtliche Situation klären müssen.

Weitere Informationen zu PURA finden sich im swissbib-Wiki oder im direkten Kontakt mit der swissbib-Koordination.

Was ist neu in swissbib? / Quoi de neuf dans swissbib?

Deutsche Version Version française

Liebe Blogleserinnen und Blogleser
In diesem Jahr war es relativ ruhig auf unserem Blog! Dabei gibt es eine Menge neue Funktionen, die wir schon längst vorstellen wollten. Mit dem hier folgenden Überblick holen wir das nun nach. Wir freuen uns auf eure kundige Einschätzung und euer Feedback.

Datenquellen

Die Dokumente der folgenden Quellen sind neu in swissbib zu finden:

Bis zum Jahresende werden wir ausserdem noch die folgenden Quellen integrieren:

  • Die im Volltext frei zugänglichen Dokumente der Forschungsplattform Alexandria der Universität St. Gallen.
  • Der Bestand der Kantonsbibliothek Thurgau

Nationallizenzen

Seit einigen Monaten haben Nutzer mit einem ständigen Wohnsitz in der Schweiz Zugang zu über 6 Millionen Dokumenten aus dem Projekt Nationallizenzen. Der Zugang und die Registrierung erfolgt über swissbib, in Partnerschaft mit dem Projekt SWITCH edu-ID (in swissbib anschauen).

Über die Nationallizenzen wird zudem die Open-Access-Publikation von Artikeln ermöglicht, die von Autoren, die einer Schweizer Institution angegliedert sind, verfasst wurden. Die betroffenen Metadaten und Volltexte wurden von swissbib aufbereitet und über RERO DOC veröffentlicht. Die Daten stehen auch für die Integration in die Institutionellen Repositories der Schweizer Hochschulen zur Verfügung.

Weitere Informationen sind in unserem Schlussbericht zum Projekt Nationallizenzen zu finden.

Linked Open Data

Das Projekt linked.swissbib.ch wurde Ende April 2017 abgeschlossen. Wir sind gegenwärtig damit beschäftigt, die Projektergebnisse im Hinblick auf eine Integration in swissbib zu konsolidieren.

Ein wichtiger Schritt war die Identifizierung und Kennzeichnung der offenen Metadaten. Wir freuen uns, dass inzwischen 85 % aller Daten von swissbib als Public Domain zugänglich sind (anschauen).

Für die Neugierigen unter euch: Werft gerne einen Blick auf data.swissbib.ch und linked.swissbib.ch, um zu sehen, was euch zukünftig erwartet. Die Portale sind aber erst als Beta-Version veröffentlicht. Wir befinden uns noch in der Konsolidierungsphase.

In einer Artikelserie in unserem Blog haben wir die verschiedenen Prozesse beschrieben. Ausserdem wurde ein Artikel zum Thema Interlinking Large-scale. Library Data with Authority Records publiziert.

Neue Funktionen

  • Verbesserte Facettensuche: Es ist neu möglich, Suchbegriffe durch Klicken auf das Kreuz rechts des Begriffs auszuschliessen. Mehrere gewählte Themen werden durch UND verknüpft. Die anderen Begriffe (Autoren, Sprache usw.) werden durch ODER verknüpft. Die gewählten sowie die ausgeschlossenen Suchbegriffe sind im Bereich «Filter löschen» sichtbar (weitere Informationen).
  • Verbesserte Anzeige der Hierarchie in den Archivbeständen: Zahlreiche Archivbestände sind in einer hierarchischen Struktur geordnet. In bestimmten Fällen kann diese Struktur im Reiter «Archive/Bestände» in swissbib angezeigt werden. (Beispiel).

Informationen zum System

  • Unser Datenverarbeitungstool CBS läuft inzwischen auf Version 8.
  • Das Update zur Version 4 unseres Discovery Tools VuFind ist praktisch abgeschlossen.
  • Alle unsere Server laufen nun unter Ubuntu 16.04.
  • Wir haben ein neues Statistik-Tool eingeführt, das auf der Analyse der Logs mit Elastic, LogStash und Kibana basiert.
  • Wir haben Sahi für automatisierte Tests der Web-Interfaces eingeführt.

Strategie und Zukunft von swissbib

Ende März 2018 wird die Finanzierung von swissbib durch swissuniversities auslaufen. Gegenwärtig sind wir dabei ein Modell der direkten Finanzierung durch die Bibliotheken einzuführen. Ausserdem planen wir die Integration von swissbb in die Swiss Library Service Platform (SLSP).

In diesem Rahmen:

Und zum Schluss noch einige Zahlen

swissbib zählt heute:

  • Über 30 Millionen Dokumente
  • Über 100 Millionen Exemplare, die in Schweizer Bibliotheken, Archiven oder online zugänglich sind
  • 90’000 Besucherinnen und Besucher pro Monate, die in dieser Zeitspanne 1,3 Millionen Seiten besuchen
  • 5 Personen, die am Projekt arbeiten (das Pensum entspricht 3 Vollzeitstellen)

More than two million scientific journal articles available

Deutsche Version Version française English version

Möchten Sie auf über 2 Millionen wissenschaftliche Artikel aus allen Fachgebieten zugreifen und haben Sie einen ständigen Wohnsitz in der Schweiz?
Drei elektronische Zeitschriftenarchive stehen ab sofort der ganzen Schweizer Bevölkerung zur Verfügung:

  • Cambridge University Press (Artikel veröffentlicht von 1770 bis 2015)
  • De Gruyter (Artikel veröffentlicht von 1826 bis 2015)
  • Oxford University Press (Artikel veröffentlicht von 1895 bis 2015)

Durchsuchen Sie die Archive direkt via Swissbib.
Registrieren Sie sich für den kostenlosen Zugriff: www.nationallizenzen.ch/anmeldung

Auch ohne Anmeldung können Sie auf die Zeitschriftenarchive zugreifen, wenn Sie eine der berechtigten Bibliotheken (zum Beispiel Universitäts- oder Kantonsbibliotheken) besuchen. Weitere Details zu den Zugriffsmöglichkeiten finden Sie auf www.nationallizenzen.ch/zugriff.

Inhalte aus dem Jahr 2016 werden nach zwei (De Gruyter), drei (Oxford University Press) und fünf (Cambridge University Press) Jahren Embargo verfügbar sein. Dieselbe Regelung kommt auch in zukünftigen Jahren zur Anwendung.

Weiterführende Information finden Sie unter www.nationallizenzen.ch.

Dieses Angebot wird vom Konsortium der Schweizer Hochschulbibliotheken mit Unterstützung von swissuniversities ermöglicht.

Mid-project report : Metadata Management National Licences

  • How will the articles from National Licences be integrated in Swissbib ?
  • How will private users from Switzerland be able to access this content ?
  • What are the plans regarding the implementation of the green open access clauses of National Licences ?

Curious ? Have a look at the Mid-Project Report : Metadata Management Swiss National Licences.

General Information about the National Licences project is available on http://www.nationallicences.ch.

National Licences and article metadata in Germany, Canada, France and Switzerland

National Licences and article metadata in Germany, Canada, France and Switzerland

Introduction – the Swiss Context

In 2015, Switzerland launched a Swiss National Licences project. This is a 2-year project, funded by swissuniversities / program SUK-P2 „Scientific information : Access, processing and storage“ with a total amount of 10 million Swiss Francs. 7.5 million to buy contents from publishers, 2 million to ensure preservation for the whole Switzerland (probably with Portico and LOCKSS) and 0.5 million for the negotiations of contracts, the overall management and the metadata management. The project is led by the Consortium of Swiss University Libraries (at ETH Zurich). The metadata management subproject has been allocated to the Swissbib team at the University of Basel.
Access will be possible for every partner of the Consortium : universities, universities of applied sciences, state libraries, research institutes… One of the goal is therefore to bridge the gap between “rich” and “poor” institutions in Switzerland. Interested private persons living in Switzerland can also access the content, directly from their home, after following a suitable registration.
The Swiss National licences will be coupled together with the current content licences. This process can be summarized as follows. Let’s say Switzerland has a national licence for journal articles for a given publisher covering the years 1947-2008. At the same time, some universities in Switzerland have a licence for current content covering 2009-2016. At the beginning of 2017, if some universities sign for 2017 content for this publisher, then one more year will be available as part of the national licence (meaning the national license is expanding to 1947-2009). The details (when a new year is added and under which conditions) may vary from publisher to publisher, but that’s the main idea.
The goals of the metadata management subproject are the following :
  • Private users. Build a search engine to allow private users in Switzerland to search and access the content which is licensed for them. This will be done using the Swissbib existing infrastructure. The registration and authentication mechanism will be created together with SWITCH.
  • Integration in Library Discovery tools. For participating libraries which already have some kind of discovery tools, the integration of content should be seamless, for example with the creation of dedicated targets in ExLibris SFX or Proquest Intota
  • Gain experience in article metadata management. The management of publisher’s metadata at the article level didn’t happen yet in Switzerland. The goal is to gain experience with this to deliver additional services later on (for example within the SLSP project) : text and data mining, discovery tools for smaller institutions (university of applied sciences) as well as a collaboration with international partners.
The contracts are not signed yet, but the goal is to sign them in Spring 2016 and have the portal live at the end of 2016. The negotiations are still happening and the contracts will be evaluated by an independent board (“Evalutionsgremium”) in the coming weeks.
At the start of the project, the goal was to gather what has been done abroad with this respect. There was a telephone call with the people from Toronto, a meeting in Göttingen with the people from GBV and Finc and a meeting in Nancy with the people from INIST. All that happened in January 2016.

Summary National Licences

 

Germany Ontario/Canada France Planned for Switzerland
Link http://www.nationallizenzen.de http://scholarsportal.info http://www.istex.fr
Start year 2004 2006 2012 2015
Number of articles in the platform 25 million 44 million 20 million 3.5 million
Budget > 120 million € 60 million € 10 million CHF
Main focus access preservation text and data mining access
Participating Publishers ~30 30 20 4
Pivot Format OCLC PICA+ NLM JATS MODS NLM JATS
Fulltext (pdf) delivery on the project platform yes, but via a proxy to the publisher’s platform yes yes no
Access for private users yes no no yes
Rights to share the metadata yes no yes yes
Language for transformation C and Java Java in the past, XSLT now XSLT XSLT
Document store OCLC CBS MarkLogic OCLC CBS
Search engine technology SOLR MarkLogic Elasticsearch SOLR
Front-end technology VuFind MarkLogic no Front-end VuFind

 

 

Summary Article Indexes

Articles indexes are not bound to national licences. They contain plenty of journal articles, which can then be matched with library e-journals holdings.

GBV Zentral Finc
Link http://findex.gbv.de http://finc.info
Start year 2012 2014
Number of articles in the platform 130 million 80 million
Participating Publishers ~40 mostly via crossref
Pivot Format marc21 local format
Rights to share the metadata yes yes
Language for transformation C and Java go
Search engine technology SolrCloud SOLR
Front-end technology no Front-end VuFind

 

 

Germany Nationallizenzen & Allianzlizenzen

Germany was a pioneer in national licensing. The DFG (Deutsche Forschung Gesellschaft) project German National Licences was launched in 2004 and followed in 2011 by the so called Allianz-Lizenzen. The National Licences were funded only by the DFG. The content licensed is accessible in the whole Germany. The Allianz-Lizenzen are funded at 25% by the DFG and at 75% by participating universities. The contents licensed are available only to participating institutions. After a couple of years (so called Moving Walls whose duration depends on the publishers), an Allianz Licence becomes a National Licence, and access is then granted to the whole Germany. Since the beginning of the project, Germany has been spending more than 120 million Euros on the various projects. The negotiations are done by 8 libraries in Germany and the metadata handling is done by the GBV (Gemeinsamer Bibliotheksverbund) in Göttingen.
Currently, they have managed the metadata of ~25 million journal articles (and other kind of content like book chapters). They got the metadata directly from the publishers. In the first years, processing this metadata was really a pain, but it has improved in recent years. They transform all metadata in OCLC PICA+ format and store it in OCLC CBS software. Access is done through the Suchkiste via a VuFind interface and a SOLR index. They loaded all content in the Suchkiste in 2010, but haven’t updated yet because this wasn’t a priority.
Interested libraries can download article metadata in MARC21 format (as an export from OCLC CBS) from the GBV. They can also access directly the GBV Zentral Index (SOLR). The metadata is available to everybody. The description of the collections (journal holdings) is in EZB, the German electronic journals database.
Regarding the fulltexts (pdf), access is done on the Publisher’s Platform directly, but the GBV store the pdf as well in case of failure. This amounts yet to 60 TB of data. In the contract for national licences, it was mandatory for the publishers to deliver the pdf on their own platform for the next 10 years.
The access is also possible for private users who live in Germany. The person needs to register online and give its private home address. The registration is than quickly checked by one of the 8 libraries (depending on the first letter of the last name) which subsequently sends a letter by post to the person. Password for login is enclosed in the letter. This process can last up to 10 days. At the time of the registration, the user must say which publisher he is interested in, because each of them have different conditions. Access is then done via a Shibboleth authentication to a proxy at GBV to access the National Licences content. On some publishers platform, it is also possible to login directly via Shibboleth. Since the beginning of the project, there has been more or less every year 8000 private active users. Every year 2000 more are added, and 2000 are removed because they are inactive.

 

 

Ontario/Canada ScholarsPortal project

The ScholarsPortal project from Ontario/Canada started in 2006. They deliver content (metadata + fulltext) to the members of all universities in the province of Ontario, in Canada. Meanwhile, they have worked with over 35 academic publishers and aggregators that are able to deliver article metadata and fulltext. After a focus on access in the first years, recently they invested more in the preservation aspects. They are now an audited trustworthy digital repository and act as a preservation agent for all university libraries of Ontario (ISO 16363, known as the Trusted Digital Repository Checklist). Currently ~3 persons (rather 3 FTE) are working for the journals part of Scholars Portal.
They have managed the metadata and fulltext of ~44 million journal articles. They get the metadata directly from publishers. They transform everything into NLM JATS format using either plain Java programming or XSLT stylesheets (in the recent years). Data is then stored in a MarkLogic Server, which is also used to search (via xQuery) and deliver content. For the last couple of years, they have also been processing eBooks, using the NLM BITS format. They even provide a navigation by Volume/Issue, using additional normalization rules. For libraries, they create dedicated targets in ExLibris SFX link resolver as well as in Serial Solutions knowledgebase, 360 Core. A researcher in Ontario can access the fulltexts (pdf or XML) either on the publisher’s platform or directly in the Scholars Portal. They observed differences in behavior between small and big universities. Users from larger universities tend to prefer publisher’s platforms whereas users from smaller institutions download a majority of content directly from Scholars Portal. On Scholars Portal, even the links (citations) between articles can be resolved internally in the portal.
They don’t have the rights to share metadata with libraries outside the consortium, but if a specific publisher agrees, on their side they are ready to share.

 

 

France ISTEX project

The ISTEX project started in 2012. It is planned until 2017 and funded with 60 million Euros (55 are allocated to buy content). It is a collaboration between :
  • the Couperin consortium which focus on collecting researchers and libraries needs
  • the ABES in Montpellier which does the negotiations with the publishers, as well as the signing of contracts. The integration in Knowledge Bases from Library IT Providers (such as ExLibris SFX) is also done by the ABES via the BACON project
  • the University of Lorraine in Nancy which is the representative of universities in the project
  • the INIST (from CNRS) in Nancy which is building the platform and processing publisher’s metadata
They have no plans to build a portal, but really to be a data hub, with a strong focus on Text and Data Mining. Currently ~15 persons are working at INIST for the ISTEX project. There are 16 million documents currently in ISTEX and this will go up to ~20 million until the end of the project. They get the metadata and fulltext directly from the publishers. They deliver the fulltext (pdf’s) to the researchers as well (which is not the case in the German project for example). In the contracts with publishers, the publishers only need to deliver the fulltext on their own platform for the next five years. The ISTEX team even analyzes the text content of pdf files, using among others the GROBID software. They enrich the contents (for example with geoNames from France). They have had a lot of problems with metadata and fulltexts from publishers : invalid XML with respect to the attached DTD’s, undocumented formats, strong heterogeneity of formats (even within the same journal over time), pdf of very poor quality, missing contents… In the last months, they asked the publishers to deliver the full content before signing the contract, to make sure that it is possible to work with the delivered content. They also ask the publishers to deliver a whole data package at once : metadata, fulltexts, description of the structure of the directories and filenames, list of journals with years and number of articles published, DTD’s, contact of a person responsible for technical details. In some cases, it was impossible to match the metadata and pdf’s. The preservation is done by another institution : the CINES. Everything received from Publisher is kept.
They offer all the content (metadata + fulltext) via a REST API. Researchers can then mine the whole content, or a specific collection. The first users are in the domain of automated text analysis or in the history of sciences. Up to know, the usage and interest is still timid, but this is growing. Libraries can also use these API to integrate the content directly in their online tools, or using the widgets provided by the project. They plan to insert all ISTEX metadata in tools like Ebsco Discovery Service or ExLibris Primo Central.
They analyze the incoming metadata with elasticsearch and Kibana, reporting the problems to the publishers. After that, they transform everything to MODS for metadata (using XSLT stylesheets) and TEI for fulltext. If the XML is invalid, they make what is necessary to deliver valid XML at the end. Indeed, the researchers who do text and data mining can use the original format from publisher as well.
Almost all metadata is licensed with an Etalab licence (a French licence very similar to Creative Commons Zero). This means that it is possible to share metadata with other libraries, even outside France.

 

 

Article Index : GBV Zentral

After building the suchkiste for the German national licences, the GBV went one step further and decided to build an article index that contains current content as well. In 2012, they launched GBV Zentral. Now, there are 130 million articles available in GBV Zentral. There is no front-end in GBV Zentral, it is an index based on the SolrCloud technology. The print collections of all the libraries of GBV are also included in GBV Zentral. Therefore, in total there are 158 million documents in GBV Zentral. 51 million of them have some kind of searchable enrichments (table of contents, reviews, front or back matters from publishers). If a library manage its journal holdings in EZB (the German electronic journal library), then it is possible to match GBV Zentral content with the electronic collections of a specific library to add a filter in the search. 76 libraries are using GBV Zentral (either for print collections, online contents or both), for example
Every year more than 1.8 billion searches are done in GBV Zentral. All the metadata comes from the publishers or some databases (like Pubmed). The process is more or less the same as for the German National Licences. The GBV Zentral is also used as a central place to deliver content to ExLibris Primo, Summon and Ebsco Discovery Service. GBV Zentral is updated daily.
Every interested institution in the world can use GBV Zentral at no cost.

 

 

Article Index : the Finc Project (Leipzig / Germany)

The Finc Project (from the University of Leipzig in Germany) is not bound to national licences in any ways. It has a very different focus : the goal was to build a local article index, without buying one (for example ExLibris Primo Central or Proquest Summon). The focus was really on efficiency and current availability, without having to take care on preservation or that much on metadata quality. There are ~3 persons working on the project.
With this in mind, they decided to get all metadata from Crossref. Crossref is the organization which delivers DOI to scientific publishers. It means that Crossref has some metadata for every journal article which has a DOI. The main advantage is that all metadata is already in a common format (crossref unified schema) and there is only one provider to take care of. The disadvantage is that the metadata is somehow poorer than the metadata which is directly available from the publishers. For example, abstracts are often missing. After this initial step, Finc decided to get the metadata from other sources directly as well (for example from JSTOR or DeGruyter).
Currently, the finc project has gathered more than ~80 million journal articles from crossref. They transform everything to a very simple internal flat format, using the go programming language. They index then all the metadata in Apache SOLR and show it to users using VuFind. There is a growing interest in Germany for the finc article index. Indeed, a library which uses VuFind as an online discovery tool can use it without too much complications. The Finc index is updated more or less on a monthly basis.

 

 

Implications for Switzerland

As the coverage dates for Swiss national licences (probably going up to 2015) won’t completely overlap with the projects from the other countries, we will need to process at least some metadata on our side. We can count on international partners for specific problems (a very bad metadata set that has already been processed or a publisher specific format that has already been transformed to a more standard one).
Here are what we plan to do for Switzerland. First, we set up a collection of metadata requirements for publishers. Here are some of the important points :
  • all metadata should be delivered using a Creative Commons Zero Licence to allow Switzerland to process it as needed (this allows for example the transformation towards linked open data at a later standpoint)
  • the publisher needs to deliver the whole metadata set before signing the contract. This allows the swissbib team to check the quality of metadata. Experience has shown that after signature, it is often too late
On the technical side, the plans are the following : Incoming metadata will be processed using Metafacture from the German National Library and analyzed with elasticsearch. It will be then transformed using XSLT towards a standardized NLM JATS format, with some additional requirements on mandatory metadata. The documents will then be stored in OCLC CBS and delivered to the users using SOLR and VuFind (same as the currenct swissbib architecture).
Additionnally, the metadata will be available via an OAI-PMH interface, an SRU web service as well as maybe a REST API. At the journal level, holdings in KBART format will be created and delivered to Vendors of Library Software for the creation of dedicated targets in Link Resolvers and Discovery tools.

Examples of metadata (JATS, MODS, MARC21, Crossref, finc)

As an example, the same article in various metadata formats.