Tråd: Ofullständiga data från ett par årgångar

Inte direkt en bugg, men ett tekniskt problem.

Sökning på vanliga enkla ord vars frekvens inte bör variera så mycket, som "och" "men" och "Sverige"
http://tidningar.kb.se/?q=och
http://tidningar.kb.se/?q=men
http://tidningar.kb.se/?q=Sverige
har ett par histogramstaplar som är ca hälften så höga som de borde vara, dels från 1940-talet och dels från 1980-talet. När man vet om man ser man dessa "dipp"-staplar i alla sökningar.

Finns bara delar av dessa årgångar med i databasen, eller har texttolkningen av det inscannade i dessa årgångar grovt misslyckats?

Sv: Ofullständiga data från ett par årgångar

Petronella,

jag skickar frågan vidare till någon som jobbar med tidningarna. Allt ska finnas med, men det ser onekligen ut som att något saknas.

Mvh,
  Martin

p.s ett tips är att söka på '*' för att matcha samtliga sidor d.s

Sv: Ofullständiga data från ett par årgångar

Klart intressant iakttagelse. Vi får försöka undersöka saken djupare, men spontant tycker jag att den skarpa dippen på 1980-talet känns märkligare än den på 1940-talet, då det skulle kunna röra sig om en viss dipp i antalet sidor. Eftersom vi än så länge har bara två titlar i tjänsten kan det också bero på att endera titeln av någon anledning saknas.

Sv: Ofullständiga data från ett par årgångar

Hej! Jag upptäckte också ofullständigheter när jag provkörde hos er idag. Sökte efter ett antal SvD-artiklar från 1902 som jag tidigare enbart studerat på mikrofilm och såg fram emot att se i skarp digitaliserad version. Trots sökningar på ett tiotal olika ord som förekommer i artiklarna fick jag inga träffar.

Sv: Ofullständiga data från ett par årgångar

Fia,

har du exempel på sökningar som misslyckas? OCR-tolkningen av texten är på det äldre materialet inte alltid så bra, detta går att kompensera för delvis genom att lägga till ex.vis ~2 efter ett sökord. Då görs en "fuzzy search" och man kan få träff även på ord där OCR-tolken misslyckas med en bokstav eller två.

Ett annat tips är att inte försöka skriva långa meningar inom citat-tecken, sannolikheten för att något av orden har feltolkats blir då stor.

Mvh,
  Martin

Sv: Ofullständiga data från ett par årgångar

parnil skrev:

Klart intressant iakttagelse. Vi får försöka undersöka saken djupare, men spontant tycker jag att den skarpa dippen på 1980-talet känns märkligare än den på 1940-talet, då det skulle kunna röra sig om en viss dipp i antalet sidor. Eftersom vi än så länge har bara två titlar i tjänsten kan det också bero på att endera titeln av någon anledning saknas.

Bägge tidningarna borde inte samtidigt drastiskt minska och öka sidantalet sidor. Att endera titeln saknas vore mest logiskt med tanke på dippens knivskarpa gränser.

Sv: Ofullständiga data från ett par årgångar

Hej Martin och tack!
Jag sökte enbart på ett ord i taget. Bland annat på "Serveus" =  pseudonym för skribent i SvD under ett visst år: fick dock inte en enda träff på detta år. Sökte även på ord som värnplikt (även i äldre stavningar såsom värneplikt och värnepligt) vilket inte gav några träffar på alls under vissa år då frågan var het i bland annat SvD.

Dock funderar jag på om det kan ha varit någon tillfällig bugg i går em eller ngt knas med datorn jag satt vid: idag när jag sökte på dessa ord från egen dator fick jag träffar (har sparat sökningarna för att se om det går att få fram dem nästa gång jag är vid KB-datorerna)

Sv: Ofullständiga data från ett par årgångar

Hej igen! Har nu testat igen (på två olika datorer, övriga i salen hade hängt sig).
Resultatet var detsamma som igår = inga träffar på orden/åren ifråga trots att jag alltså får träffar när jag gör sökningar på egen dator/ej KBs nätverk.
Kunde inte kolla om jag fick fram dem via mina favoritmarkeringar pga:  http://feedback.tidningar.kb.se/viewtop … pid=79#p79

Sv: Ofullständiga data från ett par årgångar

Verkar vara SvD som saknas
http://tidningar.kb.se/?q=avhandling&am … 1948-01-01 <= bara Aftonbladet.

Sv: Ofullständiga data från ett par årgångar

Tack för tipset om SvD. Vi får försöka kolla om den är levererad till KB och finns i det digitala arkivet

Pär Nilsson / KB-Dagstidningar

Sv: Ofullständiga data från ett par årgångar

Petronella,

nu förstår jag. Vi har varit otydliga i kommunikationen, i dagsläget pågår konvertering av de digitaliserade sidorna för att de ska kunna visas i mikrofilmsläsesalen. Detta gör att endast ca en miljon sidor finns tillgängliga i MFLS, medan alla 2.7 miljoner är sökbara i den externa tjänsten. Detta för att man enbart ska få träff på sidor man faktiskt kan titta på.

Överväger nu att slå på sökning i samtliga sidor även i MFLS även om man då under sommaren inte kommer att kunna titta på alla sidor man får träff på.

Mvh,
  Martin

Sv: Ofullständiga data från ett par årgångar

Martin: Jag tror det vore bättre med sökning på allt även om det saknas bildfiler. Det är lättare att informera om än märkliga differenser i träffmängder internt och externt.

Pär N.

13 Senast ändrad av Petronella (2014-07-03 14:40:00)

Sv: Ofullständiga data från ett par årgångar

Må vara att jag kanske inte hittar artikeln i er mikrofilmsläsesal, men den går väl att hitta på annat håll. Inte alla bor i Stockholm. Folk kommer att gå även till bibliotek i Göteborg, Lund och Härnösand för att hitta gamla artiklar. Misstänker dessutom att om jag går till Stockholms stadsbibliotek och frågar efter en Aftonbladet från 1947, så hjälper de mig. 

Om inte alls finns med blir det svårare att leka språkforskare. Jag förstår att proffsen på svenskainstitutionerna har andra verktyg, men detta är ett jätteroligt verktyg för svenskalärare på gymnasiet. Det är då en fördel om  materialet är representativt, och inte baserat på vad som går att läsa i sal på KB.

Det bör gå att i text upplysa om vad som finns och inte finns tillgängligt i sal på KB, tänker jag.

Sv: Ofullständiga data från ett par årgångar

Petronella: Ja, det är så vi har tänkt från början, att sökning i och referenser till materialet kan vara användbara även utan möjlighet att visa bilderna. Just nu är det i KB:s läsesal som mängden material man kan söka i har begränsats till det som har konverterade och visningsbara bildfiler. Jag hoppas att det går att ändra på så snart som möjligt.

Sv: Ofullständiga data från ett par årgångar

Hej! Tänkte bara berätta att problemet (se inlägg 4 och 7 ovan) kvarstår. Får alltså betydligt fler träffar på samma ord när jag söker på andra datorer än de i mikrofilmsrummet.

Sv: Ofullständiga data från ett par årgångar

Hej igen! Problemet tycks kvarstå. Och denna post verkar behandla samma problem: http://feedback.tidningar.kb.se/viewtopic.php?id=36

Hoppas det löser sig.

Sv: Ofullständiga data från ett par årgångar

Hej igen!

Hur går det med konvertering till läsbara filer? Idag var jag i MFLS och sökte på ordet Mariehäll. Fick då 979 träffar. När jag söker hemma på samma ord får jag just nu idag 5395 träffar.

Mvh,

Krille

Sv: Ofullständiga data från ett par årgångar

Hej.

Konverteringen har ännu inte kommit igång.
När tidplan för detta finns så kommer denna att publiceras bland annat på detta forum.
Se: http://feedback.tidningar.kb.se/viewtopic.php?id=59

Mvh

Jonas Ahlberg