Tråd: Information om databasen, för att bättre kunna bedöma det man hittar

Detta kunde gärna stå någonstans.

- Vad räknas som "en träff". Ordet emellertid ger 598569 träffar, men är det antal gånger som ordet hittas, antal tidningssidor där ordet hittas, eller antal nummer av tidningar där ordet någonstans finns nämnt?
- Eftersom man lätt undrar "hur komplett är detta" kunde data om detta gärna visas. Tidsperiod si och så (exv maj 1923), här ingår x nummer av Aftonbladet, totalt y tidningssidor alt. z tecken. a nummer av SvD, b tidningsidor, c tecken.

Sv: Information om databasen, för att bättre kunna bedöma det man hittar

Eller kanske rabbla datum på tidningarna som ingår, så man ser om något saknas. Vissa datum, större helgdagar, saknas av naturliga skäl men det får man väl haja själv.

Sv: Information om databasen, för att bättre kunna bedöma det man hittar

Ja, mycket bra förslag! Jag vill också slå ett slag för detta.

Sv: Information om databasen, för att bättre kunna bedöma det man hittar

Hej!

Vad jag kan se är det antalet sidor som man har fått åtminstone en träff på. Formuleringen borde alltså kanske istället vara "Din sökning på palme gav 1927 träffar på 1373 sidor i 1024 tidningsnummer". Det skulle onekligen vara mer exakt, men kanske samtidigt möjligen lite mer svårläst?

Jag håller med om att det kunde vara värdefullt att redovisa relationen mellan träffmängd och den del av materialet man har fått träff i, men detta är ju också en fråga om hur lättbegriplig vi kan göra den redovisningen.

Något som vi redan har diskuterat och som också uppmärksammats här på forumet är möjligheten att utan en sökning på någon term välja en tidning från ett visst datum eller en viss period, få en överblick över från vilka dagar det finns nummer i vårt system, kunna välja ett specifikt datum och sedan kunna bläddra i det nummer man har valt. Min erfarenhet från arbete med dagstidningar på bibliotek säger mig att detta behövs, men i söktjänsten har vi primärt jobbat med att få till en bra och lättfungerande sökning som snabbt levererar relevanta svar.

Tack för bra och viktiga synpunkter som vi på KB tar med oss i höstens diskussioner och prioriteringar.

Pär Nilsson / Dagstidningar

Sv: Information om databasen, för att bättre kunna bedöma det man hittar

En sak man också undrar är om alla ord som är tryckta i tidningen ingår i textdatabasen. TV-tablåer gör det uppenbarligen. Vad med annonser?

Sv: Information om databasen, för att bättre kunna bedöma det man hittar

Alla text i tidningen som OCR-programvaran har lyckats tolka finns med och är sökbara i systemet. Det gäller alltså vanlig brödtext och textannonser i "normala" typsnitt, men min erfarenhet är att programvaran försöker (och till en del lyckas) med att tolka även "text i bild". Däremot har OCR-programmet haft svåra problem med rubriker och annan onormalt stor text, men där har vi redan vissa lösningar i produktionssystemet.

I uppmärkningen saknar vi markörer för att skilja redaktionell text från t.ex. tv-tablåer, men vi har redan diskuterat möjligheten att i söksystemet skapa den uppdelning som saknas i den uppmärkta texten. Det vore förstås mycket värdefullt att kunna utesluta t.ex. tablåer eftersom de ofta ger många skräpträffar. Jag gissar att det är svårare att göra en uppdelning mellan textannonser och redaktionell text, i synnerhet i äldre material.

Pär Nilsson / KB-Dagstidningar

Sv: Information om databasen, för att bättre kunna bedöma det man hittar

parnil skrev:

Hej!

Vad jag kan se är det antalet sidor som man har fått åtminstone en träff på. Formuleringen borde alltså kanske istället vara "Din sökning på palme gav 1927 träffar på 1373 sidor i 1024 tidningsnummer". Det skulle onekligen vara mer exakt, men kanske samtidigt möjligen lite mer svårläst?

Vad sägs isåf om att fila på formuleringen.

"Din sökning på palme gav 1927 enskilda träffar, fördelade på 1373 sidor i 1024 tidningsnumer."

Att stapla siffrorna under varandra ökar också överskådligheten.

1927 träffar på ordet, fördelade på:
1373 sidor
1024 nummer

Man kan ju också "gömma undan" sån info som man tror blir "för mycket" för de flesta, men så den går att hitta för den som är intresserad.

Sv: Information om databasen, för att bättre kunna bedöma det man hittar

parnil skrev:

Alla text i tidningen som OCR-programvaran har lyckats tolka finns med och är sökbara i systemet. Det gäller alltså vanlig brödtext och textannonser i "normala" typsnitt, men min erfarenhet är att programvaran försöker (och till en del lyckas) med att tolka även "text i bild". Däremot har OCR-programmet haft svåra problem med rubriker och annan onormalt stor text, men där har vi redan vissa lösningar i produktionssystemet.

I uppmärkningen saknar vi markörer för att skilja redaktionell text från t.ex. tv-tablåer, men vi har redan diskuterat möjligheten att i söksystemet skapa den uppdelning som saknas i den uppmärkta texten. Det vore förstås mycket värdefullt att kunna utesluta t.ex. tablåer eftersom de ofta ger många skräpträffar. Jag gissar att det är svårare att göra en uppdelning mellan textannonser och redaktionell text, i synnerhet i äldre material.

Pär Nilsson / KB-Dagstidningar

Intressant. Tack för info.