A Magyar történeti szövegtár


Az 1980-as évek közepén akadémiai döntés született egy saját gyűjtésű történeti korpusz, az úgynevezett Magyar történeti szövegtár elektronikus létrehozásáról A magyar nyelv nagyszótára számára. Ekkorra vált nyilvánvalóvá, hogy a majd’ száz évig heroikus munkával gyűjtött, rendkívül gazdag, mintegy 6 millió adatcédulát tartalmazó archivális gyűjtemény önmagában kevés egy 21. századi igényeknek megfelelni kívánó korpuszalapú nagyszótár forrásanyagához, ezért elengedhetetlen egy korszerű, elméleti megalapozottságú, elektronikus szövegtár létrehozása.

Természetesen a számítógép kínálta lehetőségeket kihasználó adatbázis-építést merőben más körülmények és szempontok határozták meg, mint a korábbi, kézírásos cédulázást.

1985-től kezdődően az ún. korpuszépítés során jött létre A magyar nyelv nagyszótárának (Nszt.) gondosan összeállított, több mint 30 millió szövegszavas elektronikus szövegbázisa, a Magyar történeti szövegtár (MTSz.). Mivel a 80-as években még sem elektronikus formában hozzáférhető szövegek, sem nagy kapacitású, gyors számítógépek nem álltak rendelkezésre, a begépeléses szövegrögzítés eleinte a – mára kultikusnak mondható – Commodore 64 gépeken bizony lassan haladt. Aztán az évek során fokozatosan egyre modernebb eszközökkel és a munkálatokat mindinkább kiszolgáló szoftverháttérrel dolgozva felgyorsultak a munkálatok.

A magyar nyelv nagyszótára nemcsak a ma használt szavakat gyűjti össze és értelmezi, hanem mintegy két és fél évszázad szókincsét szótárazza, nyomon követve egy-egy szó születését vagy kihalását, esetleges újjáéledését, jelentéseinek változását, s mindezt eredeti példamondatokkal dokumentálja.

A munkálatok 80-as évekbeli elindulásakor lexikográfusok által meghatározott adatgyűjtési szempontok szerint irodalomtörténész és nyelvész szakemberek jelölték ki azokat az 1772 és 2000 között alkotott, nyomtatásban megjelent, változatos műfajú és terjedelmű szövegrészleteket, amelyek mintegy metszetét adják a 18. századi nyelvújítástól napjainkig terjedő időszak irodalmi, köznyelvi és tudományos nyelvhasználatának. A nagy körültekintéssel és óriási anyag bevonásával létrehozott szövegtár a szépirodalom gazdagon reprezentált szókincse mellett tartalmazza mindazt az általános érdekű szókincset is, amely a nyomtatásban megjelent közéleti és magánjellegű írásokban, tudományos és vallási munkákban megjelenik. Feldolgoz időszaki kiadványokat, tankönyveket, valamint tudománynépszerűsítő, ismeretterjesztő irodalmat. Mértéktartással és körültekintően reprezentálja az egyes szaktudományok, a nyelvjárások, a réteg- és csoportnyelvek sajátos szókincsét is.

A szerzők kiválasztásában fontos szempont volt, hogy az első vonalbelinek tartott alkotók mellett kevésbé jelentős, sőt elfeledett írók is szerepeljenek, annak érdekében, hogy a nyelv használatának minél többféle módja és szintje megjelenítődjék a korpusz szövegeiben. Ugyanebből az okból szerepelnek az idegen nyelvből fordított művek is.

Az anyaggyűjtés során fokozott figyelem irányult arra, hogy a szövegtár minél szélesebb spektrummal, minél pontosabban és érzékletesebben tükrözze azokat a szókészletben, grammatikában, szójelentésekben stb. megnyilvánuló nyelvi változásokat, amelyek leképezik egy-egy időszak társadalmi, politikai, kulturális életének átalakulását. Az egyes korszakokra különösképpen jellemző szövegtípusok megjelenítése is hangsúlyos szerepet kapott.

A 18. századi szövegek kijelölésekor az az irányelv is érvényesült, hogy a korpusz minél több ismeretterjesztő művet tartalmazzon. E munkák jelentőségét elsődlegesen az adja, hogy – noha e korban a különböző tudományágak differenciálódása még csak kezdeti fázisban van – tetten érhető bennük az anyanyelvű szaknyelv és terminológia megszületése. A 20. század szövegeinek kiválasztásakor pedig arra kellett figyelni, hogy e korszak legkülönfélébb stílusáramlatai, nyelvi formái megfelelő arányban reprezentálódjanak. Így teret kapnak a legújabb magyar irodalom újító, modernebb, avantgárd vagy éppen posztmodern törekvései, de jelen van a gyermek- és ifjúsági irodalom, vagy a sajátos szókincsréteget és nyelvhasználatot mutató sci-fi, detektív- és ponyvairodalom is. A megváltozott életmód és a rohamos gyorsasággal átalakuló technikai civilizáció új szókincsének megjelenítése is elengedhetetlen egy korszerű, korpuszalapú értelmező szótár címszóállományában, így vált szükségessé az elektronikával, az informatikával, az üzleti élettel, a sport- és szabadidő-tevékenységekkel stb. kapcsolatos szövegek kiválasztása is.

A szövegkijelölés minél több szerző, illetve minél több mű rövidebb részleteinek kiválasztását célozta. Nagyobb terjedelmű teljes mű csak egészen kivételesen került rögzítésre. A kiadások vonatkozásában többnyire az első, illetve, ha van, akkor a kritikai kiadás a forrás. Olykor előfordul azonban az is, hogy a szerző által javított vagy bővített, általa hitelesnek minősített későbbi kiadás.

A visszakereshetőség érdekében minden anyagot pontos bibliográfiai adatokat tartalmazó forrásmegjelöléssel közöl a szótár.

A Magyar történeti szövegtár anyagának folyamatos vizsgálata rámutatott arra, hogy egyes szakterületek irodalma nem volt teljesen egységesen képviselve a gyűjteményben. Bizonyos időszakokból hiányoztak szaknyelvi szövegek, illetve a szükségesnél lényegesen kisebb mértékben voltak képviselve, ami megnehezítette a szak­terminusok adatolását.

Az arányosítás és hiánypótlás érdekében a 2000 előtt készült eredeti forrásjegyzék a későbbi években több ízben is kiegészült. E pótgyűjtések során sikerült gazdagítani a szövegtárat a 90-es évek irodalmát reprezentáló művekkel, a korábban indexen tartott, zárolt anyagokkal, a határainkon túli magyar irodalommal, valamint az időszaki sajtó nyelvezetét és szókészletét tükröző szövegekkel.

A történeti szövegtár legutóbbi – és horderejét, valamint mértékét tekintve eddigi legjelentősebb – módosítása, az eredetileg 1772 és 2000 között keletkezett szövegeket tartalmazó korpusz felső korhatárának felemelése 2010-re.

A tényleges adatbővítést a kiegészítés módjának, szempontjainak és arányainak alapos átgondolása, a számítások, statisztikai elemzések megfontolt mérlegelése előzte meg.

Figyelembe véve a statisztikai mutatókat, a korhatáremelés a 2001 és 2010 közötti évtized vonatkozásában nagyjából 10 %-os összterjedelmi bővítést célzott, vagyis az eddig használt 27 millió szövegszavas adatbázis mintegy 3 millió szövegszóval 30 milliósra gyarapodott, az addigi kb. 2500 szerzőhöz pedig 320 újabb alkotó, a 22000 szövegfájlhoz 1000-nél több új szövegrészlet csatlakozott.

A szaknyelvi korpuszbővítéshez pontos útmutatás alapján a szótár negyvennél is több szaklektora készített javaslatokat, s ők végezték el az adott szakma vagy tudományág fogalmainak, eljárásainak, módszereinek jellegzetes nyelvváltozatát és terminológiai változásait is tükröző új szövegek kijelölését. A fikciós (szépirodalmi) szövegek, a levelezéseket, naplókat, önéletírásokat tartalmazó személyes jellegű, illetve a törvényeket, rendeleteket stb. magában foglaló hivatalos, valamint a sajtónyelvi szemelvények összeválogatását a szótári osztály két munkatársa végezte el. A legfőbb szempont az volt, hogy a kiválasztott szövegrészletek minél gazdagabban tükrözzék az adott korszak nyelvhasználatát, nyelvi változásait.

A szövegkijelölés, az adatrögzítés vagy -szkennelés után megtörtént az anyag elektronikus állománnyá alakítása, majd számos munkafázissal és többszöri konvertálással sor került az új, xml-formátumú digitalizált szövegek beillesztésére a Magyar történeti szövegtár adatbázisába, amely a nagyszótári, illetve az intézeti honlap oldalairól most már egy könnyen kezelhető, vadonatúj lekérdezőfelületen bárki számára megközelíthető és kutatásaihoz felhasználható.


Csengery Kinga


A Magyar történeti szövegtár keresőfelülete

Beállítások