210302_ Cmp_avledninger
Taggmøte 2. mars 2021
Samansetjingstaggar i GiellaLT:
Tre klassar:
- deskriptive taggar: +Cmp/*
- desse kjem i affixes/nouns.lexc, compounds.lexc legg til Cmp#
- desse kjem i affixes/nouns.lexc, compounds.lexc legg til Cmp#
- normative taggar: +CmpN/*
- Her er CmpN/SgN default som aleinetag, lagt til i stems/nouns.lexc
- Her er CmpN/SgN default som aleinetag, lagt til i stems/nouns.lexc
- normative posisjonstaggar: +CmpNP/*
- desse avgrensar berre normativ posisjon (prefiks, fyrst, berre i slutten, ikkje i det heile, osb)
Hvilke tagger skal vi bruke når det er førsteleddet er forkortet eller ikke-assimilert lån?
- asylårdnik +Cmp/Unass asyl+ådnik (asyl er ikke produktiv)
- asijllaårdnik +Cmp/SgNom asijlla+årdnik
balkong og kultur er produktive:
- balkoaŋŋa+årdnik +Cmp/SgNom
- balkong+årdnik +Cmp/Unass
- balkoaŋŋa+N+Sem/Dummytag+Cmp/Unass: balkong%> R ;
- balkoaŋ+årdnik +Cmp/Sh
- +CmpNP/Pref+Cmp/SgNom: r%> R ; !short cmp, "kulturskåvllå" , fra affix-fila, KULTUVRRA:
balkoaŋŋa+N+Sem/Dummytag: balkong%> R ; (Her mangler Cmp-tagg, bør det være +Cmp/Unass eller +Cmp/Sh ?)
Problemet er harmonisering
- For analyse: tagger forteller om typen Cmp
- For generering i MT: sammensetninga som ikke er foretrukket, skal ha en annen tagg, eller en ekstra tagg
Det er behov for å skille mellom sammensetninger (dvs. vi kan ikke gjøre dem valgfrie)
- eatnigiella +Cmp/SgGen (morsmål)
- eadneluopmu +Cmp/SgNom (morpermisjon)
- etniidbeaivi +Cmp/PlGen (morsdag)
Mulig løsning
- Den foretrukne vil aldri være +Cmp/Unass
- Hvis den foretrukne er den lange formen, kan vi legge +Cmp/Sh til den korte
- Hvis den foretrukne er den korte formen, kan vi legge +Cmp/Long til den korte
Det er mulig å legge til regel i tools/mt/apertium/tagger/modify.regex fra smj:
- +Cmp/Sh > +Cmp/SgNom
balkoaŋŋaårdnik balkoaŋŋaårdnik balkoaŋŋa+N+G3+Cmp/SgNom+Cmp#årdnik+v1+N+Sg+Nom 0,000000 balkoaŋŋaårdnik balkoaŋŋa+N+G3+Cmp/SgNom+Cmp#årdnik+v1+N+Sg+Nom 0,000000 balkongårdnik balkongårdnik balkoaŋŋa+N+Cmp#årdnik+v1+N+Sg+Nom 0,000000 balkongårdnik balkoaŋŋa+N+Cmp#årdnik+v1+N+Sg+Nom 0,000000 kultuvrraårdnik +Cmp/SgNom+Cmp/Long kulturårdnik +Cmp/SgNom
Oversikt fra smj root:
+CmpNP/All !!≈ * __@CODE@__ - ... in all positions, __default__, this tag does not have to be written +CmpNP/First !!≈ * __@CODE@__ - ... only be first part in a compound or alone +CmpNP/Pref !!≈ * __@CODE@__ - ... only __first__ part in a compound, NEVER alone +CmpNP/Last !!≈ * __@CODE@__ - ... only be last part in a compound or alone +CmpNP/Suff !!≈ * __@CODE@__ - ... only __last__ part in a compound, NEVER alone +CmpNP/None !!≈ * __@CODE@__ - ... does not take part in compounds +CmpNP/Only !!≈ * __@CODE@__ - ... only be part of a compound, i.e. can never +CmpN/SgN !!≈ * __@CODE@__ Singular Nominative !! Unmarked = Default +CmpN/SgG !!≈ * __@CODE@__ Singular Genitive +CmpN/PlG !!≈ * __@CODE@__ Plural Genitive +CmpN/PlN !!≈ * __@CODE@__ Plural Nominative, propers! +CmpN/SgNomLeft !!≈ * __@CODE@__ Singular Nominative +CmpN/SgGenLeft !!≈ * __@CODE@__ Singular Genitive +CmpN/PlGenLeft !!≈ * __@CODE@__ Plural Genitive +Cmp !!≈ * __@CODE@__ - Dynamic compound. This tag should always be part +Cmp/Attr !!≈ * __@CODE@__ - Attributive +Cmp/SgNom !!≈ * __@CODE@__ - Singular Nominative +Cmp/SgGen !!≈ * __@CODE@__ - Singular Genitive +Cmp/PlGen !!≈ * __@CODE@__ - Plural Genitiv +Cmp/SplitR !!≈ * __@CODE@__ - This is a split compound with the other part to !! => Arbeids- = +Cmp/SplitR +Cmp/SplitL !!≈ * __@CODE@__ - This is a split compound with the other part to the left +Cmp/Sh !!≈ * __@CODE@__ - testing +Cmp/Sh +Cmp/Hyph !!≈ * __@CODE@__ - on dynamic compounds that have a hyphen +Cmp/NoHyph !!≈ * __@CODE@__ - On compounds that COULD have had a hyphen (and usually have), but doesn't +Cmp/SoftHyph !!≈ * __@CODE@__ - Tags compounds containing SOFT HYPHENS (U+00AD) +Cmp/Cit !!≈ * __@CODE@__ - Tags citation compounds, which can in principle