This is an old revision of the document!


    

A naive empiricism

regarding the syntax of the forest, limited by feature structures in a unification based grammar, trying to find its semantics.

naiv eksperimentell empiri angående skogens syntax, begrenset av trekkstrukturer i en unifikasjonsbasert grammatikk, i et forsøk på å fravriste dens semantikk

Formålet med dette prosjektet er å forsøke å forstå skogens naturlige språk. Filosofen E. Searle skrev en gang at hva som helst kan brukes for å uttrykke et språk, og jeg har nå til hensikt å påvise skogens fysiske språk. Jeg vil gjerne presentere en naiv eksperimentell empiri i form av en video, og noen modeller for hvordan skogen kan forståes gjennom lingvistiske analyser. Ved å bruke resultatene av hva jeg finner i videoen skal det være mulig å enten gjøre en fonologisk analyse for deretter å la en datamaskin generere tale fra oversatte fonemer, eller å gjøre en syntaktisk analyse for deretter å få skrevet ut oversatte setninger.

Om naturen og dens systemer

Selve grammatikken må baseres på et slags system, og jeg kan se for meg to forskjellige fremgangsmåter som kan brukes hver for seg eller i kombinasjon. Den biologiske systematikken ser ut til å egne seg best til klassifisering og statistiske analyser i språkets pragmatikk, mens den økologiske sannsynligvis vil si mer om syntaktiske og/eller fonologiske strukturer.

Biologisk systematikk

Den biologiske systematikken klassifiserer planter etter artssamhørighet (eg. genetikk). Fordelen med dette systemet er at det finnes et nokså velutviklet system man kan bruke som kan gi en nokså direkte oversettelse til grammatikken. En viktig ulempe er at systematikken ikke er helt koherent med henhold til de faktiske artssammenhengene. Faktisk så omtales enkelte artsgrupper som naturlige- og andre som kunstige grupper, de kunstige gruppene står fortsatt av historiske grunner, og mangler begrunnelse i moderne forskning. Og det finnes, som alltid innen vitenskapen, konkurrerende hypoteser om slektskap, som illustrert under:

Dette vil naturligvis skape et problem for tolkningen av naturlige språk, og kunne føre til «støy» i oversettelsen. Men det kan være verdt å gjøre et forsøk, for å se om fremgangsmåten kan lede i riktig retning, og om fremtidige forbedringer kanskje kan lede mot en korrekt grammatikk.

Under kan man se de tre første lagene i systematikken for landplanter:

LANDPLANTER - Embryophyta [Plantae]
Karplanter
Tracheophyta
Tracheobionta
Moser - Bryophyta (kunstig gruppe)
Bladmoser
Bryopsida
[Bryophyta
Musci
Bryatae]
Levermoser
Marchantiophyta
[Hepaticae
Hepaticopsida
Hepaticophyta]
Nålkapselmoser
Anthocerotales
Anthocerotopsida
Anthocerotophyta
[Anthocerotae]
blomsterplanter
egentlige bregner
kråkefotplanter
Marattiaceae
ormetungebregner
Psilotaceae
sneller
Archidium
Buxbaumia
Egentlige bladmoser
Polytrichaceae
sotmoser
Takakia
Tetraphidaceae
torvmoser
Haplomitriopsida
Jungermanniopsida
Marchantiopsida
Anthoceros
Dendroceros
Folioceros
Leiosporoceos
Megaceros
Mesoceros
Notothylas
Phaeoceros
Spaerosporoceros

Tabellen over viser nåværende planter og deres familieforhold. En slik tabell gir ikke noen nyttig informasjon om forhold på tvers av artene, men i systematikken brukes i tillegg en struktur som kalles 'livets tre', som viser utviklingslinjene til de forskjellige artene og kan forsyne oss med en slags etymologi for bruk i den semantiske analysen.

Skogens økologiske relasjoner

Den andre metoden vil basere seg på hvilke planter som liker seg sammen, hva slags habitat og biotoper de foretrekker, og hvordan de utvikler seg i forhold til hverandre i et økosystem. For eksempel vet vi at det er noen typer planter som liker seg i fuktige områder, noen vil ha mye lys, enkelte planter trenger andre planter for å overleve, og i noen tilfeller vil planter fordrive andre planter. For eksempel vil en åker som overlates til seg selv overgros av markblomster, deretter vil løvtrærne dominere, før mose og barskog tar over. Fordelen med dette systemet er at det ser ut til å beskrive en naturlig kommunikasjonsform for naturen, slik vi kan observere den gang på gang. En ulempe er at dette systemet må bestå av kompliserte modeller fra flere vitenskaper, og at det vil bli vanskeligere å modellere på en hensiktsmessig måte.

Man kan si at de to forskjellige metodene tar for seg henholdsvis et sakte språk (evolusjonen) og et raskere språk (relasjonene). Kanskje er de to deler av det samme språket i det at naturen kommuniserer i en annen tidsramme enn oss mennesker, eller kanskje det er to parallelle språk. Kun ved en systematisk tilnærming vil vi kunne få svar på disse spørsmålene, og for å kunne gjøre dette vil jeg bruke noen verktøy fra datalingvistikken.

En kort beskrivelse av verktøyene

Trekkstrukturer og unifikasjonsgrammatikker er verktøy som brukes i datalingvistikken for å modellere naturlige språk. Unifikasjonsgrammatikken er basert på settteori, og består av en algoritme som analyserer eller genererer setninger i forhold til en grammatikk og en ordliste som beskriver det aktuelle språket. Trekkstrukturene er beskrivelser av de forskjellige ordene og de forskjellige grammatiske kategoriene, og hvilke krav de setter til konteksten de opptrer i. De fremprovoserte frasene i videoen er basert på observasjoner av hvordan skogen selv former seg, og grammatikken vil bli basert på disse observasjonene.

Grammatikker presenteres i datamaskiner i grafer eller trestrukturer som forsøksvis modelleres slik at de vil bli lingvistisk interessante for analyse. Datalingvistikken vil dog alltid være et kompromiss mellom lingvistisk analyse og effektiv dataprosessering, og da det er oppdagelsen av et ukjent språk som er målet her, vil vi i denne sammenhengen forsøksvis helle mot den lingvistiske analysen, men det vil gjøre at jeg må begrense datamengden for å få noe nytte av eksperimentet. Jeg har derfor valgt å bruke unifikasjonsalgoritmer for å modellere trekkstrukturer.

Et syntakstre for en enkel setning på norsk kan se slik ut:

Denne strukturen følger de ganske enkle reglene at:

	Setning	->	Subjekt 	+	 Verb.frase
	Verbfrase	->	Verb		+	Objekt
	Subjekt	->	Vi
	Verb		->	hopper
	Objekt		->	strikk
Hvis vi nå skal forsøke oss på den litt mer kompliserte setningen: 'Vi hoppet strikk i går', så vil vi trenge noen nye regler:
	Verbfrase	->	Verb	+	Objekt		+	Adverbial
	Verb		->	hoppet
	Adverbial	->	i går
Men her har vi brått et problem: hvilket verb skal nå velges? Hopper eller hoppet? Vi som har norsk som morsmål har fått dette inn i blodet, men en datamaskin som bare forstår nuller og enere trenger litt mer hjelp. Derfor innfører vi trekkstrukturer som kan holde på informasjon om forskjellige trekk ved ordene. For eksempel at 'i går' er i fortid, og at 'hoppet' er et verb i fortid. Slike 'trekk' er det trekkstrukturene skal holde rede på. Eksempel på trekkstruktur:

Den samme mekanismen kan dermed brukes for å holde rede på forskjellige trekk ved planter, for eksempel hvor mye lys de trenger, om de liker seg i myrer, eller heller oppe i et grantre, og om hvilke andre planter som kan forventes å finnes i nærheten, eller hva som er deres genetiske relasjoner til de andre plantene i nærheten.

Ved å kombinere moderne biologisk systematikk med eldre systemer som f.eks Linné sitt sexualsystem eller andre former for fysisk klassifisering (eg. økologi) vil vi kunne kombinere pragmatikken og semantikken (systematikk) med fonologiske og syntaktiske analyser (økologi), og dermed komme frem til en komplett beskrivelse av skogens naturlige språk.

 
 
 
 
 
 
the.systematics.of.lingvistics.1228883101.txt.gz · Last modified: 2010/02/08 13:57 (external edit)