Fine-Tuning Open-Weight Large Language Models with Climate Science Data
Meriläinen, Henri (2025)
Meriläinen, Henri
2025
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2025121034561
https://urn.fi/URN:NBN:fi:amk-2025121034561
Tiivistelmä
Ilmastotiede turvautuu kattavaan ja monimuotoiseen dataan, mikä tekee siitä ihanteellisen aihealueen koneoppimistekniikoiden soveltamiseen. Laajat kielimallit ovat avanneet uusia mahdollisuuksia tieteellisen tiedon käsittelyyn ja oivallusten luomiseen datasta. Laajat kielimallit antavat työkaluja ilmastotutkimuksen ja ilmastoaiheiden käsittelyn parempaan ymmärtämiseen ja kommunikoinnin tueksi. CSC, opinnäytetyön toimeksiantaja, on osana Euroopan Unionin rahoittamaa Destination Earth -hanketta, jossa näitä aiheita käsitellään.
Tämän käytännönläheisen opinnäytetyön tavoitteena oli luoda mukautettu data-aineisto ilmastoaiheisista artikkeleista ja hienosäätää kaksi parametrimäärältään erikokoista laajaa kielimallia CSC:n ylläpitämää LUMI-supertietokonetta hyödyntäen. Lisäksi opinnäytetyössä verrattiin mallien tekstinluontikykyä hienosäädettyjen ja perusmallien kesken sekä erikokoisten mallien välillä. Luonnollisen kielen käsittelyn tutkimuksessa yleisesti käytettyjä mittareita hyödynnettiin määrällisten tulosten saamiseksi ja laadullista arviointia suoritettiin mukautetusta data-aineistosta satunnaisesti valitulla poiminnalla.
Data-aineiston luomiseen käytetyt ilmastoaiheiset tieteelliset artikkelit ladattiin Copernicus Publications -julkaisualustalta. Data-aineisto koostui kysymys-vastauspareista, jotka luotiin yli 60 000 artikkelista. Avointa kielimallia hyödynnettiin ensin kysymysten luomisessa kunkin artikkelin tiivistelmään pohjautuen sekä myöhemmin vastausten luomisessa. Kunkin kysymys-vastausparin vastauksen luomisen tukena käytettiin vektoritietokannasta haettua merkityksellistä tietoa kysymykseen liittyen, jotta kielimallin vastaus olisi tositietoon pohjautuvaa.
Määrällisten mittareiden tulosten perusteella mallien hienosäätämisellä oli positiivinen vaikutus suorituskykyyn. Alustava laadullinen analyysi osoitti, että hienosäädetyt mallit oppivat vastaamaan tietyllä, kokonaisista lauseista koostuvalla tyylillä. Jatkotyössä voitaisiin hienosäätää isomman parametrikoon malli optimoidummilla asetuksilla ja kattavammalla data-aineistolla parempien tulosten saavuttamiseksi. Aiemmin mainittuihin tavoitteisiin pohjautuvat lähdekoodit tallennettiin GitHub-säilöön Jupyter Notebookien ja Python-ohjelmakoodin muodossa. Climate science relies on extensive and complex data, making it an ideal field for applying advanced machine learning techniques. Large Language Models have opened new opportunities to process and summarize scientific information and generate insights of data, offering tools to enhance understanding and communication within climate research and climate-related matters. CSC, the client of this thesis, is a part of a pan-European project called Destination Earth where these topics are addressed.
The main objectives of this practical thesis were to construct a custom dataset from climate-related scientific literature, fine-tune two Large Language Models of different parameter sizes using the computational resources of the LUMI supercomputer hosted by CSC and evaluate the fine-tuned models’ generative capabilities with the corresponding base models and between the model sizes. The evaluation was performed on a test split of the custom dataset using metrics commonly applied in Natural Language Processing and machine translation research to gain quantitative results, as well as qualitative analysis of selected test samples.
The climate-related scientific articles were gathered from Copernicus Publications to create the custom dataset. It consisted of over 60 000 question-answer pairs created from the articles. More specifically, an open-source Large Language Model first generated questions based on each article’s abstract. The answers were produced with the same model by guiding the answer generation process with information retrieved from a vector store containing text embeddings of the full text articles, ensuring contextual relevance and factual grounding.
Fine-tuning had a positive impact on the quantitative metrics across both model sizes. Preliminary qualitative analysis suggests that the fine-tuned models adapted to generate answers in a similar sentence-style format as the answers in the dataset. Further work could include fine-tuning a model of larger parameter size with more optimized training configurations and a more comprehensive dataset to gain even better results. Code regarding the objectives described previously is stored in a GitHub repository in the form of Jupyter notebooks and Python scripts for reproducibility.
Tämän käytännönläheisen opinnäytetyön tavoitteena oli luoda mukautettu data-aineisto ilmastoaiheisista artikkeleista ja hienosäätää kaksi parametrimäärältään erikokoista laajaa kielimallia CSC:n ylläpitämää LUMI-supertietokonetta hyödyntäen. Lisäksi opinnäytetyössä verrattiin mallien tekstinluontikykyä hienosäädettyjen ja perusmallien kesken sekä erikokoisten mallien välillä. Luonnollisen kielen käsittelyn tutkimuksessa yleisesti käytettyjä mittareita hyödynnettiin määrällisten tulosten saamiseksi ja laadullista arviointia suoritettiin mukautetusta data-aineistosta satunnaisesti valitulla poiminnalla.
Data-aineiston luomiseen käytetyt ilmastoaiheiset tieteelliset artikkelit ladattiin Copernicus Publications -julkaisualustalta. Data-aineisto koostui kysymys-vastauspareista, jotka luotiin yli 60 000 artikkelista. Avointa kielimallia hyödynnettiin ensin kysymysten luomisessa kunkin artikkelin tiivistelmään pohjautuen sekä myöhemmin vastausten luomisessa. Kunkin kysymys-vastausparin vastauksen luomisen tukena käytettiin vektoritietokannasta haettua merkityksellistä tietoa kysymykseen liittyen, jotta kielimallin vastaus olisi tositietoon pohjautuvaa.
Määrällisten mittareiden tulosten perusteella mallien hienosäätämisellä oli positiivinen vaikutus suorituskykyyn. Alustava laadullinen analyysi osoitti, että hienosäädetyt mallit oppivat vastaamaan tietyllä, kokonaisista lauseista koostuvalla tyylillä. Jatkotyössä voitaisiin hienosäätää isomman parametrikoon malli optimoidummilla asetuksilla ja kattavammalla data-aineistolla parempien tulosten saavuttamiseksi. Aiemmin mainittuihin tavoitteisiin pohjautuvat lähdekoodit tallennettiin GitHub-säilöön Jupyter Notebookien ja Python-ohjelmakoodin muodossa.
The main objectives of this practical thesis were to construct a custom dataset from climate-related scientific literature, fine-tune two Large Language Models of different parameter sizes using the computational resources of the LUMI supercomputer hosted by CSC and evaluate the fine-tuned models’ generative capabilities with the corresponding base models and between the model sizes. The evaluation was performed on a test split of the custom dataset using metrics commonly applied in Natural Language Processing and machine translation research to gain quantitative results, as well as qualitative analysis of selected test samples.
The climate-related scientific articles were gathered from Copernicus Publications to create the custom dataset. It consisted of over 60 000 question-answer pairs created from the articles. More specifically, an open-source Large Language Model first generated questions based on each article’s abstract. The answers were produced with the same model by guiding the answer generation process with information retrieved from a vector store containing text embeddings of the full text articles, ensuring contextual relevance and factual grounding.
Fine-tuning had a positive impact on the quantitative metrics across both model sizes. Preliminary qualitative analysis suggests that the fine-tuned models adapted to generate answers in a similar sentence-style format as the answers in the dataset. Further work could include fine-tuning a model of larger parameter size with more optimized training configurations and a more comprehensive dataset to gain even better results. Code regarding the objectives described previously is stored in a GitHub repository in the form of Jupyter notebooks and Python scripts for reproducibility.
