Fine-tuning Large Language Models for Code Documentation : generating Code Documentation with AI

Kauhanen, Minna

Fine-tuning Large Language Models for Code Documentation : generating Code Documentation with AI

Kauhanen, Minna (2025)

Avaa tiedosto

Kauhanen_Minna.pdf (1.704Mt)

Lataukset:

Kauhanen, Minna

2025

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2025052013773

Tiivistelmä

Tavoitteena oli selvittää, voiko suuren kielimallin (LLM) hienosäätö yritys- ja toimialakohtaisella datalla parantaa lähdekoodista automaattisesti tuotettavan kuvauksen laatua. Vaikka OpenAI:n GPT:n kaltaisia malleja on ehdotettu tällaisiin tehtäviin, niiden hyödyllisyys on rajoittunut erityisesti kontekstuaalisen ymmärryksen ja toimialatiedon puutteeseen.
Tätä haastetta lähestyttiin käytännön kokeella Microsoft Azure OpenAI:n avulla. Sekä valittua perusmallia että sen hienosäädettyä versiota käytettiin saman organisaation lähdekoodikatkelman dokumentoinnissa. Hienosäätö tehtiin vain 50 huolellisesti valitun esimerkin avulla, jotka sisälsivät koodia ja siihen liittyvän kuvauksen. Tuloksia arvioi toimialan ja järjestelmän asiantuntija ulkoasun, tarkkuuden ja olennaisuuden perusteella.
Tulokset osoittivat, että jo vähäinenkin hienosäätö paransi huomattavasti dokumentaation selkeyttä ja relevanssia verrattuna perusmalliin. Perusmalli tuotti hyvin jäsennellyn mutta pinnallisen kuvauksen, kun taas hienosäädetty malli antoi yksityiskohtaisempia ja oivaltavampia selityksiä, jotka vastasivat paremmin organisaation tarpeita – satunnaisista virheistä huolimatta.
Pelkkä hienosäätö ei kuitenkaan ratkaissut mallin rajallista kontekstuaalista ymmärrystä, mikä näkyi erityisesti vaikeuksina tulkita muuttujia, joita käytettiin useissa funktioissa mallin koulutusaineiston ulkopuolella. Tehokkaampi lähestymistapa voisi yhdistää hienosäädön muihin menetelmiin, kuten Retrieval-Augmented Generation (RAG) -tekniikkaan, jossa mallille tarjotaan koko koodipohja, josta se voi hakea tarvittavaa tietoa dokumentointia varten.
Vaikka dokumentaation täysi automatisointi on edelleen haastavaa, hienosäädetyt kielimallit voivat jo nyt tukea laadukkaamman dokumentaation tuottamista. Mallien hyödyllisyyttä voi edelleen parantaa ihmisen tekemällä tarkastuksella sekä hyvillä koodauskäytännöillä – kuten selkeällä nimeämisellä ja informatiivisilla kommenteilla.

The goal of this work was to explore whether fine-tuning a Large Language Model (LLM) with domain-specific data can improve the quality of automatically generated description of source code. While LLMs like OpenAI’s GPT have been proposed as tools for such tasks, their usefulness has been limited by a lack of contextual understanding and domain knowledge.
To address this, a practical experiment was conducted using Microsoft Azure OpenAI. A base model and its fine-tuned version were both used to generate documentation for the same organizational source code snippet. Fine-tuning was performed using only 50 curated examples containing code and matching documentation. The generated outputs were evaluated by a domain expert for design, accuracy, and relevance.
Results showed that even minimal fine-tuning notably improved the relevance and clarity of the generated documentation compared to the base model. The base model provided well-structured but superficial description, while the fine-tuned model produced more detailed and insightful explanations better aligned with organizational needs – despite occasional errors.
However, fine-tuning alone did not overcome the model’s limited contextual awareness, particularly in interpreting variables used across multiple functions outside its training scope. A more effective solution would combine fine-tuning with approaches such as Retrieval-Augmented Generation (RAG), where the full source code could be provided to the model, enabling it to retrieve relevant information from this databank during the generation process.
While full automation of documentation remains challenging, fine-tuned LLMs can already assist in improving documentation quality. Continued human oversight and good coding practices – such as meaningful naming and informative comments – further enhance the model’s ability to produce useful output.

Kokoelmat

Opinnäytetyöt (Avoin kokoelma)