Advanced prompt engineering: Systematic approaches to enhance LLM performance
Huttula, Arttu (2025)
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2025061823320
https://urn.fi/URN:NBN:fi:amk-2025061823320
Tiivistelmä
Kehotteiden suunnittelun yhteydessä tutkittiin strukturoitua lähestymistapaa suurten kielimallien (LLM) tuottamien vastausten luotettavuuden, semanttisen laadun ja johdonmukaisuuden parantamiseksi. Tutkimuksessa kehitettiin ja arvioitiin systemaattinen kehotteiden optimointikehys, jonka tavoitteena oli vastata nykykäytäntöjen keskeisiin haasteisiin, kuten epäjohdonmukaisiin mallivastauksiin, toistettavien kehotestrategioiden puutteeseen ja arviointikriteerien standardoinnin puutteeseen. Tutkimus toteutettiin Design Science Research (DSR) metodologian mukaisesti, joka mahdollisti kehotestrategioiden iteratiivisen kehittämisen ja empiirisen arvioinnin. Neljää kehotetyyppiä – nollanäyteoppiminen, vähänäyteoppiminen, ajatusketju ja rakenteinen kehote – sovellettiin kolmeen luonnollisen kielen käsittelyn (NLP) tehtävään: tiivistäminen, mielipiteenluokittelu ja parafraasien tuottaminen. Kontrolloidut kokeet suoritettiin OpenAI:n GPT-3.5-turbo ja GPT-4o malleilla. Yhteensä tuotettiin 761 vastausta, jotka arvioitiin automatisoiduilla mittareilla (BLEU, ROUGE-L ja METEOR). Tulokset osoittivat, että rakenteinen kehote tuotti johdonmukaisesti parempia tuloksia semanttisen laadun ja merkkitehokkuuden osalta verrattuna muihin strategioihin. METEOR-mittari osoittautui herkimmäksi ja erottelevimmaksi arviointityökaluksi. Lisäksi tutkimuksessa tarkasteltiin kehotteiden suunnittelun eettisiä ulottuvuuksia, kuten vinoumia, hallusinaatioita ja kehoteinjektion riskejä. Havaittiin, että kehot-teen muotoilu vaikuttaa suoraan oikeudenmukaisuuteen, tulkittavuuteen ja vastausten turvallisuuteen. Tutkimuksen tulokset tukevat johtopäätöstä, että kehotteiden suunnittelu on siirtymässä kokeellisesta, ad hoc -lähestymistavasta kohti metodologialähtöistä tieteenalaa, jossa systemaattinen kehotteiden rakentaminen ja arviointi ovat keskeisiä keinoja ohjata kielimallien toimintaa ja varmistaa laadukkaat tekoäly vastaukset eri NLP-tehtävissä. A structured approach to prompt engineering was investigated to enhance the reliability, semantic quality, and consistency of outputs generated by large language models (LLMs). The study focused on designing and evaluating a systematic prompt optimization framework to address key challenges in current practices, such as inconsistent output behaviour, lack of repeatable prompting strategies and the absence of standardized evaluation metrics. The research was grounded in the Design Science Research (DSR) methodology, enabling iterative development and empirical assessment of prompt strategies. Four prompting techniques – zero-shot, few-shot, chain-of-thought, and structured prompting – were applied across three natural language pro-cessing (NLP) tasks: summarization, sentiment classification, and paraphrasing. Controlled experiments were conducted using OpenAI’s GPT-3.5-turbo and GPT-4o models. A total of 761 outputs were generated and evaluated using automated metrics, including BLEU, ROUGE-L and METEOR. Findings revealed that structured prompts consistently outperformed alternative strategies in terms of semantic coherence and token efficiency. METEOR was identified as the most sensitive and discriminative metric across tasks. Beyond performance, the study explored the ethical implications of prompt design, including issues of bias, hallucinations and prompt injection risks. It was observed that prompt phrasing has a direct impact on fairness, interpretability and output safety. The results support the conclusion that prompt engineering is transitioning from an experimental, ad hoc technique into a methodology-driven discipline. Systematic prompt construction and evaluation are essential for guiding LLM behaviour, improving reproducibility and reliable AI-generated content across di-verse NLP applications.