Benchmarking the large language models with algorithm style coding questions

Similä, Ville

Benchmarking the large language models with algorithm style coding questions

Similä, Ville (2024)

Avaa tiedosto

Simila_Ville.pdf (457.8Kt)

Lataukset:

Similä, Ville

2024

Näytä kaikki kuvailutiedot

Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-202503073837

Tiivistelmä

Opinnäytetyön tarkoituksena on arvioida tämän hetken suurten kielimallien kykyjä sekä valmiuksia ratkoa ohjeloinnissa esiintyviä ongelmia, ja verrata kielimallien suoriutumista toisiaan vastaan. Tavoitteena on vertailla ja arvioida suosittuja käytössä olevia malleja niiden kyvyssä ymmärtää ja ratkaista ongelmia, sekä tuottaa koodia ratkaisuna näihin ongelmiin.

Tutkimuksessa käytetään kvantitatiivisen analyysia sekä sen mahdollistavaa kehittämistyötä. Analyysin mittareina toimivat koodin tarkkuus, kyky korjata virheitä, sekä koodin tehokkuus. Keskeiset havainnot paljastavat, että mallien suorityskyvyissä näillä metriikoilla on suuria eroja. Tulokset viittaisivat siihen, että vaikka kielimallit tarjoavat tehokaan avun ohjelmoinnissa, eivät ne vielä pysty korvaamaan ammattitasoista kehittäjää. Sen sijaan niitä kannattaakin hyödyntää työkaluna sekä osana työprosessia.

Tulokset siitä, mitkä mallit näillä mittareilla suoriutuivat parhaiten ovat korkeintaan suuntaa-antavia. Jos näitä malleja haluaa vertailla, kannattaa otantaa parantaa lisäämällä ratkaistavia ongelmia, suorittamalla testit useamman kerran sekä käyttämällä testeissä useita erilaisia malleja.

The purpose of this thesis is to evaluate and assess the capabilities of the current Large Language Models in generating software, and especially how they perform against each other in this regard. The project aims to benchmark and evaluate popular language models in their ability to understand problem statements and produce accurate, correct code and learn from their mistakes when presented with such.

The research employes a combination of quantative analysis and development that enables it. Metrics for the analysis include code accuracy, capability to correct errors and efficiency in code. Key findings reveal vast variability in performance between the models. The findings suggest that while these tools offer powerful aid in programming, they are not yet able to replace professional developers. Instead, they’re best utilized as a part of the development process.

The exact results of which models performed the best with these metrics are indicative at best. If the need to benchmark these models arises, it’s best to improve sample size by adding more problems to solve, running the tests multiple times, and test a wide variety of models.

Kokoelmat

Opinnäytetyöt (Avoin kokoelma)