Extracting data and information from technical reports with AI
Ritari, Ron (2025)
Ritari, Ron
2025
All rights reserved. This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-2025112730346
https://urn.fi/URN:NBN:fi:amk-2025112730346
Tiivistelmä
Tämä opinnäytetyö tutkii Root cause analysis-raporttien tekstin poiminnan automatisointia tekoälyn avulla. Ensisijaisena tavoitteena oli poimia keskeisiä tietoja tiiviissä ja helposti saavutettavassa muodossa ilman, että käyttäjien tarvitsee avata kokonaisia raportteja, sekä visualisoida nämä Power BI:ssä asiantuntijoiden analyysiä varten.
Teoreettinen viitekehys perustuu generatiivisiin tekoälyteknologioihin, erityisesti suuriin kielimalleihin kuten GPT-4o ja Claude, ja hyödyntää kehittyneitä kehotesuunnittelutekniikoita, mukaan lukien role prompting, chain-of-thought prompting ja step-back prompting. Projekti noudattaa ketterää kehitystapaa käyttäen Pythonia, PyMuPDF:ää tekstin poimintaan, PostgreSQL:ää tietojen tallennukseen ja Power BI:tä visualisointiin. Järjestelmä integroituu myös olemassa olevaan Wärtsilän infrastruktuuriin, mukaan lukien M-Files ja Wärtsilä GPT.
Tulokset osoittavat onnistuneen tiedonpoiminnan automatisoinnin, saavuttaen alle 10 prosentin tavoitevirhemäärän. Kehitetty sovellus käsittelee tehokkaasti 10-85 sivun pituisia juurisyyanalyysi-raportteja, luoden 16 uutta datapistettä, kuten vikapäivämääriä, moottorin osia, vikatyyppejä ja opittuja asioita. Tämä automatisoitu työnkulku mahdollistaa teknisten asiantuntijoiden pääsyn strukturoituihin, tietopohjaisiin oivalluksiin suoraan interaktiivisten Power BI -näkymien kautta. This thesis explores the automation of text extraction from Root Cause Analysis reports using artificial intelligence. The primary objective was to extract key information in a concise and accessible format—without requiring users to open entire reports—and to visualise these insights in Power BI for expert analysis.
The theoretical framework is grounded in generative AI technologies, particularly large language models such as GPT-4o and Claude, and employs advanced prompt engineering techniques, including role prompting, chain-of-thought prompting, and step-back prompting. The project follows an agile development approach, utilising Python, PyMuPDF for text extraction, PostgreSQL for data storage, and Power BI for visualisation. The system also integrates with existing Wärtsilä infrastructure, including M-Files and Wärtsilä GPT.
The results demonstrate successful automation of data extraction, achieving an error rate below the 10% target threshold. The developed application efficiently processes RCA reports ranging from 10 to 85 pages, extracting 16 key data points such as failure dates, engine components, failure types, and lessons learned. This automated workflow enables technical experts to access structured, data-driven insights directly through interactive PowerBI dashboards.
Teoreettinen viitekehys perustuu generatiivisiin tekoälyteknologioihin, erityisesti suuriin kielimalleihin kuten GPT-4o ja Claude, ja hyödyntää kehittyneitä kehotesuunnittelutekniikoita, mukaan lukien role prompting, chain-of-thought prompting ja step-back prompting. Projekti noudattaa ketterää kehitystapaa käyttäen Pythonia, PyMuPDF:ää tekstin poimintaan, PostgreSQL:ää tietojen tallennukseen ja Power BI:tä visualisointiin. Järjestelmä integroituu myös olemassa olevaan Wärtsilän infrastruktuuriin, mukaan lukien M-Files ja Wärtsilä GPT.
Tulokset osoittavat onnistuneen tiedonpoiminnan automatisoinnin, saavuttaen alle 10 prosentin tavoitevirhemäärän. Kehitetty sovellus käsittelee tehokkaasti 10-85 sivun pituisia juurisyyanalyysi-raportteja, luoden 16 uutta datapistettä, kuten vikapäivämääriä, moottorin osia, vikatyyppejä ja opittuja asioita. Tämä automatisoitu työnkulku mahdollistaa teknisten asiantuntijoiden pääsyn strukturoituihin, tietopohjaisiin oivalluksiin suoraan interaktiivisten Power BI -näkymien kautta.
The theoretical framework is grounded in generative AI technologies, particularly large language models such as GPT-4o and Claude, and employs advanced prompt engineering techniques, including role prompting, chain-of-thought prompting, and step-back prompting. The project follows an agile development approach, utilising Python, PyMuPDF for text extraction, PostgreSQL for data storage, and Power BI for visualisation. The system also integrates with existing Wärtsilä infrastructure, including M-Files and Wärtsilä GPT.
The results demonstrate successful automation of data extraction, achieving an error rate below the 10% target threshold. The developed application efficiently processes RCA reports ranging from 10 to 85 pages, extracting 16 key data points such as failure dates, engine components, failure types, and lessons learned. This automated workflow enables technical experts to access structured, data-driven insights directly through interactive PowerBI dashboards.