29 Discussion
EK:
patologların genelinde non AI de malign dışı (şüpheli, IHC istenen, konsülte edilmek istenen) vakaların büyük kısmı AI sonrası benign tanı aldığı, küçük bir kısımının malign tanısı aldığı görüldü. Bu patologların sensitivitesinin AI ya göre daha yüksek olduğunu gösterebilir (??)
Non AI de malign düşünülen vakaların AI ile malign düşünülen vakalar ile büyük oranda uyumlu olduğu görüldü.
Genel olarak Non AI de benign olan vakaların tanı konma süresinin, AI ile tanı koyma süresinden daha fazla olduğu görülebilir. Tam tersi bir şekilde malign vakaların AI ile tanı koyma süresi non AI ye göre daha fazla olabileceği görülebilir (en azından benim tecrübem öyle). Bunun nedeni olarak patologun verdiği tanı ile AI nın tümör hakkındaki yorumunun patolog tarafından yeniden değerlendirme olduğunu düşündüm.
Tanı verme süresinde AI ile Non AI arasında büyük farklılıklar olup olmadığı konusu tartışmalı gibi duruyor. Bazı patologlar AI nın tanı verme süresini artırdığını bazıları ise azalttığını düşünüyor. Ortak fikir birliği olan husus ise AI ile çalışma süresi arttıkça sisteme alışacaklarını ve tanı verme süresini azaltacağını düşünüyorlar.
Patologlar genel olarak AI nın tanı verme sürecinde işe yaradığını / yarayacağını (tanı verme süresini kısaltması, daha doğru tanı konulmasına yardımcı olması) düşünüyor.
AI hakkındaki yorumlarım:
- malign vakalarda, kafamdaki tanı ile AI tanısını karşılaştırdığım içim tanı verme sürem non AI ya göre daha uzun oluyor.
- PNI olarak işaretlenen alanlarda PNI olmaması hiç de az rastlanan bir durum değil.
- tm olarak verilen oranların tm olarak işaretlenen alanlara bakınca uyumsuz olduğu birçok vaka var.
- tm grade lerinde AI ile benim uyumsuz düşündüğüm epeyce vaka oldu, ama vaka da genel olarak uyum varsa bunları görmezden geldiğim durumlar oldu.
- Tümörün bütününün işaretlendiği alanlar ile tm gradelerinin ayrı ayrı işaretlendiği gösterim arasında uyumusuzluk olan çok vaka gördüm.
- AI nın malign düşünüp benim malign düşünmediğim vaka sayısı çok az. Yani spesifitesi yüksek, sensitivitesi nispeten düşük geldi bana.
- Tm oranında non AI ile AI arasında uyumsuzluk fazla gibi geliyor bana.
- Burada tartışılacak konulardan bir tanesi uyumluluk değerlendirmesi yaptığımız kriterlerin sayısının fazla olması. Yani AI nın bana gerçekten yardırmcı olması için tüm kriterlerde uyumluluğun çok büyük olması lazım. Hem grade, hem tümör oranları, hem PNI varlığının tutarlı bir şekilde destek olması gerekiyor.
DB:
Bana göre AI’nın en büyük faydalarından biri; benign düşündüğüm ama tam da kendimi güvende hissetmediğim bazı vakalarda AI’yı 2. görüş gibi kabul edip immun istemeden benign diyebilmemdi. İmmun isteyip malignitesine ikna olabileceğim nadir vakada da AI’nın malign tümör tanısına güvenip immun istemedim. İmmun ihtiyacını azaltabilir. Bunun yanında benign düşündüğüm bazı vakalarda, kafa karışıklığı yaratıp immunhistokimya isteği oluşturduğu da oldu. Sınırlı alanda tümör içeren biyopsilerde tümörü kaçırma olasılığını düşürebilir, 1 vakada sanırım AI sayesinde, küçük bir tümörü ve 1 vakada da perinöral invazyonu atlamamışım. Bazılarında da kesinlikle tümör olmamasına rağmen tümör tanısı verdiği de oldu. (bu vakalara bence tekrar birkaç göz bakmalı) Tanıya yardımcı olduğu vakalarda yine de immuunhistokimyasız malign diyemedim, yani bu vakalar zaten tanısı zor belki de malign olmayan vakalardı. ( Diğer patologlarda da benzer durum varsa bunlara immunle ya da expert patologla bakmak gerekir belki)
Kullanırken en rahatsız olduğum yönü çok fazla yanlış perinöral invazyon şüphesi koymasıydı. Bir çok vakada nereye perinöral invazyon düşündüğünü tespit edebilmek için çok vakit harcadım. Bunun yanında az da olsa perinöral invazyonu atladığı vakalar da oldu.
Değerlendirme süresini uzatma nedenlerinden bir diğeri de Gleason derecelendirme farklarımızdı. AI’nın benden farklı derecelendirdiği alanlar, bana göre, tespit ettiği derece ile genellikle uyumlu değildi.
Çalışmanın 2. fazının başında kendi değerlendirmemi yaptıktan sonra AI’ya baktım. Bunun gereksiz vakit aldığını düşünüp çalışmanın yarısından sonra önce AI tanısına bakıp, birlikte değerlendirme yaptım. Bunun hızımı arttırdığını düşünüyorum ana yukarıda belirttiğim yavaşlatma durumları halen geçerli. Tümörü atladığı vaka sayısı çok nadir. Tümör alanlarını işaretleme doğruluğu, az sayıda vaka dışında genel olarak tutarlı sayılabilirdi.
Juan:
This is great! I think the paper is well designed, and loved the statistics and accompanying graphics. I look forward to the Gleason and PNI results!
I would perhaps also comment on the discussion on these topics:
- Effect of AI in IHC ordering
- Effect of AI in requesting second opinions
- Whether there are any differences in sensitivity among pathologists who took longer time to diagnosis.
- Does the lack of familiarity with the Paige platform (Vs Sectra) may have an impact on time? In other words, does using two separate platforms erode efficiency?
Overall, great work and very solid results, congratulations! Please let me know when the manuscript is ready for review, happy to contribute as much as we can.
29.0.1 Automation Bias and AI Errors
The interaction between pathologists and AI tools introduces the risk of “automation bias,” where clinicians may over-rely on AI predictions or change their correct diagnoses to match an incorrect AI result. Evans and Snead (2023) highlight that while AI can improve efficiency, it can also lead to errors if pathologists treat AI output as infallible (Evans and Snead (2023)). In our study, while AI successfully acted as a “safety net” by identifying missed minute cancers, we also observed instances where AI might have influenced pathologists in equivocal cases. Furthermore, the presence of artifacts (blurred images, processing issues) in 7 cases that led to initial discordance underscores the “unsafe failure mode” described by Evans and Snead, where AI continues to make predictions on poor-quality data instead of flagging it as non-evaluable. This suggests a need for robust quality control mechanisms and “explainability” tools (like heatmaps, which Paige provides) to help pathologists understand the source of AI predictions and avoid automation bias.
29.0.2 Beyond Diagnosis: Prognostic Potential
While this study focused on the diagnostic accuracy and efficiency of AI in detecting prostate cancer, the potential of AI extends significantly into prognostic stratification and personalized treatment planning. Esteva et al. (2022) and Spratt et al. (2023) demonstrated this by developing multimodal AI models using digital pathology images to predict long-term outcomes and identify patients who would benefit from androgen deprivation therapy (ADT) (Esteva et al. (2022), Spratt et al. (2023)). This suggests that the integration of AI tools like Paige Prostate not only streamlines the diagnostic workflow but may effectively pave the way for AI-driven precision medicine, where pathology slides provide deep insights into treatment response beyond standard Gleason grading.
MO:
Murat Oktay :
-Ben Faz2 çalışmaya geç başladığım için diğer arkadaşlarını zorlandığı konuları öğrenip başladım , algoritmayı çalıştırıp sonra değerlendirdim -Benign vakalarda süreyi kısaltıyor; arada kalınan şüpheli durumlarda destek oluyor , immunhistokimya ve ikinci görüş ihtiyacını azaltabileceğini düşünüyorum
-Malign vakalarda ise gradeleme ve tümör yüzdesi konusunda Uyumsuz düşündüğüm zaman tekrar bakıp değerlendirme ihtiyacı oluşturabiliyor, süreyi uzatabiliyor.
-Yine perinoral invazyon konusunda Algoritma ile Uyumsuz düşündüğüm durumlarda tekrar bakma ihtiyacı oluşturuyor
-perinöral invazyon ekranı farklı bir ekran olduğu için o ekrana tekrar inceleme ihtiyacı olabiliyor.
- Sürenin uzadığı örnekleri ve perinöral invazyon değerlendirimesini nedeniyle olabileceğini düşünüyorum
-malign vakalarda da arada kalan durumlarda ikinci görüş ihtiyacını azaltabiliyor
genel olarak grade konusunda Uyumsuzluk genelde skor 5 de . benden daha yüksek skor verdiğini düşünüyorum.
-tümörlü alan yüzdesi verirken işaretlediği alanlarda uyumsuzluk olabiliyor. bağ dokuyu tümörü olarak işaretleyebiliyor.
29.1 Articles
- Artificial Intelligence for Diagnosis and Gleason Grading of Prostate Cancer in Biopsies—Current Status and Next Steps Kartasalo et al. (2021) PDF
- Novel artificial intelligence system increases the detection of prostate cancer in whole slide images of core needle biopsies Raciti et al. (2020) PDF
- Clinical Validation of Artificial Intelligence–Augmented Pathology Diagnosis Demonstrates Significant Gains in Diagnostic Accuracy in Prostate Cancer Detection Raciti et al. (2023) PDF
- CONFIDENT-trial protocol: a pragmatic template for clinical implementation of artificial intelligence assistance in pathology Flach et al. (2023) PDF
- Automated quality assessment of large digitised histology cohorts by artifcial intelligence Haghighat et al. (2022) PDF
- An independent assessment of an artificial intelligence system for prostate cancer detection shows strong diagnostic accuracy Perincheri et al. (2021) PDF
- Artificial intelligence for diagnosis and Gleason grading of prostate cancer: the PANDA challenge Bulten et al. (2022)
- An audit of inter-observer variability in Gleason grading of prostate cancer biopsies: The experience of central pathology review in the North West of England Salmo (2015)
- Key Findings:
- Inter-observer agreement (Kappa) was 0.666 (substantial) for Gleason score.
- 72% total agreement; 95% within +/- 1 score.
- Major discrepancies (risk group change) occurred in 87% of discordant cases.
- Downgrading (75%) was more common than upgrading (25%) upon central review.
- Relevance: Provides a benchmark for non-AI inter-observer agreement (~0.67) and highlights the tendency for general pathologists to over-grade (resulting in downgrading by experts). Our study’s improvement to ~0.88 with AI suggests AI helps bridge this gap.
- Key Findings:
- Artificial intelligence–assisted cancer diagnosis improves the efficiency of pathologists in prostatic biopsies Eloy et al. (2023)
- Key Findings:
- Study of 105 core needle biopsies (39 cancer, 66 benign) with 4 pathologists.
- Efficiency: Median reporting time decreased by ~20% with AI (from 139s to 108.5s).
- Resource Use: IHC requests dropped by ~20% and second opinions by ~40%.
- ASAP reduction: Diagnoses of “Atypical Small Acinar Proliferation” (ASAP) decreased by ~30%, indicating higher confidence.
- Agreement: Total agreement with AI was higher for benign cases (~90%) than cancer cases (~30%), often due to disagreements on Gleason grading or tumor size >15mm.
- Accuracy: Diagnostic accuracy remained high (~95%) in both phases.
- Relevance: Supports our findings on AI’s potential to reduce ancillary testing (IHC) and consultations. The discrepancy in “agreement with AI” for cancer cases mirrors our experience where pathologists may disagree with AI’s specific grading or extent, even if the detection is correct.
- Key Findings:
The PaigeProstate was found to be helpful for prostate tru-cut biopsy interpretation. Processing and scanning artifacts cause errors, thus the images should be checked for quality before AI application. AI also found minute tumors that were missed by pathologists, but these had no impact on patient management since the other cores of the same case also contained tumor.