
Openai son zamanlarda yeni yapay zeka modellerini O3 ve O4-mini tanıtmış olsa da, özellikleri tarafından beğenilmelerine rağmen eski modellerde can sıkıcı bir sorun yaşadılar.
Ayrıntılara göre, bu iki yeni modelin eğilimi gerçek dışı bilgiler önceki modellere kıyasla artmıştır. Openai testlerine göre, bu yeni modeller eski “akıl yürütme”, O1, O1-mini ve O3-mini modellerinden ve GPT-4O gibi daha geleneksel modellerden daha fazlasıdır.halüsinasyon'GÖRMEK.
En dikkat çekici olan şey, bu artışın nedeninin henüz tam olarak anlaşılmamasıdır. Openi, teknik ilişkide bu sorunun çözümü için daha fazla araştırmaya ihtiyacı olduğunu itiraf etti.
Openii in -house testlerine göre, O3 modeli insanlar hakkındaki bilgileri değerlendirir PersonQA testinde, soruların yüzde 33'ü halüsinasyona uğradı. Bu rapor, sırasıyla yüzde 16 ve yüzde 14,8 olan O1 ve O3-mini halüsinasyon oranlarının neredeyse iki katıdır. O4-mini bu alanda yüzde 48 ile daha da kötüleşti.
Benzer sonuçlar üçüncü taraf testlerinde de ortaya çıktı. Bağımsız Araştırma Laboratuvarı Clocpetce, O3'ün cevap sırasında tamamen gerçekçi olmayan süreç adımları üretme eğiliminde olduğunu ortaya koydu.
Tercüman'ın kurucularından ve Openi'nin eski çalışanlarından Neil Chowdhury'ye göre, bunlar modellerin oluşumunda kullanılan yöntemler olabilir, ancak bunları net bir nedenle dayandırmak zordur.
O3 modeli, özellikle kodlama ve matematikte bazı görevlerde başarılı sonuçlar verse de, sık sık yanlış sonuçları veya gerçek olmayan kaynaklar sunan ciddi sorunları vardır.
Öte yandan, GPT-4O, Openi'nin Simpleqa testinde yüzde 90 hassasiyeti yakalayarak hala güçlü bir alternatiftir.