مفهوم هوش مصنوعی قابل توجیه، به توانایی تشریح یک مدل هوش مصنوعی، تأثیر مورد انتظار آن و سوگیری های بالقوه اشاره دارد. هوش مصنوعی قابل توجیه، به تعیین دقت، شایستگی، شفافیت و نتایج مدل در تصمیم گیری مبتنی بر هوش مصنوعی کمک می کند. هوش مصنوعی قابل توجیه، به منظور ایجاد اعتماد و اطمینان به هنگام استقرار مدلهای هوش مصنوعی برای یک سازمان بسیار مهم است. با پیشرفت هوش مصنوعی، انسان برای درک و ردیابی نحوه رسیدن الگوریتم به یک نتیجه به چالش کشیده می شود. کل فرآیند محاسبه به یک “جعبه سیاه” تبدیل می شود که درک و تفسیر آن غیرممکن است. این مدلهای جعبه سیاه کاملاً از دادهها ساخته شدهاند. حتی مهندسان یا دانشمندان داده که الگوریتم را ایجاد کردهاند نیز قادر به درک یا تشریح آنچه در درون آن ها میگذرد یا چگونگی رسیدن الگوریتم هوش مصنوعی به یک نتیجه خاص نیستند. درک اینکه چگونه یک سیستم مجهز به هوش مصنوعی یک نتیجه خاص ایجاد می کند مزایای زیادی دارد. قابلیت توجیه میتواند به توسعهدهندگان کمک کند تا اطمینان حاصل کنند که سیستم همان گونه که انتظار میرود عمل میکند، ممکن است لازم باشد استانداردهای نظارتی رعایت شود یا به کسانی که تحت تأثیر یک تصمیم قرار گرفته اند اجازه داده شود نتیجه را به چالش کشیده یا تغییر دهند.