Regresión lineal con datos censurados
Loading...
Identifiers
Publication date
Authors
Advisors
Tutors
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
[GL] Os datos censurados son bastante habituais no contexto da Análise de Supervivencia, que é unha parte da Estatística que se centra en modelizar o tempo que transcorre
ata que ocorre un determinado suceso. Un exemplo notable desta situación é o tempo de
vida dunha certa enfermidade que se pode definir como o tempo que pasa dende o comezo dun experimento ata que ocorre un determinado suceso de interese que chamaremos
morte ou fracaso (falecemento do/da doente, fin do estudo, perda de información sobre
o/a doente,...). Polo tanto, o fenómeno da censura xorde cando existe unha limitación na
información que temos sobre as variables de interese dun determinado modelo posto que a
partir dun certo intre non podemos observalas.
Neste traballo estudaremos as propiedades teóricas dos diferentes métodos que se
empregan para estimar os parámetros asociados a un modelo de regresión no caso de de
que a variable resposta sexa censurada pola dereita. Empregaremos modelos de regresión
lineais simples para intentar explicar a relación dun par de variables e observaremos como
non se poden empregar os mesmos métodos que para o caso de datos completos.
Unha vez expostos os diferentes métodos, compararemos estes estimadores mediante
un estudo de simulación empregando o método de Monte Carlo para comprobar que método
nos proporciona mellores resultados. Para medir a calidade dos diferentes estimadores
dispoñibles na literatura empregaremos o erro cadrático medio.
Finalmente, para rematar este TFG, realizaremos unha aplicación a datos reais que
nos permitirá ilustrar o comportamento na práctica dos diferentes métodos estudados ao
longo deste traballo. Tanto o estudo de simulación como a aplicación a datos reais levaranse
a cabo empregando o software estatístico libre R
[ES] Los datos censurados son bastante habituales en el contexto de la Análisis de Supervivencia, que es una parte da Estadística que se centra en modelar el tiempo que transcurre hasta que ocurre un determinado suceso. Un ejemplo notable de esta situación es el tiempo de vida de una cierta enfermedad que se puede definir como el tiempo que pasa desde el comienzo de un experimento hasta que ocurre un determinado suceso de interés que llamaremos muerte o fracaso (fallecimiento del o de la paciente, fin del estudio, pérdida de la información sobre el/la paciente, ...). Por tanto, el fenómeno de censura aparece cuando existe una limitación en la información que tenemos sobre las variables de interés de un determinado modelo puesto que a partir de un cierto momento no podemos observarlas. En este trabajo estudiaremos las propiedades teóricas de los diferentes métodos que se utilizan para estimar los parámetros asociados a un modelo de regresión en el caso de que la variable respuesta sea censurada por la derecha. Utilizaremos modelos de regresión lineales simples para intentar explicar la relación de un par de variables y observaremos cómo no se pueden utilizar los mismos métodos que para el caso de datos completos. Una vez expuestos los diferentes métodos, compararemos estos estimadores mediante un estudio de simulación utilizando el método de Monte Carlo para comprobar qué método nos proporciona mejores resultados. Para medir la calidad de los diferentes estimadores disponibles en la literatura utilizaremos el error cuadrático medio. Finalmente, para acabar este TFG, realizaremos una aplicación a datos reales que nos permitirá ilustrar el comportamiento en la práctica de los diferentes métodos estudiados a lo largo de este trabajo. Tanto el estudio de simulación como la aplicación a datos reales se llevará a cabo utilizando el software estadístico libre R
[EN] Censored data is quite common in the context of Survival Analysis, which is a part of Statistics that focuses on modeling the time that passes until a certain event occurs. A notable example of this situation is the life time of a certain disease that can be defined as the time that passes from the beginning of an experiment until a certain event of interest occurs that we will call death or failure (death of the patient, end of the study, loss of information about the patient, ... ). Therefore, the phenomenon of censorship appears when there is a limitation on the information that we have on the variables of interest of a certain model since, from a certain moment, we can not observe them. In this work we will study the theoretical properties of the different methods that are used to estimate the parameters associated with a regression model in the case that the response variable is right censored. We will use simple linear regression models to try to explain the relationship of a pair of variables and we will observe how the same methods can not be used as for the case of complete data. Once the different methods are presented, we will compare these estimators through a simulation study using the Monte Carlo method to check which method gives us better results. To measure the quality of the different estimators available in the literature, we will use the mean square error. Finally, we will perform a real data application that will allow us to illustrate the behavior in practice of the different methods studied throughout this work. Both the simulation study and the real data application to will be carried out using the statistical software R
[ES] Los datos censurados son bastante habituales en el contexto de la Análisis de Supervivencia, que es una parte da Estadística que se centra en modelar el tiempo que transcurre hasta que ocurre un determinado suceso. Un ejemplo notable de esta situación es el tiempo de vida de una cierta enfermedad que se puede definir como el tiempo que pasa desde el comienzo de un experimento hasta que ocurre un determinado suceso de interés que llamaremos muerte o fracaso (fallecimiento del o de la paciente, fin del estudio, pérdida de la información sobre el/la paciente, ...). Por tanto, el fenómeno de censura aparece cuando existe una limitación en la información que tenemos sobre las variables de interés de un determinado modelo puesto que a partir de un cierto momento no podemos observarlas. En este trabajo estudiaremos las propiedades teóricas de los diferentes métodos que se utilizan para estimar los parámetros asociados a un modelo de regresión en el caso de que la variable respuesta sea censurada por la derecha. Utilizaremos modelos de regresión lineales simples para intentar explicar la relación de un par de variables y observaremos cómo no se pueden utilizar los mismos métodos que para el caso de datos completos. Una vez expuestos los diferentes métodos, compararemos estos estimadores mediante un estudio de simulación utilizando el método de Monte Carlo para comprobar qué método nos proporciona mejores resultados. Para medir la calidad de los diferentes estimadores disponibles en la literatura utilizaremos el error cuadrático medio. Finalmente, para acabar este TFG, realizaremos una aplicación a datos reales que nos permitirá ilustrar el comportamiento en la práctica de los diferentes métodos estudiados a lo largo de este trabajo. Tanto el estudio de simulación como la aplicación a datos reales se llevará a cabo utilizando el software estadístico libre R
[EN] Censored data is quite common in the context of Survival Analysis, which is a part of Statistics that focuses on modeling the time that passes until a certain event occurs. A notable example of this situation is the life time of a certain disease that can be defined as the time that passes from the beginning of an experiment until a certain event of interest occurs that we will call death or failure (death of the patient, end of the study, loss of information about the patient, ... ). Therefore, the phenomenon of censorship appears when there is a limitation on the information that we have on the variables of interest of a certain model since, from a certain moment, we can not observe them. In this work we will study the theoretical properties of the different methods that are used to estimate the parameters associated with a regression model in the case that the response variable is right censored. We will use simple linear regression models to try to explain the relationship of a pair of variables and we will observe how the same methods can not be used as for the case of complete data. Once the different methods are presented, we will compare these estimators through a simulation study using the Monte Carlo method to check which method gives us better results. To measure the quality of the different estimators available in the literature, we will use the mean square error. Finally, we will perform a real data application that will allow us to illustrate the behavior in practice of the different methods studied throughout this work. Both the simulation study and the real data application to will be carried out using the statistical software R
Description
Traballo Fin de Grao en Matemáticas. Curso 2019-2020
Bibliographic citation
Relation
Has part
Has version
Is based on
Is part of
Is referenced by
Is version of
Requires
Sponsors
Rights
Atribución-NoComercial-CompartirIgual 4.0 Internacional



