Description
Este artículo de investigación presenta SynthID-Text, un nuevo método de marcado de agua para texto generado por modelos lingüísticos de gran tamaño (LLMs). El objetivo principal es permitir la identificación de textos sintéticos, mitigar el uso indebido accidental o deliberado y promover la transparencia y responsabilidad en el uso de LLMs. El documento aborda el problema de la creciente dificultad para distinguir el contenido generado por LLM del contenido escrito por humanos, lo cual tiene implicaciones en varios ámbitos como la educación y el desarrollo de software.
SynthID-Text utiliza un enfoque de marcado de agua generativo, que modifica sutilmente el proceso de muestreo de tokens durante la generación de texto, introduciendo una firma estadística detectable. Esta técnica no afecta el entrenamiento del LLM ni requiere acceso al modelo subyacente durante la detección, lo que la hace práctica y eficiente. El documento compara SynthID-Text con otros métodos de marcado de agua, mostrando mejoras en la detectabilidad y la preservación de la calidad del texto. También describe la integración de SynthID-Text con técnicas de muestreo especulativo, optimizadas para la eficiencia en sistemas de producción a gran escala.