无论您是坐在台式计算机上,在平板电脑上阅读新闻,还是在服务器上操作网站,这些设备的后台都会发生许多不同的过程。如果发生错误,或者您只是想了解有关给定操作系统或程序正在执行哪些操作的更多信息,那么日志文件可以在这方面为您提供帮助。这些几乎由每个应用程序、服务器和数据库系统自动记录。
一般来说,日志文件很少被读取和评估 – 把它们想象成一个虚拟的黑匣子:只有在最紧急的情况下才会被检查。由于它们捕获数据的方式,日志文件被证明是查找有关程序和系统错误的更多信息的极好来源;它们还特别适合收集有关用户行为的信息。了解更多用户信息的能力使这项技术对网站运营商特别感兴趣,因为他们能够从位于其网络服务器上的日志文件中获取有用的数据。
什么是日志文件?
日志文件,有时也称为事件文件,通常处理常见的文本文件。 这些包含有关已被其相应程序员定义为相关的所有进程的信息。 当涉及到数据库的日志文件时,它显示了对正确执行的事务所做的所有更改。 如果数据库的一部分被删除,例如 在系统关闭过程中,日志文件作为将数据集恢复到其正确状态的基础。
日志文件是根据它们的编程方式自动生成的。 如果您对所涉及的技术方面足够熟悉,也可以创建自己的文件。 通常,日志文件中的一行包含以下信息:
记录的事件(例如程序开始)
时间戳,为事件分配日期和时间
通常,时间首先显示,以显示事件的时间顺序。
日志文件的典型应用
操作系统通常通过将不同的进程类型分配给固定类别来创建多个协议文件。 例如,Windows 系统记录有关应用程序事件、系统事件、安全相关事件、设置事件和重定向事件的信息。 这使管理员可以深入了解相应的日志文件信息,从而帮助他们进行故障排除; Windows 日志文件还显示哪些用户已登录和注销系统。 除了操作系统之外,以下程序和系统收集的数据完全不同:
后台程序,如电子邮件、数据库或代理服务器,会生成主要用于记录错误和事件消息以及其他通知的日志文件。这些功能有助于保护数据,并在发生崩溃时恢复数据。
安装的软件,如官方程序、游戏、即时通讯工具、防火墙或病毒扫描程序,在日志文件中保存了许多不同类型的数据。这个过程可能会涉及不同的配置或聊天消息。程序崩溃的实例被编译并用于帮助加快故障排除工作。
服务器(尤其是网络服务器)记录相关网络活动;此信息包含有关用户及其在网络中的行为的有用数据。此外,授权管理员被授予有关哪些用户启动应用程序或请求文件、他们执行此操作的时间和时间以及使用的操作系统的信息。 Web 日志分析是最古老的 Web 控制方法之一,也是展示日志文件多种用途的最佳示例之一。
Web 服务器日志文件:日志文件潜力的教科书示例
最初,Web 服务器(如 Apache 或 Microsoft IIS)的日志文件是记录和修复处理错误的默认选项。 然而,很快就发现 Web 服务器日志文件包含更多有价值的数据:有关托管在服务器上的网站的可用性和受欢迎程度的信息以及用户数据,例如:
页面浏览时间
页面浏览次数
会话时长
IP 地址和用户的主机名
有关请求客户端(通常是浏览器)的信息
使用的搜索引擎,包括搜索查询
应用操作系统
Web 服务器日志文件的典型条目如下所示:
通常在网站的目录中会存在服务器日志文件,而日志文件中包含的内容类似以下内容。
85.111.123.12 - - [18/Mar/2021:08:04:22 +0200] "GET /images/logo.jpg HTTP/1.1" 200 512 "http://www.xxxxx.org/" "Mozilla/5.0 (X11; U; Linux i686; de-DE;rv:1.7.5)"
各个参数的详细概述:
以下提供的参数解释仅供参考分析使用,具体请以实际的网站日志为准。
意义 | 示例值 | 解释 |
IP 地址 | 85.111.123.12 | 请求主机的 IP 地址 |
空闲 | – | 通常未知的 RFC 1413 身份 |
谁? | – | 显示用户名,前提是已经进行了 HTTP 身份验证; 否则,就像这个例子中的情况一样,它仍然是空的。 |
什么时候? | [18/Mar/2021:08:04:22 +0200] | 由日期、时间和时间偏移信息组成的时间戳 |
什么? | “GET /images/logo.jpg HTTP/1.1” | 发生的事件,在这种情况下是通过 HTTP 的图像请求 |
访问状态? | 200 | 确认请求成功(HTTP 状态码 200) |
多少? | 512 | 如果适用:传输的数据量(以字节为单位) |
来自哪里? | http://www.xxxxx.org/ | 请求文件的网址 |
通过什么方式? | “Mozilla/5.0 (X11; U; Linux i686; de-DE;rv:1.7.5)” | 客户端技术信息:浏览器、操作系统、内核、用户界面、语音输出、版本 |
为了有效地评估信息洪流,已经开发了像 Webalizer 这样的工具。 它们获取收集的数据并将其转换为信息统计、表格和图形。 网站的发展趋势、单个页面的用户友好性或相关的关键字和主题都可以使用这些信息来确定。
即使网络服务器日志文件分析继续进行,由于越来越流行的网络分析方法,如 Cookie 或页面标记,这种久经考验的真实方法已经失去了一些以前的光彩。 推动这一趋势的一些因素包括分配会话时日志文件分析的容易出错的性质,以及网站运营商通常无法访问网络服务器的日志文件的事实。 尽管有这个缺点,但所有错误报告都会立即注册。 此外,从日志文件分析中收集的数据直接保存在公司内部。